Google | 突破瓶颈,打造更强大的Transformer

Google | 突破瓶颈,打造更强大的Transformer 4

知行编程网 人工智能前沿 2年前 (2022-01-16) 18 0

一只小狐狸带你解锁炼丹术&NLP秘籍 前言 《Attention is All You Need》一文发布后,基于Multi-Head Attention的Transformer模型开始流行起来,而去年发布的BERT模型更是将Transformer模型的热度推上了又一个高峰。当然,技术的探索是无止境的,改进的工作也相继涌现:有改进预训练任务的,比如XLNET的PLM、ALBERT的SOP等...

我删掉了Transformer中的这几层…性能反而变好了?

我删掉了Transformer中的这几层…性能反而变好了? 13

知行编程网 人工智能前沿 2年前 (2022-02-03) 15 0

基于Transformer结构的各类语言模型(Bert基于其encoder,Gpt-2基于其decoder)早已经在各类NLP任务上大放异彩,面对让人眼花缭乱的transformer堆叠方式,你是否也会感到迷茫?没关系,现在让我们回到最初,再次看看transformer 本来的模样——Rethinking the Value of Transformer Components。该文收录已于COLI...

互联网大厂CTR预估前沿进展

互联网大厂CTR预估前沿进展 49

知行编程网 人工智能前沿 2年前 (2022-01-31) 303 0

前言 CTR(click through rate)预估模型是广告推荐领域的核心问题。早期主要是使用LR(线性回归)+人工特征工程的机器学习方法,但是存在人工组合特征工程成本较高,不同任务难以复用的问题。后来随着FM因子分解机的出现,提出了使用二阶特征自动交叉的方法,缓解了人工组合特征的难题。之后2014年Facebook使用GBDT+LR方案,提出了树模型构建组合特征的思路。2015年后,由于深...

扫一扫二维码分享