Transformer

Google | 突破瓶颈，打造更强大的Transformer 4

知行编程网人工智能前沿 2年前 (2022-01-16) 18 0

一只小狐狸带你解锁炼丹术&NLP秘籍前言《Attention is All You Need》一文发布后，基于Multi-Head Attention的Transformer模型开始流行起来，而去年发布的BERT模型更是将Transformer模型的热度推上了又一个高峰。当然，技术的探索是无止境的，改进的工作也相继涌现：有改进预训练任务的，比如XLNET的PLM、ALBERT的SOP等...

我删掉了Transformer中的这几层…性能反而变好了？ 13

知行编程网人工智能前沿 2年前 (2022-02-03) 15 0

基于Transformer结构的各类语言模型（Bert基于其encoder,Gpt-2基于其decoder）早已经在各类NLP任务上大放异彩，面对让人眼花缭乱的transformer堆叠方式，你是否也会感到迷茫？没关系，现在让我们回到最初，再次看看transformer 本来的模样——Rethinking the Value of Transformer Components。该文收录已于COLI...

互联网大厂CTR预估前沿进展 49

知行编程网人工智能前沿 2年前 (2022-01-31) 303 0

前言 CTR（click through rate）预估模型是广告推荐领域的核心问题。早期主要是使用LR（线性回归）+人工特征工程的机器学习方法，但是存在人工组合特征工程成本较高，不同任务难以复用的问题。后来随着FM因子分解机的出现，提出了使用二阶特征自动交叉的方法，缓解了人工组合特征的难题。之后2014年Facebook使用GBDT+LR方案，提出了树模型构建组合特征的思路。2015年后，由于深...

Google | 突破瓶颈，打造更强大的Transformer 4

我删掉了Transformer中的这几层…性能反而变好了？ 13

互联网大厂CTR预估前沿进展 49

联系我们

标签云

推广返利