Transformer太大了,我要把它微调成RNN

Transformer太大了,我要把它微调成RNN 18

知行编程网 人工智能前沿 2年前 (2022-02-06) 205 0

从前车马很慢,显卡跑的也慢,一生只够爱一个RNN。后来时代进步了,数据量和计算力阔绰了,堆叠起来的Transformer能够在更深更宽的模型结构里吃下去更多的数据。从19年的预训练浪潮开始,暴力美学兴起,更深的Transformer更久的预训练更大的模型参数量,暴力出奇迹一个个NLP榜单被刷新,但谁又记得起来当初Transformer论文里“解决RNN无法并行化训练问题”的追求效率的motivat...

可交互的 Attention 可视化工具!我的Transformer可解释性有救了?

可交互的 Attention 可视化工具!我的Transformer可解释性有救了? 9

知行编程网 人工智能前沿 2年前 (2022-02-08) 942 0

视觉是人和动物最重要的感觉,至少有80%以上的外界信息是经过视觉获得的。我们看论文的时候,通过图表来确定文章的大致内容往往也是一个更高效的 说到深度神经网络的可视化,最经典的莫过于的CNN密恐图了: 这种可视化方法可以让我们清晰的知道每一层的每一个Cell关注何种信息,模型最后是如何逐层迭代处理得到最后的判断。但是对NLP而言,文字并不容易转换成这样直观的视觉表示。对Transformer而言,理...

谷歌:CNN击败Transformer,有望成为预训练界新霸主!LeCun却沉默了...

谷歌:CNN击败Transformer,有望成为预训练界新霸主!LeCun却沉默了... 15

知行编程网 人工智能前沿 2年前 (2022-02-08) 221 0

这几年,大家都说深度学习进入了预训练时代。作为一个入行不久的小白,我一直以为各类基于 Transformers 结构的预训练模型是 NLP 的巨大里程碑,CNN、RNN 老矣,只配作为手下败将。大家的文章似乎也是这样:把 BERT 作为 encoder 的归为一组来对比性能,把 CNN、RNN encoder 归为另一组,且总是要比基于 BERT 的差一些。 但是,我们有没有想过一个问题?当今所有...

扫一扫二维码分享