Transformer

Transformer太大了，我要把它微调成RNN 18

知行编程网人工智能前沿 2年前 (2022-02-06) 205 0

从前车马很慢，显卡跑的也慢，一生只够爱一个RNN。后来时代进步了，数据量和计算力阔绰了，堆叠起来的Transformer能够在更深更宽的模型结构里吃下去更多的数据。从19年的预训练浪潮开始，暴力美学兴起，更深的Transformer更久的预训练更大的模型参数量，暴力出奇迹一个个NLP榜单被刷新，但谁又记得起来当初Transformer论文里“解决RNN无法并行化训练问题”的追求效率的motivat...

可交互的 Attention 可视化工具！我的Transformer可解释性有救了？ 9

知行编程网人工智能前沿 2年前 (2022-02-08) 942 0

视觉是人和动物最重要的感觉，至少有80%以上的外界信息是经过视觉获得的。我们看论文的时候，通过图表来确定文章的大致内容往往也是一个更高效的说到深度神经网络的可视化，最经典的莫过于的CNN密恐图了：这种可视化方法可以让我们清晰的知道每一层的每一个Cell关注何种信息，模型最后是如何逐层迭代处理得到最后的判断。但是对NLP而言，文字并不容易转换成这样直观的视觉表示。对Transformer而言，理...

谷歌：CNN击败Transformer，有望成为预训练界新霸主！LeCun却沉默了... 15

知行编程网人工智能前沿 2年前 (2022-02-08) 221 0

这几年，大家都说深度学习进入了预训练时代。作为一个入行不久的小白，我一直以为各类基于 Transformers 结构的预训练模型是 NLP 的巨大里程碑，CNN、RNN 老矣，只配作为手下败将。大家的文章似乎也是这样：把 BERT 作为 encoder 的归为一组来对比性能，把 CNN、RNN encoder 归为另一组，且总是要比基于 BERT 的差一些。但是，我们有没有想过一个问题？当今所有...

Transformer太大了，我要把它微调成RNN 18

可交互的 Attention 可视化工具！我的Transformer可解释性有救了？ 9

谷歌：CNN击败Transformer，有望成为预训练界新霸主！LeCun却沉默了... 15

联系我们

标签云

推广返利