堪比当年的LSTM，Transformer引燃机器学习圈：它是万能的

知行编程网 2022-07-29 12:00 知行编程网 | 隐藏边栏 | 抢沙发 | 44 0

文章评分 0 次，平均分 0.0 ：

来自｜机器之心

谷歌研究科学家 David Ha：Transformer 是新的 LSTM。

2017 年 6 月谷歌发布论文《Attention is All You Need》时，我们或许都没有意识到它提出的 Transformer 架构将带来多少惊喜。

在诞生至今不足四年的时间里，Transformer 不仅成为自然语言处理领域的主流模型（基于 Transformer 的预训练语言模型成为主流），还开始了向其他领域的跨界，近几个月来出现了大量将 Transformer 应用于计算机视觉领域的研究。

2020 年 10 月，谷歌提出了 Vision Transformer (ViT)，可以直接利用 transformer 对图像进行分类，而不需要卷积网络。ViT 模型取得了与当前最优卷积网络相媲美的结果，但其训练所需的计算资源大大减少。

2020 年 12 月，复旦、牛津、腾讯等机构的研究者提出了 SEgmentation TRansformer（SETR），将语义分割视为序列到序列的预测任务，该模型在 ADE20K 上排名第一，性能优于 OCNet、GCNet 等网络。

2021 年 1 月初，OpenAI 又连放大招，用 DALL·E 和 CLIP 打破了自然语言与视觉的次元壁。两个模型都利用 Transformer 达到了很好的效果，前者可以基于本文直接生成图像，后者则能完成图像与文本类别的匹配。

由此，「Transformer 是万能的吗？」成为了近期机器学习社区的热门话题。谷歌大脑研究员 David Ha 发推表示：Transformer 是新的 LSTM。

他否定了自己在 2017 年 5 月发表的言论：「LSTM 就像神经网络中的 AK47。不管我们多么努力地想用新事物取代它，都是白费力气。从现在起它还将应用 50 年。」LSTM 由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年联合提出，当时已诞生 20 年。

David Ha 不会想到，这句预言被一个月后出现的 Transformer 打破，而这仅用了 4 年时间。

著名机器学习资源网站 Papers with Code 在 1 月 20 日发布的 Newsletter 中列举了近期应用 Transformer 的十大新任务：

图像合成

论文：Taming Transformers for High-Resolution Image Synthesis
链接：https://arxiv.org/pdf/2012.09841v1.pdf

多目标追踪

论文：TransTrack: Multiple-Object Tracking with Transformer
链接：https://arxiv.org/pdf/2012.15460v1.pdf

音乐生成

论文：Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs
链接：https://arxiv.org/pdf/2101.02402v1.pdf

舞蹈生成

论文：Dance Revolution: Long-Term Dance Generation with Music via Curriculum Learning
链接：https://arxiv.org/pdf/2006.06119v5.pdf

3D 目标检测

论文：Self-Attention Based Context-Aware 3D Object Detection
链接：https://arxiv.org/pdf/2101.02672v1.pdf

点云处理

论文：PCT: Point Cloud Transformer
链接：https://arxiv.org/pdf/2012.09688v1.pdf

时序预测

论文：Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting
链接：https://arxiv.org/pdf/1912.09363v3.pdf

视觉 - 语言建模

论文：VinVL: Making Visual Representations Matter in Vision-Language Models
链接：https://arxiv.org/pdf/2101.00529v1.pdf

车道形状预测

论文：End-to-end Lane Shape Prediction with Transformers
链接：https://arxiv.org/pdf/2011.04233v2.pdf

端到端目标检测

论文：Deformable DETR: Deformable Transformers for End-to-End Object Detection
链接：https://arxiv.org/pdf/2010.04159v2.pdf

而除了 David Ha 以外，另一位研究者英伟达研究科学家、前 OpenAI 研究科学家 Ankur Handa 也表示「Transformers are all you need」：

... is All You Need?

Transformer 引领了不止一种潮流。

在其论文《Attention is All You Need》发表后，各种「** is All You Need」论文纷纷出现。就连 LSTM 提出者 Sepp Hochreiter 也写过一篇《Hopfield Networks is All You Need》。有趣的是，这篇论文正是对 Transformer 核心注意力机制新颖性的驳斥：Transformer 中的注意力机制等价于 Hopfield 网络中的更新规则。

Transformer 的强大主要归功于其中的注意力机制。注意力机制在 NLP 领域的应用最早可以追溯到 2014 年 Bengio 团队将其引入神经机器翻译任务，但那时模型的核心架构还是 RNN。相比之下，Transformer 完全抛弃了传统的 CNN 和 RNN，整个网络结构完全由注意力机制组成，这种改变所带来的效果提升也是颠覆性的。

然而，Sepp Hochreiter 等人在 2020 年 7 月发表的论文《Hopfield Networks is All You Need》中表示，Transformer 中的注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。

Sepp 这篇论文发表时，Transformer 的跨界之旅已经开始。2020 年 5 月，Facebook AI 推出了首个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架——Detection Transformer（DETR），用于目标检测和全景分割。6 月，OpenAI 将基于 Transformer 的模型 GPT-2 应用到图像领域，用于图像分类任务。

半年过去，越来越多的工作开始探索如何将 Transformer 应用于计算机视觉等其他领域，最近更是出现了「Transformers are all you need」、「Transformers are the new LSTMs」的说法。

Transformer 是新的 LSTM 吗？

1997 年，Sepp Hochreiter 与 Jürgen Schmidhuber 联合发表了长短期记忆网络（LSTM）论文，被认为是机器学习发展史上的一座里程碑。

LSTM 是一种特殊的循环神经网络（RNN）。Sepp Hochreiter 在 1991 年分析了随时间反向传播（BPTT）带来的梯度爆炸和梯度消失问题；1997 年，Sepp Hochreiter 与 Jürgen Schmidhuber 在 LSTM 论文中引入 CEC 单元解决 BPTT 带来的梯度爆炸和消失问题。之后又有许多研究者对其进行了改进和普及。

LSTM 单元的基本结构（图源：https://en.wikipedia.org/wiki/Long_short-term_memory）

2020 年 2 月，LSTM 提出者 Jürgen Schmidhuber 撰文综述了 LSTM 的十年发展史，介绍了它在机器翻译、语音识别、机器人学、时序预测、聊天机器人等多个领域的应用。

而 Transformer 诞生伊始就完全舍弃了 RNN，在 LSTM 占优势的 NLP 领域逐渐站稳脚跟。现在，许多研究又将它应用于时序预测、音乐生成、图像分类等跨界任务中。在 Papers with Code 最近发布的 Transformer 应用十大新任务中，过去都有着 LSTM 的活跃身影。

Transformer 是新的 LSTM 吗？从模型应用领域的多样性来看，这似乎已见雏形。

不知道如果现在发表「Transformer 无法被替代，还可以再用 50 年」的预言，多久之后会被打破。😊

参考链接：

https://paperswithcode.com/newsletter/3

https://twitter.com/hardmaru

<section data-brushtype="text" style="padding-right: 0em;padding-left: 0em;white-space: normal;font-size: 16px;letter-spacing: 0.544px;color: rgb(62, 62, 62);font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;widows: 1;word-spacing: 2px;caret-color: rgb(255, 0, 0);text-align: center;"><strong style="color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;font-size: 14px;"><strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;">—</span></strong>完<strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;font-size: 14px;"><strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;">—</span></strong></span></strong></span></strong></section><pre style="color: rgb(86, 86, 86);font-size: 16px;letter-spacing: 1px;text-align: left;"><pre><section style="letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;"><section powered-by="xiumi.us"><section style="margin-top: 15px;margin-bottom: 25px;opacity: 0.8;"><section><section style="letter-spacing: 0.544px;"><section powered-by="xiumi.us"><section style="margin-top: 15px;margin-bottom: 25px;opacity: 0.8;"><section><section style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;text-align: center;"><span style="color: rgb(0, 0, 0);"><strong><span style="font-size: 16px;font-family: 微软雅黑;caret-color: red;">为您推荐</span></strong></span></section><p style="margin: 5px 16px;padding-right: 0em;padding-left: 0em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">一个算法工程师的日常是怎样的？</p><p style="margin: 5px 16px;padding-right: 0em;padding-left: 0em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">彻底搞懂机器学习中的正则化<br  /></p><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;"><span style="font-size: 14px;">13个算法工程师必须掌握的PyTorch Tricks</span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;"><span style="font-size: 14px;">吴恩达上新：生成对抗网络（GAN）专项课程</span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">从SGD到NadaMax，十种优化算法原理及实现</section></section></section></section></section></section></section></section></section>

本篇文章来源于: 深度学习这件小事

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利