知行编程网知行编程网  2022-07-05 14:00 知行编程网 隐藏边栏 |   抢沙发  3 
文章评分 0 次,平均分 0.0

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

萧箫 发自 凹非寺 

报道 | 量子位 

想要优化自己的神经网络,却不知道哪种优化器更适合自己?

又或者,想知道深度学习中梯度下降的算法到底都有哪些?

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

现在,最全面的优化算法分析来了。

它整理了自1964年以来,几乎所有的优化方法 (约130种),将它们进行了分类。

此外,它还给出了几种基准测试方法,并用它分析了1344种可能的配置方案。

在运行了35000次测试后,它给出了非常全面的优化器算法分析介绍,并告诉你如何用这些基准测试,为自己的深度学习模型选择最好的优化方案。

   优化方法具体都有哪几种?

从下图这份密密麻麻的图表来看,迄今为止,提出的优化算法已经有130种左右。

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

目前他们还看不出来区别,但在测试结果中可以发现,这些优化器明显能被分成两类,一种适用于VAE(变分自编码器),另一种则不适用于VAE。

而从这些优化器中的常用参数来看,α0表示初始学习率,αlo和αup代表上下界,∆t表示切换衰减样式的周期,k表示衰减因子。

可以看出,这些学习率的参数主要可以被分为常数、梯度下降、平滑下降、周期性、预热、超收敛等几种。

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

那么,130多种优化器,哪种才是最适用的?而对这些参数进行调整,到底能对优化器起到多大的作用?

用基准测试方法来测测,就知道了。

   8种基准测试方法

如下图,作者提出了8种优化任务,在这些任务上面进行测试,以得到对比结果。

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

从图中看来,无论是数据集(MNIST、CIFAR-10等)、模型(VAE、CNN、RNN等),还是任务(分类、NLP等)和标准(损失率、精度)都不一样。

此外,batchsize也考虑在内(看来实验机器性能不错)。制作这些测试的目的在于,多角度考量出这些优化方法的合理性。

测试按照下图流程走,整体算下来,共有1344种配置,共运行接近35000次。

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

为了得知哪种优化方法更合适,这样做也是很拼了。

   如何选择适合自己的优化方法?

那么,具体如何选择适合的优化方法呢?

下图是作者随机选取的14个优化器。

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

下图是这些优化器在上面8种基准测试下的表现结果。

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

其中,红色的I表示误差范围。可以看出,在一定误差范围内,某一类优化方法的性能几乎非常相似:它们在各种基准测试上的表现都不错。

为了验证这些测试方法的稳定性,作者特意对其中一些算法进行了参数调整,下图是经典算法RMSProp和RMSProp(2)的调优结果。

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

可见,不同的参数能给优化算法的性能带来不小的波动变化。

更直接地,如果增加(性能)预算,从下图可以看出,性能的改进也会有所增加。(图中橙色为所有灰线的中值)

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

也就是说,即使优化算法的性能不错,合理调参仍然不可或缺。

那么,到底有多少优化器存在“改进参数,竟然能大幅增加优化能力”的问题呢?

还不少。

从下图来看,绿色表示优化过后,优化算法能更好地运行。

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

换而言之,只要某种优化算法的结果是一片绿,那么它原来的默认参数就真的很糟糕……

例如,AMSGrad、Mom、NAG的默认参数都存在很大的改进空间。相比而言,AMSBound由于自适应,默认参数都还非常不错,不需要再有大改进。

对这些优化器进行评估后,研究者们得出以下几个结论:

1、优化器的性能,在不同的任务中有很大差异;

2、事实上,大部分优化器的性能惊人地相似,目前尚没有“最通用”的优化方法;

3、对优化器进行(参数)微调,其实和选择优化器一样重要、甚至更重要。

不过,虽然这份表格已经非常详细,还是有细心的网友发现了盲点:像SWA这样非常简单高效的方法,还是在分析时被遗漏了。

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

当然,就提出的几种基准测试来说,已经适合用于分析大部分优化器的选择方案。

目前,作者已经在ArXiv论文页面,开源了基准测试方法的Code,感兴趣的小伙伴可戳论文地址查看~

   作者介绍

这几位作者都来自于德国图宾根大学。

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

Robin M. Schmidt,计算机专业研究生,主要研究方向是人工智能,感兴趣的方向在深度学习、强化学习及优化上。

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

Philipp Hennig,机器学习教授,兼任马普所科学家,曾于海德堡大学和帝国理工学院修读物理,并在剑桥大学获得机器学习博士学位。

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

Frank Schneider,机器学习博士生,研究领域是机器学习的优化方法。目前在钻研深度学习的超参数,使深度神经网络的训练自动化。

论文地址:
https://arxiv.org/abs/2007.01547

<section data-brushtype="text" style="padding-right: 0em;padding-left: 0em;white-space: normal;max-width: 100%;letter-spacing: 0.544px;color: rgb(62, 62, 62);font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;font-size: 16px;widows: 1;word-spacing: 2px;caret-color: rgb(255, 0, 0);background-color: rgb(255, 255, 255);text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong>完<strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong></span></strong></span></strong></section><pre style="padding-right: 0em;padding-left: 0em;max-width: 100%;letter-spacing: 0.544px;color: rgb(62, 62, 62);font-size: 16px;widows: 1;word-spacing: 2px;caret-color: rgb(255, 0, 0);background-color: rgb(255, 255, 255);text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><pre style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;max-width: 100%;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(0, 0, 0);box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;font-size: 16px;font-family: 微软雅黑;caret-color: red;box-sizing: border-box !important;overflow-wrap: break-word !important;">为您推荐</span></strong></span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">干货 | 算法工程师超实用技术路线图</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="font-size: 14px;">13个算法工程师必须掌握的PyTorch Tricks</span><span style="letter-spacing: 0.544px;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;"></span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="font-size: 14px;">吴恩达上新:生成对抗网络(GAN)专项课程</span><br  /></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">拿到2021灰飞烟灭算法岗offer的大佬们是啥样的<span style="font-size: 14px;">?</span><br  /></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;color: rgb(0, 0, 0);box-sizing: border-box !important;overflow-wrap: break-word !important;">你一定从未看过如此通俗易懂的YOLO系列解读 (下)</section></section></section></section></section></section></section></section></section>

建神经网络模型,哪种优化算法更好?35000次测试告诉你丨图宾根大学出品

本篇文章来源于: 深度学习这件小事

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享