打开 Kaggle ,琳琅满目的比赛让人目不暇接,研究的领域更是五花八门,从农林牧渔到衣食住行,似乎只要有数据,不论数据好坏,就可以直接使用各种机器学习的模型在其身上大展拳脚,从逻辑回归到 SVM,从决策树到 XGBoost,换着模型套用在数据上重复实验,最后再加上集成学习的方法就可以取得不错的结果。
这样的现状往往让人们产生一种错觉,所谓 AI 其实质上指的就是那些基于复杂数学原理构造的不同模型,只要将这些模型的数学原理拿支笔细细推导一番,现实生活中的一切问题便都可以被这些模型所解决。
然而事实上,机器学习的算法代码只是整个 AI 流水线中的小小一环,我们往往开玩笑的说道我们的工作 80% 都是在做数据预处理的工作,事实在某种程度上也确是如此,一个 AI 项目一般而言由四个步骤组成:项目分析——数据收集——模型训练——项目部署。应用与改造各种模型的工作只存在于第三步,但现阶段无论是研究还是比赛,往往都是给定一个数据集,让研究员或参赛者不断改进模型不断迭代以达到预期的效果。而面对模型准确率的瓶颈,唯一的黄金法则却只是增大数据的量级。
在这个背景下,近日,我们熟悉的吴恩达老师发起了一个以数据为中心的 AI 竞赛( Data-Centric AI competition ),区别于传统的以模型为中心的比赛( Model-Centric AI competition )不断改进模型以提升准确率的方法,这项比赛通过给定模型的方式,要求参赛者通过不断改进数据以获得更好的成绩。
具体而言,这项比赛给予参赛者一个包含约 3000 张手写罗马数字 1-10 的图像数据集,在使用 ResNet50 模型的基础上,要求参赛者应用以数据为中心的方法对数据集进行改进以提升分类的准确率,其主要手段有应用数据增强、修复不正确的标签、新增体现边缘特征的样本等等。
吴恩达老师指出,就目前来看,许多应用的模型与相应的代码实现其实是一个已经被解决了的问题。但是与一套已经成熟的可以应用到工业界的算法体系相比,现在更加缺少的也许是一套成熟的构建工业化数据集的方法论。而另一方面,尽管增加数据是目前提升模型性能的不二法门,但是根据调查,大多数的现实应用的数据量级往往是集中在 10000 上下,在小规模数据的情况下,数据质量的重要性将会更加凸显。
从一个简单的小例子来看,当一个小数据集存在错误标签时,模型很难给出一个正确的输出,当增加数据量级时,错误标签带来的影响将会被削弱,模型有可能从大规模数据中得出正确的分类结果。但如果我们转换思路,如果我们对小数据集的错误标签进行处理,得到一个非常“干净”的数据集,那么我们将同样有可能得到正确的分类结果。
从某种意义上讲,这种以数据为中心的方法的提出,完成了一次机器学习领域的“哥白尼倒转”,过去我们会认为在研究与比赛中应该模型绕着数据转,但现在一种数据绕着模型转的方法未尝不能以更有效率的方式做到同样的事情。然而可惜的是,在目前关于如何取获得“质量更好”而非“数量更多”的数据尚无一种统一的方法论去处理,甚至有质疑者如图灵奖得主 Judea Pearl 教授认为在不知道什么是质量更好的数据的基础上提升数据质量是不太现实的。但从某种程度上讲,这也是吴恩达老师举办这场比赛的原因之一。
目前,吴恩达老师的思路集中在借鉴 MLOps(机器学习操作)的思维框架之上。MLOps 是将 DevOps 原则应用于机器学习系统开发过程的实践,为缩短模型开发部署的迭代周期,MLOps 在一个机器学习系统从发布到规划部署的全部阶段应用自动化的流程连接模型构建、业务与运维团队,从而使得企业更加高效的应用机器学习系统。
针对以数据为中心的任务,首先使用固定模型对数据进行训练,针对结果进行错误分析,识别出模型处理不当的数据类型,再通过诸如数据增强、错误标签修复等方法增强数据,再进入模型之中反复持续改进。吴恩达老师希望以数据为中心的方法结合新的 MLOps 工具可以使得机器学习系统的构建更具高效性与系统性,并最终形成一个贯穿整个 AI 生命周期的工具集合。
这项由 DeepLearning AI 和 Landing AI 之间的合办的竞赛一直持续到美国时间2021年9月4日下午6点(北京时间9月5日上午10点),有兴趣的小伙伴可以注册 CodaLab Worksheets 帐户提交你所改进的数据集加入竞赛排行榜,比赛将从整体表现与创新性两个维度进行评分,两项评分各自的前三名可以获得与吴恩达老师一起参加活动并共同讨论以数据为中心的方法的发展与未来的机会哦,以下是吴恩达老师的推特与竞赛官方网址~
Twitter:
https://twitter.com/AndrewYNg/status/1405622853735649284
项目主页:
https://https-deeplearning-ai.github.io/data-centric-comp/
[1].Andrew Ng Launches A Campaign For Data-Centric AI
https://www.forbes.com/sites/gilpress/2021/06/16/andrew-ng-launches-a-campaign-for-data-centric-ai/
[2].MLOps: Continuous delivery and automation pipelines in machine learning
https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning
[3]. A Chat with Andrew on MLOps: From Model-centric to Data-centric AI
https://www.youtube.com/watch?v=06-AZXmwHjo
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 工业解密:百度地图背后的路线时长预估模型!01/22
- ♥ Facebook大公开:解决NLG模型落地难题!工业界的新一波春天?01/29
- ♥ BP算法是从天上掉下来的吗?12/29
- ♥ 聊聊工业界做机器学习的里程碑01/24
- ♥ 终于有人把云计算、大数据和人工智能讲明白了!03/18
- ♥ 内卷的世界,我们是否可以换一种思维生活?01/31
内容反馈