【导读】大型公开可用的图像数据集(如ImageNet,Open Images和Conceptual Captions)是开发有价值的机器学习(ML)模型的必要和关键部分,它们的发布也是推动计算机视觉领域巨大进步的因素之一。然而这些开放的数据集的内容会由于各种原因而在地域上存在差异。近日,Google AI宣布了在Kaggle上包容性图像比赛(the Inclusive Images Competition on Kaggle),促进构建更具代表性的图像数据集。
计算机视觉领域一直是热门研究领域之一,具有广泛的实用价值和应用场景。计算机视觉的研究和发展中一个基础而关键的部分就是图像数据集。但是现已有的大型公开可用图像数据集(如ImageNet)在实用中也显现了一个问题,即基于这些数据集训练的ML模型会在地域上存在效果的差异性。其原因是,由于收集方式的不同,会导致一些开源数据集的内容会在地域上存在偏差,而数据集的内容又决定了ML模型学习的效果,所有这种差异性可能进一步导致研究团体开发的模型在这些数据集中代表性不足的地理区域上绘制的图像上表现的效果不佳。
例如,下列的图像是在一个标准的,基于Open Images数据集训练的开源图像分类器上的多类分类结果,从图像上可以看出这个分类器没有正确地在来自世界不同地区的婚礼的图像上预测“婚礼”相关标签。
近日,Google AI宣布了在Kaggle上包容性图像比赛(the Inclusive Images Competition on Kaggle),意在促进构建更具代表性的图像数据集。官方网站:https://www.kaggle.com/c/inclusive-images-challenge#description
该竞赛是与the Conference on Neural Information Processing SystemsCompetition Track联合举办的。它要求参赛者使用Open Images进行模型的训练和调优,Open Images是一个大型,多标签的公开可用的图像分类数据集,从北美和欧洲进行多数采样收集整理的。对于模型的评价也是在从全球不同地理区域收集的图像上进行的。
该竞赛于9月5日正式启动,提供可用的训练数据集和第一阶段挑战数据集。 提交结果的截止日期为11月5日星期一,测试集将于11月6日星期二发布。
最终比赛结果将在2018年的the Conference on Neural Information Processing Systems Competition Track上公布,官方将为排名靠前的竞争对手提供旅行补助金以参加会议。
—转自 专知—
为您推荐
通过简单代码回顾卷积块
【通俗易懂】10幅图解释机器学习中的基本概念
AI研发者福利!谷歌推出数据集搜索专用引擎Dataset Search
这些Python代码技巧,你肯定还不知道
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
内容反馈