知行编程网知行编程网  2022-05-22 17:00 知行编程网 隐藏边栏 |   抢沙发  2 
文章评分 0 次,平均分 0.0

浅谈图网络在视觉任务中的应用

来自 | 知乎   作者丨肥橘猫与肥柴犬

链接丨https://zhuanlan.zhihu.com/p/73572874

编辑 | 深度学习这件小事

本文仅作学术交流,如有侵权,请联系删除

浅谈图网络在视觉任务中的应用


关系建模(relationship modeling)在许多视觉任务中显得越来越重要,这也符合人自身的认知习惯:通过物体与周围环境的联系去认知该物体。而图网络具备结构化表示节点关系的能力,似乎天然地适合应用于这类建模任务中。
所以这周调查了图网络在一些视觉任务中的应用,以期获得一点点有关的insight。

   Point Cloud Processing

Point Cloud是一个物体的3D数据,每个点的数据包括3D坐标、RGB值等信息,可以理解为是“3D版”的图像数据。
浅谈图网络在视觉任务中的应用
与image classification和image segmentation相对应,Point Cloud领域也有自己的classification和segmentation任务。
但3D的Point Cloud原始数据不像图像数据那样结构化,后者一般会在2D网格上整齐排列,点坐标的分布是离散的,而Point Cloud的点坐标却是连续分布的。早期的方法会将Point Cloud原始数据首先转化到结构化的3D网格中(想象点在立方体中的分布),然而却带来了量化失真(quantization artifacts)和内存消耗巨大等问题。
MIT 2018年的论文Dynamic Graph CNN for Learning on Point Clouds提出用图网络来建模每个点与其邻居点的关系,从而捕捉到Point Cloud的high-level信息。这个图网络被命名为EdgeConv,意思是对点之间的边进行卷积,其核心部件非常简单,一张图就可以解释得差不多了:
浅谈图网络在视觉任务中的应用
值得注意的是,整个模型建立起的图是稀疏的,每个点只与最近的k个邻居相连,否则带来的计算量将无比庞大。
而文章一个重要的创新点是令图具有动态性,即每次更新完点的特征后都会重新计算每个点的k个最近邻,从而建立新的图。这样的优势是,即便图是稀疏的,每个点也有机会成为其他任意一个点的邻居,可以说,每个点的感知域(receptive field)是整个Point Cloud,而不局限于局部。
文章提供的一些实验示例清楚地体现了动态图的作用。下图可视化了红点到其余点的距离,随着点特征的迭代更新,语义上相似的部件(如桌腿)之间的距离越来越近,说明模型通过动态图逐步学习到了各点的语义特性。


浅谈图网络在视觉任务中的应用


   Scene Graph Generation

Scene Graph是一个图像的结构化形式,其中的每个节点表示图上的一个物体,节点之间的边表示物体间的关系。
CVPR 2017的Scene Graph Generation by Iterative Message Passing也应用了图网络的基本思想来处理Scene Graph Generation问题,该文章比较吸引我的一点是,它将图的边也进行了特征表示,并且和节点的特征互相进行信息传递(message passing),经过几轮这样的互动,模型得以学习到图像蕴含的视觉关系。
浅谈图网络在视觉任务中的应用
这个建模方法很接近factor graph的形式,在很多图网络的应用中,边的特征表示总是遭到忽视,而在这样的框架中,图的边和节点具有同等的地位,模型也更能全面地捕捉到关系。

   Object Detection

原有的Object Detection模型往往只考虑了物体本身,而忽视了物体与上下文的联系。
例如,原有的模型会把河上的船误认为是车,因为如果仅仅根据物体的外表来识别的话,漂在河上的船确实长得有点像车。
浅谈图网络在视觉任务中的应用
显然,更加智能的Object Detection算法应当将上下文也纳入考量,这样一来,Object Detection就不再只是单纯的识别问题,而有了一些推理的意味,如,根据河水这个环境推理出河上物体是船的可能性更大。
CVPR 2018的Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships一文就采用了上述的思路,提出一种名为Structure Inference Network(SIN)的模型。该模型利用了两种上下文信息,分别是整个场景的信息和物体间的关系信息,并且应用图网络将这些信息结构化:
浅谈图网络在视觉任务中的应用
在具体的实现上,SIN主要用到了Scene GRU和edge GRU,分别用于聚合场景信息和物体关系信息,然后用来迭代式地更新节点特征。


浅谈图网络在视觉任务中的应用


   小结

浅尝辄止地了解了图网络在上述几个视觉任务中的应用后,我的感受是,在当前的计算机视觉领域,视觉理解应当更多地寻求high-level信息,而基于图网络的关系建模则是一种非常重要的工具。


<pre style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;min-height: 1em;letter-spacing: 0.544px;white-space: normal;color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;widows: 1;line-height: 1.75em;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong>完<strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong></span></strong></span></strong></section><section style="max-width: 100%;letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;widows: 1;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(0, 0, 0);box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;font-size: 16px;font-family: 微软雅黑;caret-color: red;box-sizing: border-box !important;overflow-wrap: break-word !important;">为您推荐</span></strong></span></section><section style="margin: 5px 32px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">如何评价何恺明团队的最新工作RegNet?<br style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"  /></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(87, 107, 149);font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;">MIT最新深度学习入门课,安排起来!</span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(87, 107, 149);-webkit-tap-highlight-color: rgba(0, 0, 0, 0);cursor: pointer;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;">有了这个神器,轻松用 Python 写个 App</span></section><section style="margin: 5px 32px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">Manning大神牵头,斯坦福开源Python版NLP库Stanza:涵盖66种语言<br style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"  /></section></section></section></section></section></section></section></section></section>
浅谈图网络在视觉任务中的应用

本篇文章来源于: 深度学习这件小事

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享