知行编程网知行编程网  2022-05-17 17:00 知行编程网 隐藏边栏 |   抢沙发  5 
文章评分 0 次,平均分 0.0

【讨论】计算机视觉领域如何从别人的论文里获取自己的idea?

来自 | 知乎
链接丨https://www.zhihu.com/question/353691411
编辑 | 深度学习这件小事

仅作学术交流,如有侵权,请联系删除

【讨论】计算机视觉领域如何从别人的论文里获取自己的idea?

   提问

计算机视觉领域如何从别人的论文里获取自己的idea?

   高质量回答

Cheng Li
机器学习学习者
https://www.zhihu.com/question/353691411/answer/900046621


我其实有个不错的想法:


40篇比较新的oral paper,最好是开源的、你能看懂的、尽可能时髦的、大佬点赞的。


然后画一个40*40的矩阵,对角线上的元素不看,还剩下1560个元素。


每个元素看看A+B是不是靠谱,虽然可能99%都不靠谱。


但是还是有可能筛出来15篇左右的idea,如果考虑交换性可能只有7篇也够了。


或者你找40篇比较新的不是你发的oral paper,再找K篇自己的paper,也可以做这个事情。这样就不用排除对角元素了。


个人的publication水平还不高,不过很多其实也不是A+B产生的。


比如CNN之前的话有一些是发数据集的


Pixel-Level Hand Detection in Ego-centric Videos

https://www.cv-foundation.org/openaccess/content_cvpr_2013/papers/Li_Pixel-Level_Hand_Detection_2013_CVPR_paper.pdf


有一些其实是一个经典pipeline里面有A+B+C很多步。


别人讨论B,C等步骤比较多,但是A步骤也很重要。想出一个A的trick最后发展出一篇文章


Face alignment by coarse-to-fine shape searching

http://openaccess.thecvf.com/content_cvpr_2015/papers/Zhu_Face_Alignment_by_2015_CVPR_paper.pdf


A+B也可以有一些跨度大的时候,也能产生一些还比较有趣的想法,并不是简简单单的incremental work。


比如把推荐系统用在分类器推荐(CNN时代之前)


Model recommendation with virtual probes for egocentric hand detection

http://openaccess.thecvf.com/content_iccv_2013/html/Li_Model_Recommendation_with_2013_ICCV_paper.html


分而治之也是常见思路,任何topic都可以加(CNN时代之前)


Unconstrained face alignment via cascaded compositional learning

http://openaccess.thecvf.com/content_cvpr_2016/html/Zhu_Unconstrained_Face_Alignment_CVPR_2016_paper.html


还有有的时候看到别人RL+tracking的文章,想到手里的聚类也可以这么做,就搞了一个A+B(不过步子扯有点大老是被拒后来就投了AAAI)


Merge or not? learning to group faces via imitation learning

https://arxiv.org/abs/1707.03986


今年还看到有人用GCN聚类所以结合GCN重新投了一篇。(还没release)


还有有时候可以做一些哲学讨论,就不是简单的A+B了


The devil of face recognition is in the noise

http://arxiv.org/abs/1807.11649


----------补充说明----------


发现看的人有点多 (为了避免误导)感觉要补充说明下

如果只是A+B需要说明为什么是non-trivial的,一般至少要改成A+B' 或者 A+B+C 比较容易发

比如之前搞过一篇其实是Unsupervised Landmark + VUNet的decompose + CycleGAN

如果只是前面两个term做到一半的时候试着投ICLR 就没成。。。后来把CycleGAN的部分做完CVPR就中了。


匿名用户
https://www.zhihu.com/question/353691411/answer/900377446

其实 @Cheng Li 的答案看似调侃,但可操作程度很高,甚至很多组其实就在这么做。不同的是可能是从多个方向取才然后交叉,效果更佳。

虽然我不是做CV的,但我有遇到相似的问题。如果提出了新颖的、效果不错、但无法理论证明的想法(尤其我做的是无监督学习+不平衡数据+集成学习),那这种文章大概率会被毙掉。

审稿人有太多方向可以攻击你,比如缺少可靠的baseline,理论不够坚实等等,即使偏应用的数据挖掘会议也不能幸免。反而是那种几个领域交叉一下,你可以说我们把A用在了C上,并借鉴了B,效果拔群。理论基础可以参考文章[1,3,4],剩下的就是加工一下motivation,跑试验证明效果好就可以了。

这种套路可行吗?可行,因为我也干过。但为啥要这么做呢,主要还是因为现在投稿数量上升导致的审稿人质量方差大,这导致你必须考虑审稿人能够意识到这文章是背靠大树,踩在前人的肩膀上,靠谱。

而对于真正自己喜欢的、比较新鲜的、缺乏对照和理论基础的,我会在投主会前投别的顶会的workshop(注意是不会正式发表的那种,因此不是一稿多投),先收集一下反馈并在网络上留下被accept过的痕迹。之后会放到Arxiv上,并注明已被xx workshop接受,同时放出完整的代码,如果可能甚至会直接写成可用的工具包。

直到这一切都做完了,我才敢把这种点子投到顶会的主会上。原因有很多,但最核心的原因是现在的双盲已经名存实亡,人们拿到稿子都会去搜一圈。如果看到了一个工作出自靠谱的团队,且已经被审过、接受过,有对应的完整代码和工具,即使主题比较新,也会更倾向于接收。

这对于“标新立异”的文章而言是很有帮助的。但不难看出这种操作的成本和代价有多大,远不如几个方法一交叉来的成本低。

但成本和成就感之间总是有妥协的,所以饭要吃,梦也还是要做的。

毕竟人不吃饭会死,但睡不够就会活得像行尸走肉,又能好多少呢?


邵浩博士
苏州狗尾草智能科技有限公司 人工智能研究院院长
https://www.zhihu.com/question/353691411/answer/922682279

读完论文以后(非常大的量),就会有一些对这个方向的概括性的了解,也会发现这个方向上还没有做好的问题,idea也就自然而然出来了。写论文,无非是四个层面:

1)新问题,新方法;
2)新问题,老方法;
3)老问题,新方法;
4)老问题,老方法。

无论是计算机视觉,还是其他领域,从四个方面都可以入手。

比如说某篇论文做的是行人识别,用了算法是YOLO3,那么你是不是可以:

1)做一个手上拿电脑包的行人识别,改进一下YOLO3,搞一个自己的YOLO3+的算法
2)做一个手上拿电脑包的行人识别,还是使用YOLO3,用大量的实验证明有效性
3)做一个传统的小猫识别,使用改进后的YOLO3+算法

4)做一个传统的小猫识别,还是使用YOLO3,用大量实验证明其有效性


归根结底就一点:读大量大量的论文!


<pre style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><p style="max-width: 100%;letter-spacing: 0.544px;white-space: normal;color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;widows: 1;line-height: 1.75em;margin-left: 0px;margin-right: 0px;padding-left: 0em;padding-right: 0em;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong>完<strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong></span></strong></span></strong></p><section style="max-width: 100%;letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;widows: 1;box-sizing: border-box !important;overflow-wrap: break-word !important;padding-left: 0em;padding-right: 0em;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><p style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;max-width: 100%;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;margin-left: 0px;margin-right: 0px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(0, 0, 0);box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;font-size: 16px;font-family: 微软雅黑;caret-color: red;box-sizing: border-box !important;overflow-wrap: break-word !important;">为您推荐</span></strong></span></p><p style="margin: 5px 0px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(87, 107, 149);font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;">人工智能领域最具影响力的十大女科学家</span><br style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"  /></p><p style="margin: 5px 0px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(87, 107, 149);font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;">MIT最新深度学习入门课,安排起来!</span></p><p style="margin: 5px 0px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(87, 107, 149);font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;">有了这个神器,轻松用 Python 写个 App</span></p><p style="margin: 5px 0px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(87, 107, 149);font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;">「最全」实至名归,NumPy 官方早有中文教程</span><br style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"  /></p><p style="margin: 5px 0px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">漫画版 Linux 内核的世界<br  /></p></section></section></section></section></section></section></section></section>
【讨论】计算机视觉领域如何从别人的论文里获取自己的idea?

本篇文章来源于: 深度学习这件小事

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享