首页 > 酒店新闻 > 公司新闻

凯发一触即发(中国区)官方网站|计算机视觉是否已经进入了瓶颈期?| 创新头条

发布时间:2025-03-10 17:34:42    次浏览

点击上方关注GIA,与全球创新创业者同行! 来源:知乎作者:周博磊,MIT博士在读编辑:许韦鹏▼导读近些年来在机器学习(深度学习)的支持下,计算机视觉迅速发展,并且与ML的发展在图像数据处理的交集上绑定在了一起。但CV领域自身的理论发展仿佛速度在放缓,那么未来CV的发展会不会因为自身发展的不足而只能依托其他领域发展的支持?计算机视觉领域是否会产生饱和甚至萎缩呢?不论兴趣,单从时机考虑,现在进入这个领域还来得及吗?其实这是我近段时间一直在思考的问题。我的观点是:计算机视觉在人工智能和深度学习的大背景下方兴未艾。这里进入瓶颈期的,可能是一些计算机视觉的经典问题,如物体识别和检测(人脸、行人、物体、场景)等。但是如果能死磕这些经典问题,往往能带来质的突破,比如说对于ImageNet物体识别GoogLeNet之后,大部分人应该都不会想到还有ResNet这种牛逼网络的出现 :)。计算机视觉这个领域本身,我觉得是正在蓬勃发展,经典问题得到了更好的解决,新的问题也不断涌现。如果把Deep Learning进入CV的2012年作为新时代的开始,我自己是从旧时代来的人。对于从旧时代过来的人,现在无疑是CV以及AI最好的时代。我自己当年是看着Dahua Lin的blog,以及知乎大V@Filestorm和 @田渊栋在SJTU饮水思源AI版的论战进入CV和AI研究圈子的,那时候大家讨论的东西都是graphical model、sparse coding, bag of SIFT、spatial pyramid 啥的,也没有工作抢着放arXiv的传统,也没有满大街的open source libraries。每年CVPR接收的论文到现在的1/2都不到。每次开会前proceeding放出来的时候都会沐浴更衣把大部分感兴趣的论文扫一遍。现在的CV和AI研究其实是变得越来越扁平快了。随手可得的open source libraries和pretrained models,互联网上各种分享的学习资料和经,便宜的GPU计算资源,以及百花齐放的研究方向,都使得新入行的生猛年轻人能很快倒腾出新东西。发表CVPR、NIPS、AAAI等顶会文章也不再是难事。论文数量和研究方向也是繁多,已经很难follow。现在很多时候, 我觉得做CV的研究更像是在拼工程能力, 而不是拼insights和积累了。后来的人也许并没有多少动力和精力去学习和了解之前的经典。这也是我担忧的地方。但时代造人,这些也是无可厚非的,毕竟我们希望更多有闯劲的年轻人进入CV和AI圈子,一起大炼钢:)。争先放arXiv、源code等无疑加速了研究的迭代速度,有更大的可能性激发出新的研究方向和成果。大公司们(Google, Facebook, Amazon)以及诸多startup们,也都虎视眈眈地渴望着更多更好的研究工作出现。 另外,如果硬要我说几个CV目前有肉容易啃的方向,那我就大致提提(注:这些方向大致都偏纯学术,有什么商业价值我并不是怎么关心):1Robotics (or Simulation Graphics)+VisionRobotics那边的人普遍比较保守,更执着于传统template matching之类的传统方法。这里有个段子,我们MIT机械工程系robotics方向的大牛教授John Leonard很久以前评论Computer vision,直接说你们“CVPR”里面的各种论文,就是Computer Vision and Precision Recall。(什么意思大家应该能理解:))不过在deep learning开始真正work的时代,他这句话应该不太适用了:)。回到正题, Robitics本身是块非常大的饼, 很多问题和方法都可以用deep learning (CNN + Deep Reinforcement learning) 重新解决。偏Robotics的话, 大家可以留意一下Berkeley的大红人Sergey Levine最近的工作(Sergey Levine)。偏Vision的话,可以看看 CMU的大红人Abinav Gupta: ECCV paper Curious Robot(https://arxiv.org/pdf/1604.01360v2.pdf) Jianxiong Xiao之前主打的: 3D deep learning(http://robots.princeton.edu/talks/2016_MIT/RobotPerception.pdf)Xiao的团队和MIT团队最近搞了个Amazon Pick challenge,模型和方法还有点意思(MIT-Princeton Vision Dataset for the APC 2016)。不过Xiao已经下海经商, 不知道还会不会actively publish。现在各大公司和startup猛搞的autonomous drive, 也可以放在这个方向之下。最近我还留意到一个非常有潜力的方向Simulation+Vision。我觉得有两个具体方向,一个是利用graphics里面的rendering仿真技术,生成大量数据。这些数据因为是生成出来的,任何ground-truth都有,而且要多少有多少, 是获取训练数据的一个捷径。CVPR'16有篇:synthetic image dataset for semantic segmentation of urban scene(http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Ros_The_SYNTHIA_Dataset_CVPR_2016_paper.pdf)另外一个方向是结合graphics中的simulation,利用deep reinforcement learning等active learning的算法可以无监督/弱监督训练出agent model,这里就不仅限于纯CV了。DeepMind和OpenAI在猛搞这个方向。偏vision的话大家可以参考下Allen Institute这篇:(https://arxiv.org/pdf/1609.05143v1.pdf)2Generative visual models目前大部分的模型都是discrminative model, 给定input, 然后识别label。但这个故事的另外一半其实是generative model, 给定label, 然后生成图片。generative models是一个很有潜力的大方向。这里的最新进展一方面是基于GAN(https://arxiv.org/pdf/1511.06434v2.pdf) 所带来的一种训练图片生成的新思路。也包括一些基于传统image model, 如MRF和CRF在deep learning的新思路下面进行重新理解。DeepMind的PixelCNN(https://arxiv.org/pdf/1606.05328v2.pdf)以及最近Zhirong和Dahua的挺不错的ECCV论文:(http://dahua.me/papers/dhlin_deepmrf.pdf).个人觉得Varionational Autoencoder也是个蛮漂亮的模型, 这里有篇关于VAE的最新的tutorial还不错(https://arxiv.org/pdf/1606.05908v2.pdf)。以后deep learning跟bayesian model的结合也会是个颇具潜力的方向。3Multimedia Computer Vision其实人的感知系统本身就是多模态的, 视频和声音共同结合。Video analysis不再局限于action recognition, 对内容本身有更深的理解。比如说最近的MoiveQA, Visual Anticipation prediction(http://web.mit.edu/vondrick/prediction.pdf).另外, sound也是一个大家普遍忽略掉的一个东西。大家可以看看我们组Andrew Owen的两个蛮有意思的工作:ECCV'16 Ambient Sound Provides Supervision for Visual Learning(https://arxiv.org/pdf/1608.07017.pdf)和CVPR'16 Visually Indicated Sounds (Visually Indicated Sounds)。多模态来研究vision是个大趋势。 关于GIA(盛景全球创新大奖)盛景全球创新大奖(GIA)是由盛景网联发起主办,中国、美国、以色列、欧洲等地区顶尖的投资机构和孵化器联合承办的世界级创新创业大赛,是全球参与顶尖机构最多、覆盖范围最广的创新大赛。大奖提供现金奖金高达150万美元、承诺投资额2500万美元、意向投资额1.5亿美元。扫一扫,关注GIA2016加入中国最大的创新社群↓↓↓点击'阅读原文',马上订阅“总裁五分钟”