沈向洋演讲 微软全球副总裁沈向洋:要让“机器人”能讲出图像背后的故事
人们都喜欢"看图说话",而人工智能(AI)的研究者们希望未来计算机能像人类一样识别图片,理解图片背后的故事。但这一领域的顶尖研究者却认为,要达到这个层次,人工智能研究的任务并不轻松。 微软全球执行副总裁沈向洋1月17日在"未来论坛"相关公司股票走势机器人上谈及人工智能中计算机视觉的最新研究进展时表示,在图像处理的问题中,对图像的理解是一个前沿性的问题,或许还有"漫漫长路要走"。
沈向洋称,人工智能已经发展了50余年时间,真正要把人工智能做得像人类智能一样的程度,首先要感知,然后是认知。
人工智能不仅仅是计算机科学,它是一门交叉学科,包括了心理学、社会学、哲学、脑科学等等。 对图像的识别则是人工智能发展中的一个重要分支,重量级的互联网公司都在该领域发力。
以Google推出的GooglePhotos的为例,GooglePhotos不仅仅是相册,也具备了智能的图片识别技术:它可以将相册中同一个人物的照片整合在一起,比如回顾一个婴儿从小到大的成长轨迹。
其"训练"过程是:AI具有30层神经网络,每一层对应着不同的抽象程度,比如最低层次能识别光线、色彩,下一层次能识别图片的边缘等等。这样一层层的"训练"需要大量的数据。
每一层都能提取出更高层次的细节,而最后一层会决定AI对图片的理解。 去年年底,微软亚洲研究院视觉计算组在一项比赛中,对深层神经网络技术又进行了突破:目前普遍使用的神经网络层级能够达到20到30层,此次比赛中该团队应用的神经网络系统实现了152层。
据悉,微软的聊天机器人小冰已经整合了微软在图像识别上的技术,不仅能识别图像类型和要素,还能进行人性化的描述。 不过,人工智能在对图像进行处理时,虽然目前的识别技术已经非常先进了,但并非每次都很灵光。
一些实验就表明,研究员给出的相似、相近或是较复杂的图像,往往能够骗过计算机,使其得出错误或是不那么精确的结论。 对于这些问题,沈向洋谈到,图像识别可以分为三个问题:一是对图像的分类,二是对图像中的要素的察觉,三是像素级别的区分。
目前对这三个问题研究的进展都很迅速,但应该再向前一步对图像理解进行深入研究。 "比如Howold,MicrosoftSelfie这些软件,对图像的理解到底能做到什么地步?一张照片来了之后,能不能解释这张照片到底是什么,能不能挖掘背后的故事。
怎么让这个过程变得更加有趣。"沈向洋说道。 微软把这些功能集成在小冰聊天机器人身上。
沈向洋在论坛现场展示的一张图片显示,一张照片中有大小两只猫,如果仅仅是按计算机视觉来做,会得出"这张图里有两只猫"的结论,而小冰却可以说出"看这猫的眼神儿太犀利了",从而让聊天过程变得更有趣。
沈认为,这种人性化的描述通过计算机识别无法达到,只有通过人类交互才能达到。 这种更为复杂的交互方式是AI发展的一个重要方向。"人工智能是近几年来最火的研究领域,但是当我们真正走向人工智能的时候,就算是在机器视觉的这样一个分支上,都还有漫漫长路要走。"沈向洋说道。