计算机是怎么“看”东西的？|163

无论是条形码扫描、新iPhone的人脸识别，还是你在观看足球比赛时看到的那条判断是否越位的线，都是计算机视觉技术在日常生活中的应用，其实，这项技术还并未成熟，但却很神秘且拥有更大的潜能。我们从谷歌官方的一则采访视频中，得以窥见这项技术的魅力。以下是相关内容的整理。

计算机为什么需要视觉？

计算机视觉是计算机科学的一个领域。在计算机视觉领域，研究人员努力指导计算机如何“看”东西。这种“看”可以是理解场景、重构3D对象、识别物体、避开障碍、帮盲人指路等等。这其中很多都利用了机器学习技术，同时还利用了几何学和应用数学。

据说计算机视觉源自一个暑期项目。这要归功于MIT（麻省理工）的一位教授——Jerry Sussman。当时他的老师说:“对于这个暑期的项目，你不妨研究一下计算机视觉，应该花不了多长时间”。然后Jerry Sussman简单写了一个提纲，列出了要做的事情。而这些内容，差不多就是这个领域在过去四五十年所研究的东西。或许当某种东西取得成功之后，才会获得新生。所以直到最近，在这项技术获得较大的发展后，计算机视觉一词才真正频繁出现在大众媒体中。

计算机视觉有助于让视频保持稳定和打造虚拟世界，还有助于人们通过相机看到清晰的面孔。此外，这项技术在识别视频内容方面也越来越厉害，这让用户在视频网站上无论搜索什么都变得越来越轻松。

人类视觉系统与计算机视觉系统有何区别？

在计算机看来，图像其实只是一列数字，如果是颜色的话，则是三列数字（R、G、B三种色彩的数值信息）。这些图片像素和色彩本身对于计算机而言是毫无意义的，计算机需要做的是解读并确定它们到底是什么。一般而言，解读的方式有四种: 对象识别、物理重构、配准和重组：

对象识别方面的工作量非常大，比如识别一张相片上所有对象都在什么位置上？它们分别是什么？其实在宽泛的层面上，这个问题已经快要解决了。现在的技术水平大致可以辨别出识别对象是什么，但还不能清晰辨别出对象的种类。比如计算机可以识别出照片中有一棵树，但它还不能判断出这棵树的品种。计算机要实现这种程度的识别还是有些棘手的。

对象识别的一个方法是将图像倒转，并反转颜色。对于计算机而言，这也不是什么艰巨的工作，但如果不这样做的话，人类会无法很好地利用计算机进行识别。

另一个方面是物理重构。物理重构就是计算机把图片中的对象建立出三维形状的过程。Google的街景车在全球各地拍摄全景图，它获得的数据仍然是二维的。但如果计算机使用算法对这些数据进行处理，将图像之间的特征点进行匹配，就能获得三维图像。配准的过程有点像模型跟踪或对齐。如果你有一辆自动驾驶汽车，希望跟踪行人和车道标线，就可以采用这种方法。

最后是重组，从更广泛的意义而言，这又成为非监督式学习。一直以来，计算机视觉模型的训练方式都是使用大量添加了便签的数据。非监督式学习的目标是只将数据提供给计算机，然后由计算机以某种有意义的方式自动对数据进行重组。

之前有机器人被设定了程序去捡某件东西，这一动作的背后可能是研究人员对这个机器人指定了一套极其具体的规则，从而使其能够捡起某个特定的东西。现在的计算机视觉系统想要达到的效果并不是这样的。实际上随着技术的发展，Google实验室的一些机器人手臂已经能够去捡各种各样的东西了。它们完成这一动作并不是依靠人为设定的具体程序，而是通过自身的识别系统，识别出物体的形状、大小、形态，来自动完成捡拾动作。谷歌的研究人员说:“我们尝试以一种极其隐晦的方式来使用计算机视觉技术，当机器人看到东西时，他不会尝试识别出这个物体是不是苹果，它只会使用这个图像来抓东西。我们不会确切告诉它如何处理该图像。如果让机器人去抓海绵，它会通过学习知道直接去抓是行不通的。”

或许你还是无法明白计算机到底是如何“看”东西的，其实，计算机视觉研究人员也不明白。但我们该知道，在计算机眼中，这个世界最终都会被转换成数字。

计算机视觉技术的发展历程可能会像化学一样：先有点金术作为铺垫，然后才有了这门成熟的学科。目前我们就处在计算机视觉领域的“点金术”阶段，虽然已经有些领域已经在使用这项技术，但我们还不明白其中的原因。期待这项技术有一天能达到“化学”阶段。

通过计算机视觉，我们可以更好地了解这个世界。如果你可以解析所看到的世界，就能举一反三地掌握那些你去不了的、真实世界的大量信息。这项技术潜力无穷，用途广泛，期待它在不远的将来能带给我们更多的意外之喜。