直播对话：视觉感知如何驱动机器人“睁眼”看世界|传感器|机器人|机器视觉|直播|算法|视觉感知|雷达

作者｜ PRO
邮箱｜ pro@pingwest.com

本期TICLAB直播，我们特别邀请到阿丘科技联合创始人郑慧伟，光秒科技创始人余彦武博士，易观合伙人/企业数字化中心负责人张澄宇，和我们一起聊聊他们如何利用前沿技术应对行业痛点，以及未来智能制造的新机遇。

阿丘科技和光秒科技，两个在工业AI领域深耕不辍的企业，正在以各自的创新技术改变着传统制造业的面貌，推动着传统制造业的转型。

成立于2017年的阿丘科技，一直扎根于工业生产一线，专注于机器视觉和AI视觉技术的应用，致力于实现全方位的质量管控。他们的AIDI平台不仅能高效检测缺陷，还能实时监控设备和人员操作的安全性，真正为企业带来了实打实的价值。想象一下，以前需要数十名质检员的繁重任务，如今通过AI技术的应用，仅需几台设备便可轻松完成，这无疑是对传统制造业的一次颠覆。

光秒科技自2019年成立，目标明确：为机器赋予“通用的眼睛”。他们通过将激光雷达与摄像头技术融合，创造出一种全新的传感器。这种传感器不仅具备3D感知能力，还能够以极低的成本提供高分辨率的环境理解。这样的技术将如何改变无人机物流配送、自动驾驶等领域，让机器真正“看”得更远、更清晰。

AI浪潮下的新需求

张澄宇：作为机器视觉产业链上的厂商，阿丘科技和光秒科技分别观察到市场端有哪些新的热点和需求？

郑慧伟：大家好，我是来自阿丘科技的郑慧伟，我们主要在做工业生产领域的机器视觉相关的技术，来实现整个生产过程中的质量管控。我们比较关心两个维度，一个是供给，一个是需求，最好的情况下是达到PMF（product-market fit），就是很舒服的状态。在整个工业生产的过程中，视觉它本身是一种感知的手段和方法，其实需求非常多。第一大类是围绕整个生产过程中视觉的应用。第二大类是能面向和人相关的，人的一些动作识别。第三类是在整个工业生产过程中安全相关的问题。更深入一步来讲，视觉我们把它定义成感知层，这个其实还只停留在感知层，还没到反馈层。如果在工业生产过程中能把这种感知的信息，进行有效的二次加工，形成对应的一些工艺反馈，能反馈到前端工艺上，来判断工艺是否需要改善，整体良率和稼动率是否可以提升等等，这些点都能带来非常大的价值。所以说从宏观角度来看，基本上需求是很多的，我们也非常拥抱新型的技术来到我们行业中，为这个行业赋能。

余彦武：大家好，我叫余彦武，是光秒科技的创始人。我们是做传感器的，主要解决将来人工智能所有的机器通用的“眼睛”问题，具体来说我们是把激光雷达和摄像头融合到一个设备里，你可以想象它既是激光雷达也是摄像头，将来可以做为一个对摄像头方案的升级版本，应用到机器人的各种应用中。

我们在解决的是从2D到3D升级的问题。激光雷达这个领域之所以诞生，除了像一些空间的、航天的用途之外，民用用途最早是起源于自动驾驶。在自动驾驶之前，大家对3D传感是有一些需求的，但其实没有那么迫切，直到像自动驾驶这样的应用需求出来之后，大家发现需求变得必须要解决了，因为车在路上跑着识别前面的各种障碍物，它是一个很开放的环境，那对传感的要求就提出更多挑战。随着现在人工智能越来越热门，机器人、机器狗出现并承担更多的角色，3D需求就会变得非常的迫切。第二类，像一些3D数字重建，类似于测绘采集的需求现在也很多，比如前一段时间比较火的《黑悟空》，有些游戏场景是需要通过3D传感装置实地的采集一些实物模型，输入到游戏场景里，1：1复现。像AR、VR的一些游戏，现在有了VR眼镜，但是缺少内容，这个内容如果没有好的传感器去实时收集的话，只能靠人工去编辑，这样生产数据的效率就会很低。以前虽然有摄像头传感器，但是它还不够，因为它录制的只是一个稍微固定视角的、带颜色的信息，它是没有深度的。所以传感器从2D向3D升级是顺应市场需求的必然趋势。我们是做硬件的，和阿丘科技其实是有上下游的关系，我们希望去往底层提供更好的生产工具，这样后面的应用就可以更好的开展。

无人区开出的技术玫瑰

张澄宇：当下供给侧的生态是不是成熟了，如果还有一些欠缺的话，可能是在哪些层面或者产业链环节上还存在瓶颈？

余彦武：我的感受是传感器相对来说比较新一点，这个赛道相当于是个无人区，我们更多的难点来源于我们的上游。现在主流激光雷达也才做到15万到20万像素这么个级别，当我们要做到百万像素甚至千万像素级别的时候，你会发现很多问题并不是原理上不可行，而是很多基础元器件都要重新构造，比如芯片。如果用现有的元器件去拼凑，成本就很高。我们需要的东西现在市场里是空白的，必须要自己做很多本来不应该我们来做的事情。我认为这个事情是没有问题的，我们也应该做，因为我们给自己定的目标比较超前，当你做一个无人区的时候，那就意味着你的上游都是无人区。所以我们做了大量的自研激光器、自研芯片，不仅要把功能做通，还要把它的成本降低，把它的可靠性做好。我希望将来形成一个大的趋势之后，会有更多人参与进来去分摊我们的一些努力和成本。

另外在我们的下游这个方面，我们也有跟上游差不多的痛感。因为我们的激光雷达太新。一个典型的认知就是像自动驾驶汽车，很多人还在争议，到底要不要用激光雷达，比如以马斯克为代表的特斯拉，他用视觉就做的非常好，这会导致大家对激光雷达的存在是不是有必要这个问题产生质疑。从底层技术来讲，激光雷达能够提供的性能天花板是远高于摄像头的，因为它能提供多一个维度的信息，它是3D的。大家在谈论必不必要的时候，更多隐含的是，它价格能不能降下来。换句话说，如果同样的价格同样的分辨率，大家一定会选激光雷达。但我认为这件事很有意义，我需要去为一件正确的事努力，我相信就算不是光秒，再过10年、20年也会有其他公司实现这个目标。

郑慧伟：我们本身是一家以软件为核心的一个企业，我们是做AI算法平台的。我认为供给瓶颈是在特定场景或者复杂场景上，存在一些技术上的瓶颈，我们也在积极寻找这些新型的技术，比如说像一些新型的光学手段，新型的成像技术。举个例子，像X-ray最早是用在牙科或拍胸片的民用场景，在几年前，X-ray技术也引入到工业领域来做无损检测，还包括像超声波检测技术等，也引入到了整个行业内。

同时我们也在吸纳一些最前沿的技术，来做智能相机产品。智能相机产品，它是软硬一体的智能视觉产品，对于刚才余博士说的在做的无人区的产品，我们是最感兴趣的，我们关心两大类创新，一大类属于原创性的底层技术创新，另一类是交叉创新，比方它在A场景下用的很好，但他从来没有看过B场景，他不知道B场景也能用。举个例子，比如说像多光谱的技术，现在也在我们行业中在用。激光雷达我们也在看，它做的是面向大视野的场景（如无人驾驶），我们关注的场景基本上是偏结构化的小视野场景，对于这些小视野高精度的需求，我们强调的是计算的可重复性，所以对于不同场景有不同的考量点。

张澄宇：算法的迭代和创新，是核心要素吗？

郑慧伟：阿丘科技从创立到现在为止，一直以来都是以算法为核心来构建竞争壁垒或竞争优势的，上个月我们也刚发布了算法和平台软件的新版本AIDI 3。用一个通俗的结构来看，这个场景里大家常说的三要素，算力、算法和数据，我们观察到了一个非常大的趋势，就是从算法往数据这边去构建技术壁垒的这样一个趋势。我们从最早的以构建算法为核心壁垒，在不断的迭代过程中，结合场景数据来构建场景模型的壁垒。在一些行业中，我们已经形成了一些通用的模型。它可以去跨场景复用，跨生产线复用，这对我们来说是很有价值的，本质上它形成的是一大类资产，对于我们的成本结构，对于客户端的成本节省都有非常大的帮助。

余彦武：因为我们提供的是原始数据，我想就如何使用这部分数据分享一些观点。我们这种新的传感器数据的出现，可能会对算法带来一些新的挑战。现在很多算法都是针对图像这种格式，不管什么样的传感器，不管谁家的传感器，数据格式基本都是通用的，数据流可能就是这样一个二进制的排列。再比如说有了我们这种新的传感器之后，每一个像素包含的数据格式就不只是RGB，可能是RGB加距离。图像是存成JPG格式，视频存成MP4格式，那像我们这种数据它应该存成什么格式，用什么方法来编码来压缩，对于训练算法可能都要做一些调整。这个可能是这种新的硬件为软件算法带来的一些新的课题。

张澄宇：人机协同跟机器驱动，目前是什么样的关系？

郑慧伟：人机协同我们是辩证来看待它的，它分成两个维度，一个属于替代级，就是全自动化，像无人驾驶也是一样，人的干涉越少越好。第二类属于协作级，比如我能问他什么问题，基于这些问题他给了几个答案，再给他一些其他的信息输入。回到工业生产这个点上，我们想方设法的减少人机协作，我们是通过AI或是以数据驱动的方式，把人的动作或者人的理念想法数据化。

余彦武：从底层来讲，人是碳基生命机体，机器人的躯体在硬件层面比人适应性更强。首先它的各种材料性能都比人的肌肉要强，温度适应范围更广，也不需要氧气。第二，它的能源利用效率也比人强。在算法推理方面，只要数据足够、算力足够，机器的思考能力也能达到甚至超越人类的水平。综上在硬件和软件思考能力上，机器都可能会全面超越人类，并不需要人机协同。这是我对未来的一点畅想。

张澄宇：在数据和算力层面，存在的突破和挑战有哪些？

郑慧伟：数据毫无疑问是资产，从大的时间视野来看，是一个持续利好的事情。算力层面，围绕着两个方向在发展，高性能和低成本。一方面从成本来说，能感受到随着整个工业大生产的铺开，合理的平均成本其实在逐步在下降的。另一方面从需求层面来说，我们希望是鱼和熊掌两者兼得，当然还得依靠产业链上的各位同仁，我们能做的就是在数据层面去构建我们的一些壁垒和积累。

余彦武：因为我们是做硬件的，所以当我们发现某个事情有难度或者有瓶颈的时候，我们首先思考的是能不能从硬件上把这个瓶颈给消掉。现在人工智能对算力要求越来越高，而且需要大量的数据积累。我们的思考是能不能从底层上去考虑一些新的计算逻辑，比如光子计算机，或者是纯模拟信号计算。

用技术撕开认知牢笼

张澄宇:视觉解决方案在落地时的痛点和挑战？

郑慧伟：2017年前，工业视觉领域是以传统的机器视觉算法为主的，工业市场领域几乎没有任何AI的技术应用，大家认为AI是一个黑盒子，行业中99%的客户和厂商其实是拒绝AI的，我们开玩笑说那时经历了很多年“非共识”的过程。随着技术的快速发展，在一些场景的PK上，大家逐步感受到用AI检测技术的效果和用传统算法检测的效果在快速拉开代差。

后面我们就把眼睛扎根到客户真正的需求里来创造差异化价值。比如人脸识别需要很多人脸图片，但在工业市场中它的良率很高，有可能3、5个月才能收集十来个不良品，所以就倒逼着我们去研发小样本的算法，把这一类关键缺陷给检测出来。还有客户说我实在收集不到NG样品，但是你必须要检测出来，这又倒逼着我们回到技术本身去寻找解决方案，后面我们就把无监督学习应用进来，去解决没有NG图像的一些场景。我们就这样手眼并进来寻找一个个创新的点（需求/技术，互联互通），让客户去快速的获得收益，解决技术上的一些疑难和挑战。

余彦武：我们创业一开始是抱着以终为始的初心，看看十年后这个社会需要什么样的传感器，但是当我们真的去落地的时候，发现大家好像并不需要，或者说用不上。比方说汽车，大家对于汽车已经形成了一个固有观点，就是以摄像头为主，因为现在各种训练都是基于图像识别的，也比较成熟了。激光雷达是做一个备份保障，万一摄像头有什么问题，激光雷达还能做个辅助防止碰撞，基本大家都这么用的。在这种情况下，客户完全不需要激光雷达有很高的分辨率，他就要便宜，因为它是配角，配角就不能太贵。我们希望激光雷达在实现高分辨率之后，要在市场上起到一个认知——它是主角。你可以不要摄像头，但不能没有激光雷达。

另一方面也找到了很多对我们有刚需的场景，比方说无人机，对于细节要求很高，它怕撞树或者撞到高压线，还有防止GPS丢失，这些时候它都需要用激光雷达这种3D手段去实现。我们在做全新产品的实际推广过程中，也会遇到类似的战略选择问题。先做对我们有刚需的场景，不需要的我们就先放一放，因为有些时候需要一定的时机。当我们有一天产品成熟，价格确实降到他的心理门槛时，没准这个东西就会慢慢的推广开来，大家需要有个接受的过程。

张澄宇：未来1-3年，机器视觉可能会出现哪些技术创新或者演进方向？

郑慧伟：从感知层面的维度，我认为单纯的把图像采集回来的阶段已经过去，下一阶段一定会迈向计算成像，结合着2D/3D传感器的信号来综合生成多维度的数据信息。另外从算法的维度，包括从语言大模型到图像大模型一直在演变，像Meta推出的SAM（分割一切模型）的开源成果，都在让大家对于这些算法创新充满了期待。

余彦武：和应用中遇到一些困境有关，就是常常会面临大家在认知上的一些判断。所以我们现在从做数据标注、数据集的建设开始，用新的数据格式采集回来数据，做完标注训练看出来的是一个什么样的效果。我们在上游供应链硬件和下游很多的市场方向上都做了一些尝试，其实本来是客户要做的事情，我们来做，我认为是非常值得的，这些都是你作为一个创新者，必须要去解决的问题。能让大家认识到新的传感器，也可以通过训练新的数据去更好的解决问题。