Waymo破天荒公开数据集发福利还是做生意?|dataset|waymo|传感器|数据量

原标题：Waymo破天荒公开数据集，发福利还是做生意？

对自家技术一贯守口如瓶的Waymo，今年突然对“外部力量”张开了怀抱。

在全球最大的计算机视觉会议CVPR 2019现场，Waymo首席科学家Drago Anguelov公开了自家的自动驾驶数据集Waymo Open Dataset。作为公司研究院老大，Drago Anguelov同时预告了几个关键数字：3000段驾驶记录、时长共16.7小时、平均每段长度约为20秒；60万帧、共有大约2500万3D边界框、2200万2D边界框，以及多样化的自动驾驶场景。

事实上，在Waymo Open Dataset之前，自动驾驶领域中已经存在几个比较知名的数据集。其中，KITTI被公认为使用最广泛的数据集之一，Cityscapes的专长是城市街景的语义理解，ApolloScape则以标注的精细程度著称，还有UC Berkley最新发布的BDD100K等等。

然而，这些优势在Waymo眼里似乎都不值一提。Drago Anguelov在演讲中列了一个表格，条分缕析地将Waymo Open Dataset与KITTI、NuScenes等数据集直接进行对标：

直观地说，主流数据集提供的数据量已经远远不够用了。因此，Drago Anguelov称，Waymo将在7月份发布1K数据集，且将在近期公布数据集基准并组织竞赛。

目前为止，Waymo Open Dataset的细节内容尚未公开。单从数据量的对比来看，该数据集就已经比现有的公开三维标注数据集领先了好几个身位，基本是两位数与个位数的差距。当然，Waymo自己的全量数据应该已经到达近亿级别。

对于学术界而言，这60万帧的数据量无异于稀世珍宝。受限于数据与传感器兼容的问题，学校实验室大概率会在Waymo的传感器配置基础上展开科研工作，也不排除其最终找到适用于其他类似传感器搭配的方案。

但最重要的是，一旦这些科研成果能够形成一个影响力广泛的数据集，其上的研究成果全部都适用于Waymo自家传感器配置，这家科技大牛完全可以轻松吸收最新的无人驾驶技术。更何况，这某种程度上也能够推动无人驾驶方向的人才培养，甚至可以造福整个行业。

可换个角度看，这件事的意义却并没有这么乐观。Waymo对于传感器设置的严格把控，意味着如果其赋予一些超特殊的、难以复现的属性，那么其他无人车公司从这些基于Waymo数据的科研成果中得不到半点好处。此外，Waymo Open Dataset的数据分布大概率位于美国地区，那么受法律法规限制，此上训练出的深度学习模型也不见得能够适用于其他国家地区。

最根本的一点是，现阶段Waymo公布出的数据量级仍旧满足不了工业界的胃口。虽然其多少能够缓解初创公司在数据标注层面的时间和经济压力，但仅仅16个小时的资源也无法支持一个年轻的团队从0做出一个可以上路的无人车Demo，更别提试图以此博取资本市场的青睐。

因此对于汽车工业而言，仍旧需要依靠从业者长期的数据积累，Waymo Open Dataset现阶段的数据量不足以说明问题。而且对于当下最稀缺的3D激光点云标注数据，Waymo目前的贡献值几乎是寥寥无几。

除了发布数据集，Waymo也同时曝光了无人车传感器配置，包括视觉系统、激光雷达系统和雷达系统。而Waymo Open Dataset也将同步涉及到来自5个激光雷达、5个摄像头，激光雷达和摄像头的数据。

换句话说，随着本次数据集的公开，Waymo自家传感器的所有性能将一览无遗。友商甚至可以直接进行评测：噪点多不多、远处物体距离准不准、除了距离和信号强度外还有没有其它信息……

那么，如果Waymo后续将延用“对外出售激光雷达”的策略，打算继续拿其他传感器硬件挣钱，Waymo Open Dataset的开放将会揭开Waymo无人车上最大一块“遮羞布”。