840万美元砸向一个"视频管家"：自动驾驶公司95%的数据正在沉

薛定谔的BUG

2026-04-01 11:18 ·北京

自动驾驶公司每天从车上扒下来的视频数据，够一个人不吃不喝看上几百年。现实是，这些磁带、硬盘、云存储里躺着的素材，95%没人碰过。

NomadicML刚拿了840万美元种子轮融资，投后估值5000万美元。这家公司的活儿，就是帮车企和机器人公司从这些"数字废墟"里挖出值钱的东西。领投方TQ Ventures，Pear VC和谷歌Jeff Dean跟投。上个月他们还在英伟达GTC创业大赛拿了第一。

创始人Mustafa Bal和Varun Krishnan是哈佛计算机系本科同学。Bal说两人在Lyft和Snowflake工作时，"同样的技术难题反复撞墙"。

人眼快进的极限，就是自动驾驶迭代的瓶颈

人眼快进的极限，就是自动驾驶迭代的瓶颈

训练自动驾驶模型需要海量视频。不是随便什么视频——是那些让AI犯懵的边角案例（edge cases）。警车指挥闯红灯、施工路段的临时改道、某种特定桥洞下的光影畸变。

问题是，这些场景在总数据量里占比极低，分布又随机。工程师想让模型学会"听警察指挥闯红灯"，得先从几百万小时素材里把这类片段筛出来。目前的主流做法？雇人看。快进看。逐帧看。

Bal的原话是："我们给客户的是自己 footage 的洞察，驱动他们自己的自动驾驶车和机器人。这才是推动自主系统建造者前进的东西，不是随机数据。"

换句话说，现在不少公司买的第三方数据集，跟自家车队的实际路况两码事。你在中国训练的模型，扔去印度识别突突车，表现可能直接崩盘。

用"视觉语言模型"给视频建索引

用"视觉语言模型"给视频建索引

Nomadic的做法是把原始 footage 扔进一套视觉语言模型（vision language models），输出结构化、可搜索的数据集。用户可以用自然语言查询，比如"找出所有警车指挥交通的场景"，系统直接定位相关片段。

这套流程跑通后，两件事变得可行：一是实时监控车队，发现异常立即标记；二是快速构建针对性训练集，把强化学习的迭代周期从月压到周。

Bal举了个具体例子：你想让模型学会"警察让你闯红灯你就闯"。传统做法，团队得花几周人工筛选素材。用Nomadic的平台，几小时搞定。

另一个场景：隔离所有"车辆驶过特定类型桥洞"的记录。这类查询对纯人工团队近乎不可能，对结构化数据库就是一条SQL。

物理AI的数据困境，比大语言模型更隐蔽

物理AI的数据困境，比大语言模型更隐蔽

大模型公司头疼的是算力和版权，物理AI（physical AI）玩家多了一层：数据获取成本。自动驾驶车、仓储机器人、建筑机械——这些设备产生的视频带有时空连续性，标注难度远高于静态图片。

更麻烦的是数据分布。城市A的暴雨场景，对城市B的模型可能是零样本。厂商想把模型卖到新地区，得重新采集、重新标注。Nomadic押注的是：让客户盘活自己的历史资产，而不是每次都从零买数据。

目前公司没有披露具体客户名单，只提到"onboard more customers"是本轮资金的主要用途。平台本身还在持续打磨。

一个细节：Jeff Dean的个人参与。这位谷歌AI掌门人的投资清单不长，物理AI数据基础设施是他首次公开下注的方向。这笔钱的信号意义，可能比840万本身更重。

自动驾驶行业烧了上千亿美元，L4落地时间表一推再推。数据瓶颈是公开的秘密，但愿意啃这块硬骨头的创业公司不多——它不够性感，离Demo Day很远，客户又都是财大气粗但决策缓慢的车企。

Nomadic选择在这个时间点进场，赌的是"数据觉醒"：当行业从"比谁采得多"转向"比谁用得精"，沉睡的95%会变成新的战场。问题是，车企愿意把这部分资产交给第三方打理吗？还是更倾向于自研？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴