自动驾驶公司每天从车上扒下来的视频数据,够一个人不吃不喝看上几百年。现实是,这些磁带、硬盘、云存储里躺着的素材,95%没人碰过。
NomadicML刚拿了840万美元种子轮融资,投后估值5000万美元。这家公司的活儿,就是帮车企和机器人公司从这些"数字废墟"里挖出值钱的东西。领投方TQ Ventures,Pear VC和谷歌Jeff Dean跟投。上个月他们还在英伟达GTC创业大赛拿了第一。
创始人Mustafa Bal和Varun Krishnan是哈佛计算机系本科同学。Bal说两人在Lyft和Snowflake工作时,"同样的技术难题反复撞墙"。
人眼快进的极限,就是自动驾驶迭代的瓶颈
训练自动驾驶模型需要海量视频。不是随便什么视频——是那些让AI犯懵的边角案例(edge cases)。警车指挥闯红灯、施工路段的临时改道、某种特定桥洞下的光影畸变。
问题是,这些场景在总数据量里占比极低,分布又随机。工程师想让模型学会"听警察指挥闯红灯",得先从几百万小时素材里把这类片段筛出来。目前的主流做法?雇人看。快进看。逐帧看。
Bal的原话是:"我们给客户的是自己 footage 的洞察,驱动他们自己的自动驾驶车和机器人。这才是推动自主系统建造者前进的东西,不是随机数据。"
换句话说,现在不少公司买的第三方数据集,跟自家车队的实际路况两码事。你在中国训练的模型,扔去印度识别突突车,表现可能直接崩盘。
用"视觉语言模型"给视频建索引
Nomadic的做法是把原始 footage 扔进一套视觉语言模型(vision language models),输出结构化、可搜索的数据集。用户可以用自然语言查询,比如"找出所有警车指挥交通的场景",系统直接定位相关片段。
这套流程跑通后,两件事变得可行:一是实时监控车队,发现异常立即标记;二是快速构建针对性训练集,把强化学习的迭代周期从月压到周。
Bal举了个具体例子:你想让模型学会"警察让你闯红灯你就闯"。传统做法,团队得花几周人工筛选素材。用Nomadic的平台,几小时搞定。
另一个场景:隔离所有"车辆驶过特定类型桥洞"的记录。这类查询对纯人工团队近乎不可能,对结构化数据库就是一条SQL。
物理AI的数据困境,比大语言模型更隐蔽
大模型公司头疼的是算力和版权,物理AI(physical AI)玩家多了一层:数据获取成本。自动驾驶车、仓储机器人、建筑机械——这些设备产生的视频带有时空连续性,标注难度远高于静态图片。
更麻烦的是数据分布。城市A的暴雨场景,对城市B的模型可能是零样本。厂商想把模型卖到新地区,得重新采集、重新标注。Nomadic押注的是:让客户盘活自己的历史资产,而不是每次都从零买数据。
目前公司没有披露具体客户名单,只提到"onboard more customers"是本轮资金的主要用途。平台本身还在持续打磨。
一个细节:Jeff Dean的个人参与。这位谷歌AI掌门人的投资清单不长,物理AI数据基础设施是他首次公开下注的方向。这笔钱的信号意义,可能比840万本身更重。
自动驾驶行业烧了上千亿美元,L4落地时间表一推再推。数据瓶颈是公开的秘密,但愿意啃这块硬骨头的创业公司不多——它不够性感,离Demo Day很远,客户又都是财大气粗但决策缓慢的车企。
Nomadic选择在这个时间点进场,赌的是"数据觉醒":当行业从"比谁采得多"转向"比谁用得精",沉睡的95%会变成新的战场。问题是,车企愿意把这部分资产交给第三方打理吗?还是更倾向于自研?
热门跟贴