当人工智能开始触碰现实世界,一个棘手的问题浮出水面:训练"世界模型"所需的数据从哪来?

与大型语言模型不同,这些试图理解物理规律、预测物体运动的AI系统,没有现成的互联网文本可供吞噬。各大实验室正为拼凑训练数据集而焦头烂额。

打开网易新闻 查看精彩图片

Origin Lab给出的答案出人意料——电子游戏行业。

这家初创公司刚刚宣布完成800万美元种子轮融资,由Lightspeed Ventures领投,SV Angel、Eniac、Seven Stars、FPV跟投,Twitch联合创始人Kevin Lin和Cruise创始人Kyle Vogt也参与了天使投资。

Origin Lab的核心业务是搭建一座桥梁:一端是Yann LeCun的AMI Labs、李飞飞的World Labs等专注世界模型的实验室,另一端是手握海量数字资产的游戏公司。前者需要高质量授权数据来训练AI理解物理世界,后者则希望从已完成的数字资产中榨取额外收益。

"现在构建的AI系统需要理解物理世界的运作方式和物体的运动规律,"联合创始人兼联席CEO Anne-Margot Rodde表示,"这些数据本质上存在于电子游戏中。"

具体而言,Origin Lab将作为数据交易市场运营。游戏公司出售数字资产,实验室购买训练数据,而Origin Lab负责中间环节——将游戏资产转化为可用的训练数据格式。这项工作可简单到渲染运行,也可复杂到自动化生成数小时的场景漫游 footage。

"游戏行业坐拥极具价值的数据,但缺乏连接AI实验室与游戏行业的渠道或基础设施,"Rodde说,"所以我们搭建了这座桥梁。"

实验室对游戏 footage 的兴趣由来已久,但授权问题和数据质量始终是绊脚石。2024年12月,OpenAI的Sora视频生成模型首版疑似"吐"出热门游戏和主播的画面, presumably 因其训练数据包含Twitch直播流,引发不小争议。Amazon则公开表露过用Twitch footage训练模型的兴趣。

Origin Lab的融资成功折射出两个趋势:一是训练数据市场的持续升温,二是为头部AI实验室提供关键供应的初创公司正成为投资热点。

Lightspeed合伙人Faraz Fatemi主导了这笔投资。他提到Scale.AI的成功让这一机会难以忽视:"我们见识过服务头部实验室的数据供应商,其收入规模能扩张得多快。这些都是资金充裕的企业,而它们的瓶颈全在数据上。"