北京生数科技股份有限公司(简称“生数科技”)4月10日宣布,公司完成近20亿元B轮融资,由阿里云领投,中网投、九安海棠、好未来、光合创投等投资人战略投资,星连资本、达泰资本、建发新兴投资等原有股东追加投资。

生数科技成立于2023年3月,专注于自主研发多模态通用大模型及应用,公司旗下Vidu系列视频模型实现了声画同出、长时长、高时空一致性与电影级视觉品质。随着生成式AI步入新发展阶段,公司宣布了通用世界模型战略,致力于打造对数字世界和物理世界实现精准建模、推理、预测和行动的通用智能体系。

生数科技创始人朱军表示:“世界模型的核心,是让AI具备对现实世界的统一表征与预测能力。视频是记录现实世界的重要载体,天然包含时间、空间、动作与因果关系等信息,是构建这一能力的关键载体。我们希望通过统一的模型架构,打通从感知到行动的完整链路,构建起贯通理解世界、生成世界与行动于世界的完整技术闭环,使通用世界模型真正成为连接数字世界与物理世界的桥梁。”

去年用户和收入超10倍增长

生数科技成立于2023年3月,核心成员来自清华大学人工智能研究院,公司核心业务是多模态通用大模型及应用。2024年4月,生数科技在中关村论坛上发布中国首个全面对标Sora的文生视频大模型Vidu,随后于2024年7月全球上线Vidu,此后连续发布Vidu Q1、Vidu Q2和Vidu Q3版本。

其中,Vidu Q3模型被称为“为剧而生”视频模型,支持16秒声画同出、1080P高清画质、精准切镜、多国文字渲染等。在国际权威AI基准测试机构Artificial Analysis最新公布的榜单中,Vidu Q3排名中国第一、全球第二。

Vidu系列模型通过MaaS(Vidu AI开放平台)和SaaS(Vidu Agent、Vidu Claw)等方式向全球开发者、创作者和企业提供服务。据生数科技披露,其用户和业务覆盖全球200多个国家和地区,客户及伙伴包括索尼电影、腾讯动漫、阅文集团等,2025年实现用户和收入超10倍增长。

企查查显示,自成立以来,生数科技共完成8次融资。2026年2月,公司宣布完成超过6亿元人民币A+轮融资,由中关村科学城公司和星连资本领投,上市公司万兴科技、视觉中国、拓尔思进行战略投资,原有股东启明创投、北京市人工智能产业投资基金等加码跟投。

朱军表示,多模态视频模型的上限无限大,它不仅能应用于数字内容创作与交互,更能够构建起理解真实世界规律的世界模型,端到端支持机器决策。生数科技将依托Vidu在数字内容创作领域的扎实落地,不断探寻和突破AI在物理世界的价值。

连接数字世界与物理世界

正如朱军所言,多模态视频模型可以跃迁到帮助AI理解真实世界规律的世界模型。基于在多模态视频模型技术的长期积累,生数科技正逐步向通用世界模型延展战略布局。2025年12月,生数科技开源了基于视频生成大模型的世界行动模型Motus。

根据复旦大学等高校的阐释,所谓世界模型,即通过从感官数据中学习和预测运动、力以及空间关系等动态特性,来理解物理世界中事物的性质、运行规律和空间特性。借助世界模型,AI从认知、识别转向理解、推理,是具身智能和客观环境自主高效交互的基础。

生数科技在3月下旬举办的2026中关村论坛年会上宣布了通用世界模型战略,公司称,将以基座世界模型为核心底层,向上延展出贯通数字空间与物理空间的双轨体系,形成面向通用智能的核心基础架构。

其中,在数字空间,生数科技基于世界生成模型(WGM)打造视频大模型产品Vidu。在物理空间,生数科技基于世界行动模型(WAM)构建统一世界模型产品Motus。Motus作为真实世界具身智能的“大脑”,致力于解决传统具身智能链路割裂、数据稀缺、泛化能力弱等核心痛点。

朱军认为,视频是当前最接近真实世界的数据形态,是连接数字世界与物理世界的关键载体。基于这一判断,生数科技构建了以视频为核心的数据体系:从海量互联网视频,到第一视角操作视频,再到机器人数据,形成一个可扩展的数据金字塔。

在生数科技B轮融资期间,光合创投合伙人蔡伟表示,通用世界模型正在成为继大语言模型之后,通往AGI的下一条核心路径。生数科技打通多模态感知与统一建模能力,在“理解—生成—行动”之间建立起完整闭环,这不仅是技术上的跨越,更是范式上的重构。从Vidu在数字世界的高效生成,到Motus在真实世界的泛化行动,这种双轨推进,让AI第一次具备了同时作用于虚拟与物理世界的能力。

围绕世界模型这一行业热点现象,复旦大学管理学院教授、信息管理与商业智能系系主任张诚在接受证券时报记者采访时表示,AI“思考”的本质是基于数据统计的概率预测,缺乏真正情感和对世界的深层认知。问题的根源在于模型主要建立在语言数据之上,当模型只通过文本学习世界时,其认知边界也被限制在语言所能表达的范围内;而世界模型能让系统通过多模态信息,包括视觉、听觉、空间动态等去刻画环境运行的规律。

“世界模型试图让系统通过多模态信息,视觉、听觉、空间动态去刻画环境运行的规律。”张诚表示,在研究和应用层面,世界模型正逐步与具身智能、自动驾驶等领域形成交叉。一方面,这些应用场景对环境理解、长期预测与因果一致性提出了更高要求;另一方面,相关模型在模拟真实世界动态方面的能力,也被视为迈向更通用智能形态的重要基础。

责编:岳亚楠

校对:苏焕文