生数科技完成近20亿元融资，加码通用世界模型！|新论文|模态|生数科技|融资|通用

北京生数科技股份有限公司（简称“生数科技”）4月10日宣布，公司完成近20亿元B轮融资，由阿里云领投，中网投、九安海棠、好未来、光合创投等投资人战略投资，星连资本、达泰资本、建发新兴投资等原有股东追加投资。

生数科技成立于2023年3月，专注于自主研发多模态通用大模型及应用，公司旗下Vidu系列视频模型实现了声画同出、长时长、高时空一致性与电影级视觉品质。随着生成式AI步入新发展阶段，公司宣布了通用世界模型战略，致力于打造对数字世界和物理世界实现精准建模、推理、预测和行动的通用智能体系。

生数科技创始人朱军表示：“世界模型的核心，是让AI具备对现实世界的统一表征与预测能力。视频是记录现实世界的重要载体，天然包含时间、空间、动作与因果关系等信息，是构建这一能力的关键载体。我们希望通过统一的模型架构，打通从感知到行动的完整链路，构建起贯通理解世界、生成世界与行动于世界的完整技术闭环，使通用世界模型真正成为连接数字世界与物理世界的桥梁。”

去年用户和收入超10倍增长

生数科技成立于2023年3月，核心成员来自清华大学人工智能研究院，公司核心业务是多模态通用大模型及应用。2024年4月，生数科技在中关村论坛上发布中国首个全面对标Sora的文生视频大模型Vidu，随后于2024年7月全球上线Vidu，此后连续发布Vidu Q1、Vidu Q2和Vidu Q3版本。

其中，Vidu Q3模型被称为“为剧而生”视频模型，支持16秒声画同出、1080P高清画质、精准切镜、多国文字渲染等。在国际权威AI基准测试机构Artificial Analysis最新公布的榜单中，Vidu Q3排名中国第一、全球第二。

Vidu系列模型通过MaaS（Vidu AI开放平台）和SaaS（Vidu Agent、Vidu Claw）等方式向全球开发者、创作者和企业提供服务。据生数科技披露，其用户和业务覆盖全球200多个国家和地区，客户及伙伴包括索尼电影、腾讯动漫、阅文集团等，2025年实现用户和收入超10倍增长。

企查查显示，自成立以来，生数科技共完成8次融资。2026年2月，公司宣布完成超过6亿元人民币A+轮融资，由中关村科学城公司和星连资本领投，上市公司万兴科技、视觉中国、拓尔思进行战略投资，原有股东启明创投、北京市人工智能产业投资基金等加码跟投。

朱军表示，多模态视频模型的上限无限大，它不仅能应用于数字内容创作与交互，更能够构建起理解真实世界规律的世界模型，端到端支持机器决策。生数科技将依托Vidu在数字内容创作领域的扎实落地，不断探寻和突破AI在物理世界的价值。

连接数字世界与物理世界

正如朱军所言，多模态视频模型可以跃迁到帮助AI理解真实世界规律的世界模型。基于在多模态视频模型技术的长期积累，生数科技正逐步向通用世界模型延展战略布局。2025年12月，生数科技开源了基于视频生成大模型的世界行动模型Motus。

根据复旦大学等高校的阐释，所谓世界模型，即通过从感官数据中学习和预测运动、力以及空间关系等动态特性，来理解物理世界中事物的性质、运行规律和空间特性。借助世界模型，AI从认知、识别转向理解、推理，是具身智能和客观环境自主高效交互的基础。

生数科技在3月下旬举办的2026中关村论坛年会上宣布了通用世界模型战略，公司称，将以基座世界模型为核心底层，向上延展出贯通数字空间与物理空间的双轨体系，形成面向通用智能的核心基础架构。

其中，在数字空间，生数科技基于世界生成模型（WGM）打造视频大模型产品Vidu。在物理空间，生数科技基于世界行动模型（WAM）构建统一世界模型产品Motus。Motus作为真实世界具身智能的“大脑”，致力于解决传统具身智能链路割裂、数据稀缺、泛化能力弱等核心痛点。

朱军认为，视频是当前最接近真实世界的数据形态，是连接数字世界与物理世界的关键载体。基于这一判断，生数科技构建了以视频为核心的数据体系：从海量互联网视频，到第一视角操作视频，再到机器人数据，形成一个可扩展的数据金字塔。

在生数科技B轮融资期间，光合创投合伙人蔡伟表示，通用世界模型正在成为继大语言模型之后，通往AGI的下一条核心路径。生数科技打通多模态感知与统一建模能力，在“理解—生成—行动”之间建立起完整闭环，这不仅是技术上的跨越，更是范式上的重构。从Vidu在数字世界的高效生成，到Motus在真实世界的泛化行动，这种双轨推进，让AI第一次具备了同时作用于虚拟与物理世界的能力。

围绕世界模型这一行业热点现象，复旦大学管理学院教授、信息管理与商业智能系系主任张诚在接受证券时报记者采访时表示，AI“思考”的本质是基于数据统计的概率预测，缺乏真正情感和对世界的深层认知。问题的根源在于模型主要建立在语言数据之上，当模型只通过文本学习世界时，其认知边界也被限制在语言所能表达的范围内；而世界模型能让系统通过多模态信息，包括视觉、听觉、空间动态等去刻画环境运行的规律。

“世界模型试图让系统通过多模态信息，视觉、听觉、空间动态去刻画环境运行的规律。”张诚表示，在研究和应用层面，世界模型正逐步与具身智能、自动驾驶等领域形成交叉。一方面，这些应用场景对环境理解、长期预测与因果一致性提出了更高要求；另一方面，相关模型在模拟真实世界动态方面的能力，也被视为迈向更通用智能形态的重要基础。

责编：岳亚楠

校对：苏焕文