深度｜顶级资本下注，Sand.ai三个月两轮融资超1亿美元，专注视频生成下一个前沿|sand|复杂度|新论文|模态|算法

01 Sand.ai连续完成2轮融资，融资金额超过1亿美金

Z Potentials获悉，近日，Sand.ai连续完成2轮融资，融资金额超过1亿美金，投资阵容豪华，Look Capital、Lollapalooza Capital（王慧文家办）、九坤创投、经纬创投、和玉资本、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等一线机构联合投资。星涵资本担任本轮融资财务顾问。

经纬创投表示：“经纬持续关注范式级别技术创新，对公司连续多轮押注。Sand.ai具备完整预训练和后训练经验，以及扎实的Infra工程能力，是全球最早大力投入多模态自回归和MoE架构的团队之一。我们见证着团队在技术领域的持续探索，并取得了多个里程碑。期待Sand.ai团队在未来持续创造突破和惊喜。”

Lollapalooza Capital （王慧文家办）表示：“视频生成是我们的重要投资方向，视频生成的发展会产生多个大创新机会，会有多个成功的创业公司。中国团队在视频生成领域有非常强的全球竞争力。Sand.ai在底层模型、系统工程、产品体验和商业化之间形成了良好闭环。Sand.ai团队在过去一段时间里很好的证明了他们的成长性，我们相信这样的高成长团队，会在未来走得更远。”

和玉资本（MSA Capital）创始合伙人曾玉表示：”和玉资本持续投资并赋能全球颠覆式创新与原始创新企业。作为Sand.ai连续融资的首轮新股东领衔，和玉资本坚定看好公司的模型及产品全栈能力和前沿探索精神。公司新一代模型在理解物理规律、因果逻辑和长期叙事上具备更深厚的潜力，同时也快速验证了产品，说明团队不仅理解技术的前沿，也懂如何让技术落地。Sand.ai从视频领域出发，正一步步走向可交互、可演化的世界模型。正因如此，我们认为sand ai有潜力成为新一代AI范式变革的引领者。“

多家一线机构同时押注的背后，究竟是一次对当下成绩的定价，还是对未来技术范式的提前投票？答案，可能要回到这家创业公司的技术选择以及对未来的关键判断里。

02 押注自回归，攻克MoE，一家敢于在不确定中定义规则的公司

大模型时代，技术路线的选择代表了一家公司对未来判断的敏锐程度。而在视频生成领域，Sand.ai 是少数几个能够在方向并不清晰的时候敢于下注并积极探索本质的公司。这也使得这家公司在技术路线上的选择显著领先行业——在Diffusion还是视频生成领域的共识的阶段，他们率先将研究重心放在自回归（Autoregressive）架构上，并成为这一方向最早的定义者之一。彼时， Sand.ai始人曹越的判断是，视频不止是像素生成，而是对时空和物理规律的压缩。相比 Diffusion，自回归在实时交互、长期预测和世界理解方面具备更大潜力。

这种判断也得到有效的结果验证。他们早在2025年初发布的Magi-1自回归视频世界模型，在Google-DeepMind提出的物理真实性测试榜单Physics-IQ中取得绝对领先，甚至超越了Nvidia最新推出的旗舰级世界模型cosmos3-super，更远超sora2等其他纯diffusion模型。

从生成内容走向理解世界，自回归成为Sand.ai押注未来的重要起点。

但现实世界从来不是单一模态存在的。人类对环境的认知，本质上来自视觉、声音、运动、空间等多种信息的同步融合。因此，仅依靠视频像素训练模型，能够获得的信息始终有限。

这一思考下，Sand.ai在2025年九月底推出了原生音画同出模型，将声音信号纳入统一建模体系，是国内最早拿出音画同出的团队之一。他们发现，当模型对这两者进行联合建模时，声音可以帮助画面生成更逼真的细节，画面同样也能辅助声音的生成。

这背后Sand.ai的给出的判断是，只有通过高维、多模态的联合建模，模型所压缩出的世界规律才会更接近物理世界的真实表达，从而避免传统单一模态生成带来的“认知断层”。

时间来到2026年，随着模型规模不断扩大，新的挑战开始出现。视频世界模型同时面临效果、速度与成本三重约束。如何突破这一长期存在的“不可能三角”，成为下一阶段竞争焦点。

Sand.ai最新发布的技术博客阐述了他们这个方向的最新进展——为解决规模化瓶颈，从传统Dense转向MoE（Mixture of Experts），并在具体的架构工程方面进行了多方面的创新。

首先，相比于所有网络参数都参与计算的dense模型，MoE架构能根据生成内容动态激活部分专家网络，持续扩展模型尺寸，提升模型能力的同时大幅度降低训练和推理成本。不仅如此，团队针对MoE应用在视频模型中面临的挑战，引入了全新的routing机制优化通信效率，提高专家粒度和训练稳定性。这一系列创新使模型能够在效果、速度与成本之间获得更优平衡。

另一个值得一提的选择是，Sand.ai采用了single-stream统一架构，而非业界常见的multi-stream架构，提出将文本、图像、视频、声音等不同模态统一映射为Token序列，并交由同一个Transformer进行建模。

在Single stream架构和MoE动态路由机制的作用下，不同专家网络会根据输入内容自动学习参数分工与模态协同关系。这意味着模型不再依赖人工预设的融合规则，而是能够在训练过程中自主发现不同模态之间的关联结构。

为了将效率发挥到极致以及面对多模态和长序列带来的计算难题，Sand.ai持续投入底层基础设施研发，针对长序列和异构注意力场景进行系统优化。例如团队推出的Magi Attention等创新算子，在保证建模能力的同时显著提升训练与推理效率，降低长上下文计算开销。这些底层能力是影响模型能够扩展到多大规模、处理多复杂任务关键能力。

纵观 Sand.ai的技术演进路径——从早期果断押注自回归路线，到坚定布局多模态联合建模，再到如今在底层架构与算子上的创新——其技术抉择始终锚定在同一个终极支点上：驱使模型跨越“内容生成”的表象，真正沉淀为对现实世界运行规律的理解与拟真。这种对真实世界状态的深度压缩与重建能力，也正是影响全球世界模型终极竞争的关键变量。

03 视频生成并不是世界模型的终点，而是最重要的一座“加油站”

在曹越看来，视频生成从来不是终点。

过去几年，关于世界模型的讨论不断升温，但定义始终没有统一。很多人把它概括为"预测下一个状态"（Predict Next State），曹越认同世界模型的核心是预测，却对 “人类试图定义隐藏状态是什么” 保持警惕。历史已经反复证明，每一次试图用人类先验去拆解世界，本质上都是在低估它的复杂度。

这个教训，大语言模型的历史早已完整演示过一遍。通往 LLM 的路上，曾有无数工作试图显式建模词的表征、句子的表征、段落乃至整篇文章的结构——它们精巧、漂亮、符合人类对"理解语言"的直觉，阶段性也确实被证明是"高效"的。但在真正规模化的路线上，它们无一例外，都被那个最朴素的做法杀死了：预测下一个 token。最终，没有人能够替模型定义"语言的状态"是什么。

所以曹越给出了他真正的判断：真正该预测的，不是任何 human-defined 的状态，而是世界唯一免费给你、且自带监督信号的东西——观测本身（observation）。由此引出他更进一步的结论：直接建模raw data原始数据）来构建世界模型，未必是局部最高效的方案，但大概率是最 Scalable 的方案。

而在所有原始观测中，什么最接近真实世界？

曹越的答案是视频。

视频模型的演进过程，也正是不断逼近真实世界的过程：最早只能生成单张图像，随后学会时间连续性；音画同步让它获得声音维度；多镜头生成引入空间关系；预测未来建立因果关联；实时交互则带来闭环反馈。每一次能力提升，都不是人为多塞进一个"状态变量"，而是让模型从更完整的观测里，自己长出对空间、时间、声音、因果的理解。当这些维度被统一建模，视频模型终将演化为真正意义上的世界模型。

当然，更理性地看，世界模型终局远大，没有人能一步抵达。而现阶段，视频模型已在短视频、短剧制作、内容生产等市场率先跑通商业价值，让"日积跬步"的技术势能得以兑现。商业化与技术演进也并非彼此割裂——真实需求一方面带来现金流，另一方面持续产生新的用户反馈与数据，为模型迭代提供燃料。

正如 next-token prediction 之于推理（reasoning）是那条最终胜出的路，曹越相信，next-frame prediction 之于具身（embodiment），也会是同一条路：拒绝在观测之上再架一层人造的状态，让模型自己优化。

而视频生成，并不是世界模型的终点，只是通往那个终局过程中，最重要的一座"加油站"。

04 真正稀缺的，不是模型，而是能够定义技术的团队

当世界模型逐渐从技术概念走向工程现实，一个更基础的问题开始浮出水面：什么样的团队能真正把这件事做成？

与语言模型相比，视频模型乃至世界模型的复杂度在系统层面被整体抬升。不论是架构复杂度还是数据供给和算力消耗，都注定了这是一条少数人的路。

全球范围内，真正具备第一梯队能力的视频基础模型团队不超过五家。竞争也由此发生变化。

早期是单点能力竞争，比如生成质量、分辨率或速度；而进入世界模型阶段后，竞争转向数据体系、模型架构、训练效率与产品闭环等系统能力。在这一阶段，决定胜负的已经是组织本身。

Sand.ai创始人曹越此前曾是前光年之外联合创始人，北京智源人工智能研究院研究中心负责人，前微软亚洲研究院主管研究员。履历横跨基础研究与工程落地两端，代表了全球最顶尖的技术实力，其代表性工作之一 Swin Transformer，已成为视觉Transformer架构的重要基础组件之一，并在ICCV 2021获得最佳论文奖（Marr Prize ，计算机视觉领域最高荣誉之一）。

在学术影响力层面，其论文引用量近9万次，属于典型的基础研究驱动型技术背景。这种背景决定了团队在架构选择上更偏向“问题本质”，而非短期工程优化。

算法负责人张拯的履历同样硬核。前微软亚洲研究院（MSRA）研究员，ACM亚洲区域赛金牌得主，同时也是Swin Transformer的核心作者，与曹越一起在ICCV 2021获得最佳论文奖（Marr Prize）。Google Scholar总引用量近7万次，属于典型的学术驱动型技术背景。

在产品侧，运营增长负责人王佳，曾是抖音创始团队七人之一，完整经历抖音从 0 到 1 的运营总监，也是Minimax c 端的运营负责人；此外，VidMuse 产品负责人张子贺 Zake曾主导剪映PC端从0到1的产品策略与体验设计，也负责过一加手机相机影像体验优化，并长期作为视频内容创作者活跃在B站生态中，拥有真实创作者视角与产品理解能力。

这种组合使团队同时具备两种能力：一端理解模型如何“学习世界”，另一端理解内容如何“被使用”。这种结构本身就是稀缺资源。它要求团队既能定义技术边界，也能定义产品形态。

而这一能力禀赋的稀缺性，同样投射在Sand.ai的股东结构之中。

如果观察Sand.ai的股东结构，会发现一个典型特征：它并不来自单一类型资本，而是多类长期主义资金的重叠组合。有在科技行业摸爬滚打很多年的产业资本，有关注前沿技术的美元基金，有长期投硬科技和科学家的机构，也有对技术理解很深的科技公司背景的投资方，还有不少连续创业起家的个人投资人。

这些钱背后的逻辑并不完全一样。有些看重长期技术潜力，不太在乎短期回报；有些更懂底层算法的发展节奏，愿意等；有些则是冲着团队本身来的。

所以，这支股东队伍给Sand.ai带来的不止是钱，更是一张覆盖不同视角、不同经验的认知网络。对于一家要做长线技术的企业来说，这种组合比单纯的资金更有价值。

当一张 cap table 同时汇聚这些不同类型的资本时，押注的往往已经不是单一产品，而是一种可能改变行业结构的技术范式。这个机会，显然只属于极少数人，也是一个巨大的beta。