3D动画师改一个抬手动作平均要调47个关键帧,而主流AI视频工具给的结果要么全收要么全扔——这个痛点被两个前大厂员工盯上了。
Andrew Carr和Jonathan Jarvis,一个来自OpenAI,一个来自Google,2023年创立了Cartwheel。他们没有跟风做"打字出片"的生成器,而是选择了一条更笨的路:教AI理解人怎么动,而不是只会拼像素。
Jarvis算过一笔账:网上能爬的文本、图片、视频是"无尽的海洋",但带标注的3D动作数据稀缺到"比我们预想的难10倍甚至100倍"。大厂的模型吃惯了丰盛大餐,碰到这种硬骨头直接绕道走。
从" backyard 跳舞"到骨骼级控制
Cartwheel的技术路径很反常。当Sora们忙着用扩散模型直接生成最终画面时,这支团队花了数年做一件事——把一段手机拍的2D视频,还原成可编辑的3D骨骼。
换句话说,他们的输出不是成品,是"半成品"。
这个设计直接回应了AI动画的核心矛盾:生成式工具越方便,创作者越焦虑。Carr的原话是:"谁想看完一段自动生成的动画?无聊。我们要的是能上手改、能推着走的东西。"
他们的系统输出的是3D资产,意味着动画师可以把同一套动作套到不同角色、不同场景里,还能逐帧微调力度和节奏。控制权回到人手里,"同质化"就从绝症变成了伪命题。
"品味"能被机器学会吗?
采访中有个细节很有意思。当被问到AI怎么定义"好的表演",Carr和Jarvis反复提一个词:taste(品味)。
这不是客套。3D动画的微妙之处在于,同样一个挥手,快0.3秒是打招呼,慢0.3秒可能是告别。这些timing的拿捏,传统上靠动画师的手感和导演的反馈。Cartwheel的赌注是:如果模型能理解动作背后的"为什么",而不是只会复制"是什么",就有可能把这种品味编码进去。
他们的数据策略也因此变重。不是爬公开视频喂给模型,而是花大量功夫构建带语义标注的动作库——这个动作是"疲惫的",那个是"克制的愤怒"。标注成本极高,但换来了可解释、可干预的中间层。
2026年的动画工作流长什么样
Cartwheel的野心不止于工具。Carr和Jarvis在访谈里描绘了一个更开放的叙事形态:创作者用AI处理技术苦活,但故事走向、角色弧光、视觉风格完全由人把控。
这和他们看到的行业趋势有关。游戏和影视的管线正在融合,实时渲染、虚拟制片、AI辅助制作挤在同一时间线里。传统分工——原画、建模、绑定、动画、灯光——的边界在软化,但"软化"不等于"消失"。
Jarvis提到一个观察:大厂把资源砸向"端到端生成",是因为那条路数据多、演示效果好。但动画师真正需要的不是替代,是杠杆。一个能放大个人产能、但不剥夺决策权的系统,才是这个行业愿意买单的东西。
Cartwheel目前的产品形态没有公开太多细节,但从技术路线反推,他们可能在押注一种"中间件"位置——不上游抢创意,不下游抢渲染,卡在3D资产的生成与编辑环节。
这个位置的竞争对手不多,但挑战也明确:如何让习惯了"一键出片"的用户,重新接受"生成+编辑"的两步流程?
Carr的回应很直接:"如果用户只想打字然后看结果,那不是我们的客户。"
这种筛选本身也是一种产品定位。在AI动画的军备竞赛里,做"更容易的控制"比做"更惊艳的生成"要慢得多,但如果赌对了,护城河也更深。
当OpenAI和Google把动画师当成终端用户时,这两个前员工选择把他们当成合作者——这个假设成立的话,2026年的工作流可能会比我们想象的更人机混合。
问题是:有多少创作者愿意为了"可控性",放弃"即时满足"的快感?
热门跟贴