前OpenAI员工花3年干一件事：把AI动画的"黑箱"砸开

闪存猎手

2026-04-12 08:32 ·北京

3D动画师改一个抬手动作平均要调47个关键帧，而主流AI视频工具给的结果要么全收要么全扔——这个痛点被两个前大厂员工盯上了。

Andrew Carr和Jonathan Jarvis，一个来自OpenAI，一个来自Google，2023年创立了Cartwheel。他们没有跟风做"打字出片"的生成器，而是选择了一条更笨的路：教AI理解人怎么动，而不是只会拼像素。

Jarvis算过一笔账：网上能爬的文本、图片、视频是"无尽的海洋"，但带标注的3D动作数据稀缺到"比我们预想的难10倍甚至100倍"。大厂的模型吃惯了丰盛大餐，碰到这种硬骨头直接绕道走。

从" backyard 跳舞"到骨骼级控制

从" backyard 跳舞"到骨骼级控制

Cartwheel的技术路径很反常。当Sora们忙着用扩散模型直接生成最终画面时，这支团队花了数年做一件事——把一段手机拍的2D视频，还原成可编辑的3D骨骼。

换句话说，他们的输出不是成品，是"半成品"。

这个设计直接回应了AI动画的核心矛盾：生成式工具越方便，创作者越焦虑。Carr的原话是："谁想看完一段自动生成的动画？无聊。我们要的是能上手改、能推着走的东西。"

他们的系统输出的是3D资产，意味着动画师可以把同一套动作套到不同角色、不同场景里，还能逐帧微调力度和节奏。控制权回到人手里，"同质化"就从绝症变成了伪命题。

"品味"能被机器学会吗？

"品味"能被机器学会吗？

采访中有个细节很有意思。当被问到AI怎么定义"好的表演"，Carr和Jarvis反复提一个词：taste（品味）。

这不是客套。3D动画的微妙之处在于，同样一个挥手，快0.3秒是打招呼，慢0.3秒可能是告别。这些timing的拿捏，传统上靠动画师的手感和导演的反馈。Cartwheel的赌注是：如果模型能理解动作背后的"为什么"，而不是只会复制"是什么"，就有可能把这种品味编码进去。

他们的数据策略也因此变重。不是爬公开视频喂给模型，而是花大量功夫构建带语义标注的动作库——这个动作是"疲惫的"，那个是"克制的愤怒"。标注成本极高，但换来了可解释、可干预的中间层。

2026年的动画工作流长什么样

2026年的动画工作流长什么样

Cartwheel的野心不止于工具。Carr和Jarvis在访谈里描绘了一个更开放的叙事形态：创作者用AI处理技术苦活，但故事走向、角色弧光、视觉风格完全由人把控。

这和他们看到的行业趋势有关。游戏和影视的管线正在融合，实时渲染、虚拟制片、AI辅助制作挤在同一时间线里。传统分工——原画、建模、绑定、动画、灯光——的边界在软化，但"软化"不等于"消失"。

Jarvis提到一个观察：大厂把资源砸向"端到端生成"，是因为那条路数据多、演示效果好。但动画师真正需要的不是替代，是杠杆。一个能放大个人产能、但不剥夺决策权的系统，才是这个行业愿意买单的东西。

Cartwheel目前的产品形态没有公开太多细节，但从技术路线反推，他们可能在押注一种"中间件"位置——不上游抢创意，不下游抢渲染，卡在3D资产的生成与编辑环节。

这个位置的竞争对手不多，但挑战也明确：如何让习惯了"一键出片"的用户，重新接受"生成+编辑"的两步流程？

Carr的回应很直接："如果用户只想打字然后看结果，那不是我们的客户。"

这种筛选本身也是一种产品定位。在AI动画的军备竞赛里，做"更容易的控制"比做"更惊艳的生成"要慢得多，但如果赌对了，护城河也更深。

当OpenAI和Google把动画师当成终端用户时，这两个前员工选择把他们当成合作者——这个假设成立的话，2026年的工作流可能会比我们想象的更人机混合。

问题是：有多少创作者愿意为了"可控性"，放弃"即时满足"的快感？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴