文/文杰
导语
MiniMax 联创再创业:All in AI 3D,目标不止游戏。
1月10日中午,我在VAST的办公室见到宋亚宸。他刚结束上午的会议,下午还要见投资人。前一天,他曾参与创立的MiniMax刚刚上市,首日市值突破1000亿港币。而他和往常一样,玩游戏玩到了凌晨三点。
2023 年初创立的VAST,如今已成为3D生成领域的头部玩家——用户量突破650万,截至去年8月,公司年经常性收入(ARR)已突破1200万美元;团队有几十位AI与图形学交叉领域的博士和科学家,发表论文60余篇。
上个月,他们刚刚发布了 Tripo Studio 1.0版本,前几天还宣布了一场面向独立开发者的游戏大赛。
近期上线的Tripo Studio 1.0版本
宋亚宸身上有一种强烈的反差感。
他生于1997年,本科在约翰霍普金斯读国际关系与经济学。大三去以色列访学,教授告诉他:“拥抱世界的复杂性”。
不是技术出身,却投身最前沿的AI领域。2019 年,他加入商汤科技,在 CEO 办公室做战略相关工作,研究AI 如何与动画、游戏结合与落地。 2021 年,他以001 号员工和早期联创的身份参与了MiniMax 的创立。但在2022年底,GPT-3.5发布、大语言模型最火热的时候,宋亚宸做了一个反常识的决定:离开MiniMax,All in 3D。
当时谷歌发布了Dreamfusion,3D生成成为可能。他的判断是:从3D到视频到图片到文字,是信息不断被压缩的过程,3D才是源代码,比其他媒介更本质,值得All in。
2023年初,他创立了VAST,同年,他成为SIGGRAPH 50年历史上第一位登上主题演讲的中国人,与英伟达黄仁勋同台。
在创业者的光环之外,宋亚宸还是个重度游戏玩家:喜欢SLG 和RPG,在《率土之滨》里当过盟主;国际象棋打到同年龄段世界第八;每隔一两周拉上朋友玩一场DND(龙与地下城)……
高中时,他每天晚上11点睡、凌晨3点起来写作业,放学先下三四个小时棋,再打三四个小时游戏。大学时,因为喜欢坐在床上玩游戏,席梦思床垫被他坐出一个坑。现在创业了,作息依然如此:早上7、8 点起床,工作到晚上9、10点,然后打游戏到凌晨三四点。
正是这个玩家身份,让他比大多数AI创业者更早看到游戏行业的痛点。
2019年在商汤做“AI+游戏”时,他经常跑行业活动,发现很多游戏玩法挺有意思,但美术普遍粗糙。不少人本来想做3D,最后只好妥协做成2D,选一些奇怪的视角,玩法潜力无法完全发挥出来。
2020年、2021年,他连续参加两届Global Game Jam,自己当策划下场做游戏。他发现一个规律:现场组队最缺的就是美术和工程,策划最多。群里到处都有人喊:缺美术、缺工程。很多人来不及做完,只好放个占位的小人凑数。
美术生产的高成本和长周期一直是行业的痛点。有一次在GDC,他遇到一个独立开发者,名片上印着某某Studio,看起来非常正式。聊了几句才知道,对方在这家“公司”待了十年,同时打着无数份兼职——只为养活这个只有自己一个人的工作室。一个游戏磨十年,期间要接无数外包,才能换来继续做梦的资格。
“这件事太影响大家的创意发挥了。”
AI 3D 生成带来更多玩法
宋亚宸对游戏行业有一个更尖锐的判断。他自己就是重度玩家,在游戏里花过不少钱,但他毫不避讳地说:现在游戏的商业模式,严重阻碍了游戏的多样性。
“为什么?就一个原因:做游戏太难了、太贵了。”
他说自己也想吃电子汉堡、电子沙拉、电子鸡腿——那些健康的、轻量的、不让人上瘾的东西。但市场上为什么很少?因为赚不到足够的钱。
在他看来,这是成本结构决定的必然结果。创作门槛过高,导致大多数产品不得不向变现效率最高的方向倾斜。
基于现在AI 发展的速度。宋亚宸预测,未来一两年3D生成可能会发展到“让人不得不用”的程度。
到时候,我们可能会迎来创意的爆发。
以下是游戏茶馆与宋亚宸的对话,内容经编辑。
01
游戏行业的创意发挥被严重阻碍了
茶馆:你当初为什么从MiniMax出来创业?
宋亚宸:2022 年底,谷歌发布Dreamfusion,3D生成的开山之作。3D生成变成可能了,我觉得3D大模型是很好的机会,应该All in。
但那时候是GPT、OpenAI是最火的时候,很难说服大家All in 3D。但我觉得 3D这个事情更本质、更长期,所以我自己出来All in。
茶馆:你是什么时候和游戏行业产生交集的?
宋亚宸:我以前在商汤做“AI+游戏”和“AI+动画”的时候,经常去一些游戏行业的活动。我记得2019年还去过茶馆的对接会,见到了很多投资人、大厂发行商和中小研发。许多小型工作室是我们的目标客户,我就一个个去加微信。
当然大游戏厂商也跑,但真正好玩的还是那些小厂商——他们会做很多新玩法出来,不是那种采购了以后对付老板、满足一下“今年要用多少AI”的KPI。好玩的东西他们真的能用起来。
茶馆:听说你还打过Game Jam?
宋亚宸:对,2020年、2021年打了两次。第一次是和一个三七互娱的美术、一个科大讯飞的程序、一个文案一起组队,做了一个酒馆调酒师游戏,3D的。完成度很一般,但玩得很开心。
我参加线下Game Jam 时就发现,现场组队最缺的就是美术和工程,策划最多。群里到处都有人喊:“缺美术、缺工程”。而且美术经常都来不及做完,很多人就放个占位的小人儿上去,或者把私下做的稿子弄上来,完成度能高一点。你要是没有现成的素材,从头开始起锅灶就很痛苦。
茶馆:从那时候就开始关注到美术这个痛点了?
宋亚宸:美术一直都是最大的痛点。
上海有个社群叫Random Encounters,是育碧的一群老外组织的。他们会办那种活动,大家把自己的demo带过来互相体验。我参加过几次,看到很多玩法已经挺有意思了,但美术普遍都比较粗糙。很多人本来想做成3D的,但3D开发不光美术难,整个开发流程都难,最后只好做成2D,选一些奇怪的视角,战斗方式很难展现出来。
大厂有预算铺美术、铺资产,立项测试完了再搞这些,水到渠成。但对于小工作室和独立开发者来说,就相对痛苦了。我见过那种真有理想的,一个游戏做十年,为了养活自己的工作室,期间要接无数的外包。
茶馆:一个游戏磨出来真的需要很长时间,尤其是团队人不多的时候。
宋亚宸:这件事太影响大家的创意发挥了。
现在代码变得简单了,Cursor这类工具很多人都会用,尤其是产品经理、策划。他们已经能做出不少2D的东西,这肯定是一个进步。
但3D就不一样了。一方面,技术还不够成熟,尤其在大型场景搭建上可能还差一些;另一方面,从2D跨到3D本身就是一道坎——技术框架、架构、引擎整体都会变,成本一下子就上去了。
但我们也知道,2D游戏在体验感、沉浸感上肯定是弱的。很多独立游戏不是不想做3D,而是美术生产和程序开发的难度、成本都太高了,很无奈,只能退而求其次选择2D。
02
当创作成本趋近于零,新东西就会涌现
茶馆:当3D大模型技术和代码生成走向成熟,游戏行业会发生怎样的改变?
宋亚宸:如果我们只盯着游戏本身,可能看不到真正的变化。我们看到的其实是一种新东西的出现。
游戏是第九艺术,和电影、文学名著、壁画一样,都是大量的人、大量的资金,投入很长时间才能完成的东西。有点像米开朗基罗带着几十个人在西斯廷教堂的穹顶上作画,一画就是好几年。游戏开发其实是一样的。
这些艺术形式有一个共同特点:成本很高。这一点非常本质。因为成本高,所以对收入的要求也高。而当你对商业化的要求很高时,就会倾向于把单个作品做成一个独立的、能够形成商业闭环的产品。
现在任何一款游戏都是一款产品——王者荣耀、吃鸡、原神、消消乐、咸鱼之王,全都是端到端形成闭环的产品。电影、长篇小说也是如此,哪个不是指望赚钱的?迪士尼的电影要赚钱,米开朗基罗的画美第奇家族得付钱。
茶馆:你说的“新东西”具体指什么?
宋亚宸:新东西在于:当创造内容的成本趋近于零时,我就不一定非要指望赚钱。如果不指望赚钱,它就可以是分享心情、炫耀想法、传递信息、吐个槽……可以是任何东西,不用端到端形成一个产品。
比如很多游戏广告的买量素材其实很好玩,但这些买量素材里的可交互内容,基本上都作为副玩法藏在一些强商业化的游戏里。为什么只能是副玩法?就一个原因:它端到端不产生商业化。所以它没办法成为我们现在所定义的“游戏”。但它是不是游戏?我觉得它太有游戏性了。
现在游戏的商业模式,严重阻碍了游戏的多样性。为什么?就一个原因:做游戏太难了、太贵了。你得赚钱:首充、次充、累充,各种节日活动,恨不得100个东西往上怼,把你的钱包安排得明明白白。我自己就是重度玩家,在里面花了不少钱。
茶馆:创作门槛过高,多数产品不得不向商业化效率更高的方向靠近。
宋亚宸:文字、图片、视频都已经跨过了这道坎。当创作成本降到接近零,就会出现新东西——如果还要在龟壳上刻字,怎么可能有微博、知乎、小红书?如果拍视频还要长枪短炮和胶片,也不会出现抖音。
现在提到视频,大家第一反应是抖音、快手、B站,不是电影。电影在整个视频产业里的占比就那么一点,游戏未来也可能会这样:在所有可交互内容里,传统意义上的“游戏”只占一小部分。想到可交互内容,第一反应不再是游戏,而是那些新东西。
新东西叫什么我不知道,但一定不叫“小游戏”。有人问我:“你想做小游戏的平台?”我说不是。道理很简单:张一鸣做了TikTok,你能说这是个“小电影平台”吗?
茶馆:这种新东西什么时候能涌现?
宋亚宸:现在还在早期。手机摄像头出来之前,做不出抖音——摄像头都没有,怎么做?
所以元宇宙那一波泡沫破裂了。当时很多人进元宇宙会说一件事:没东西体验。元宇宙很大,但你的房子是空的,能干嘛呢?你跑到GTA里面是有各种故事的——有纹身的黑帮,有灯红酒绿的街道,每一块广告牌都不一样。细节做到那个程度,才有那么多内容让你消费。当然,那是砸了钱的,全是手搓出来的。
但如果做一个GTA这样的东西是零门槛、零成本、实时生成的呢?我今天就能做一个,甚至做好几个。这个挺好玩,但大家可能也不会花很多时间,两分钟、一分钟、甚至20秒。够了,你可以去创造下一个世界,消费别的东西。
这种强交互、轻体验的新东西,现在确实太早了。可能还要再等等我们这些做AI的。
03
3D是信息的源代码,比其他媒介更本质
茶馆:你认为3D比图片、视频更本质?
宋亚宸:大家通常的理解是:文字到图片到视频到3D,信息密度不断提升,体验逐步升维。这个理解是错的。
其实反过来才对:从3D到视频到图片到文字,是信息不断被压缩、不断损失的过程。
宇宙演化几百亿年,只有3D信息。生物演化几十亿年,只有3D信息。人类几十万年,直到三五千年前,也只有3D信息。良渚、红山、三星堆,出土的全是面具、首饰、图腾——3D的东西,而不是文字、图片和视频。
为什么?因为文字、图片、视频都是人类最近发明的压缩格式。三五千年前发现可以在龟壳、竹简上传信息,但载体有限,必须压缩,于是有了文字。视频也一样,100多年前才发明,又是一种压缩格式。
所以3D才是源代码、源文件,文字图片视频都是低模。为什么要低模?因为GPU不够、带宽不够。2G只能传文字,4G才有视频。等到人人光纤的时候,大家会回归源文件,因为体验最好。
训练AI也是同样的道理。人得多高傲,才会觉得通用人工智能应该基于文字——一种压缩格式来训练?它难道不应该基于源文件训练吗?这就是为什么李飞飞、杨立昆都在做世界模型、3D大模型。大家缓过味来了:要在最本源的信息上训练。
茶馆:为什么3D大模型的发展相对其他模态没那么快?
宋亚宸:三个原因。
第一,缺人才。图形学本身人就不多,图形学和AI交叉就更少了——以前从来没交叉过,突然交叉了,能干这事的人非常少。你很难找到一个50岁的老教授一辈子研究这个,这是全新的领域。所以我们团队基本都是30岁以下的博士。
第二,缺数据。你今天拍照片、写文字发朋友圈很正常,但你见过几个人建模发朋友圈?数据只能从各种犄角旮旯里想办法搞。
第三,管线太长。不是几何生成完就结束了——贴图、PBR、法线、UV、拓扑、骨骼、动作、特效,太多了。你是在创造世界。
所有AI生成里,只有3D和代码特别像。很多人说我们是“3D的Cursor”,确实有道理。几乎所有大模型都是“模型即产品”——一个对话框,输入文字输出结果,非常简单。只有代码和3D不是这样。Cursor长得像VSCode,我们长得像引擎,因为它是个管线,不是一进一出就完了。而且3D艺术家和程序员,从人数、工资到使用习惯都很像。
更本质地说,构建世界只需要两件事:造万物和建规则。我们负责造万物,代码负责建规则。这两件事一合就是一个世界,比文字、图片、视频更加本质。
茶馆:3D大模型和世界模型是什么关系?
宋亚宸:3D模型会演化出世界模型。世界模型看过很多虚拟世界和现实世界的数据,能自动把逻辑、物理都模拟掉。
比如一扇门就应该可以开。而且这个“开”取决于上面那根杆、那个弹簧长什么样——弹簧朝内就朝内开,朝外就朝外开。它能理解这件事情。它先分割、知道上面有什么,然后理解,再生成。
有了世界模型以后,很多RPG游戏会非常好做。
茶馆: 现在所谓AI结合玩法的游戏,基本都集中在RPG领域——Chatbot、智能NPC……但RPG其实不是最大的品类。
宋亚宸:我觉得做AI的和做游戏的还没有互相理解。大家觉得像MOBA 这类的玩法是规则性的东西,像围棋一样,很难用AI改造。
但降本增效和玩法创新不应该完全割裂开。直接用AI改造《王者荣耀》不太现实,但如果把创作门槛降下来,就可能有无数人去做类似的原型,无数原型里可能跑出一两个超级玩法。
本质上还是要用新能力多尝试,就可能涌现好玩的东西。但现在尝试的成本还太高。如果只花50块钱、两天时间就能搞,大家就搞了。但如果花500万搞两年,就不好搞了。
茶馆:你怎么看AI技术的发展速度?
宋亚宸:现在的很多技术放在过去1000年里,绝对是那个世纪的顶尖发明。
比如视频生成。以前的视频只有两种:在物理世界找位置、找角度拍一段时间,这是拍摄;在虚拟世界找位置、找角度拍一段时间,这是动画。AI生成视频干了一件很厉害的事:不需要物理相机或虚拟相机,不找位置、不找角度、不给拍摄时间,直接编一个从未存在过的东西给你。这应该得诺贝尔奖。
3D生成也一样。以前什么都没有,现在一句话出来个模型,言出法随,马良神笔。但大家看了三年奇观,已经麻木了。
04
3D 生成技术很快会进化到无法忽视
茶馆:VAST的发展脉络是怎样的?
宋亚宸:我们最开始想做一个新内容平台,新东西的TikTok,但失败了。
为什么失败?因为没有出现新东西的“手机摄像头”,缺乏大众级别的创作工具。大众没法参与,你招的还是那些艺术精英,只是他们闲着来做这种东西。导演闲了没事拍个视频,和门口二大爷拍个视频,是不一样的东西。
意识到这个问题后,我们就想怎么让门口二大爷也能做。所以转向3D大模型,后面还有世界模型,目标是让每个人都能创造体验,沉浸式、强交互、轻内容的体验。
茶馆:你们具体做了什么?
宋亚宸:我们在2025年5月31号发布了Studio的0.1版本,就是Beta版本,收入一个月翻了两三倍,一个季度翻了五六倍。就干了一件事:把原来“模型即产品”的对话框变成了引擎、一个studio。
上线初期做得不完整,所以叫0.1。我们刚刚发布了Tripo studio 1.0,希望在这个版本上不停迭代,慢慢形成一种新的工作流,替代原有那种非常复杂的、不同插件、不同引擎参与的3D制作软件管线。
一部分面向专业用户,但也面向我们叫Pro C的用户——有一定专业能力的C端用户。很多人用这个东西不是靠它吃饭的,可能不是建模师,可能是原画师用来做3D参考,可能是做广告的。
茶馆:现阶段离“3D 抖音”的愿景还有多远?
宋亚宸:我们在做一个3D的剪映,或者说可交互内容的剪映,让每个人都能零门槛、零成本创作3D的可交互内容。在PC上,在手机上。它可能不只是工具,还包括平台、社区。
一直在持续做,持续迭代。有一群很包容的社区创作者陪我们迭代。
茶馆:目前 3D 大模型的竞争格局是怎样的?VAST的核心优势是什么?
宋亚宸:海外没有特别多竞争对手,AI 3D目前国内做得比较好。
我们的优势在于技术好,生成效果好。一是数据量大,比其他家多一个数量级。二是人才,我们有几十个AI与图形学交叉领域的博士和科学家,论文发了60多篇。
茶馆:大厂数据不应该更多吗?
宋亚宸:没那么多。一个游戏有多少3D模型?算1万个已经很多了。大厂也不可能做过500款3D大型游戏吧?算500款也就500万,我们至少5000万。
茶馆:有从业者说把3D生成技术接入现有管线很麻烦,你怎么看?
宋亚宸:不同管线确实有不同要求——分层方式、贴图格式、命名规范都不一样。但我觉得现在不是操心这个的时候。好用大家就会用。
就像手机拍照360P、720P的时候,游戏公司说“完全用不了,是垃圾”。到1080P,说“能用,但格式跟我们内部不太契合”。但当它能拍4K、8K,而且几乎免费——你原来10万块钱我现在一毛钱,你原来几个月我现在10秒钟——你还会说“我的管线很复杂”吗?你不会的。你会想“我怎么配套AI做新的管线?谁先做谁就牛”。
这说明3D生成还不够好。如果足够好,他们就会问“你的接口是什么?我们怎么把管线做得更匹配?”
茶馆:你觉得什么时候3D生成能达到让大家不得不用的程度?
宋亚宸:我觉得2026年有机会。发展速度太快了,你去看2023年、2024年、2025年的技术演进,完全不是一个level。基本上每个月都有版本更新,没有卡点,纯粹是时间和精力投入的问题。
茶馆:你喜欢什么类型的游戏?你自己想用3D 生成技术做什么?
宋亚宸:SLG和RPG,我喜欢跟人斗。《文明》《全面战争》《维多利亚》这些策略感重的都可以。
我想做一个偏SLG的3D游戏。以3D作为核心玩法,还有很多有意思的可能性。
▶ “发送“社群”加入游戏茶馆行业交流群”
热门跟贴