让科幻照进现实,似乎是每代技术人的执念。
现代直升机发明者伊戈尔·西科斯基因为在童年时期读了儒勒·凡尔纳飞行器小说,后来终身以其名言 “人能想象的,就能实现” 为信条,做出了量产实用的直升机。
现在大语言模型、各类Agent席卷而来,有三个年轻人却试图做一件听起来有些科幻的事情:用AI创造数字生命。
不同于上一代那种只能对着镜头微笑、点头的数字人,他们要做的是可以在场景中自由走动、跳舞、和你视频通话时一边做事一边聊天的数字生命。
如果要在现实中找一个形象,他们认为是《流浪地球》里刘德华扮演的图恒宇的女儿图丫丫,是《银翼杀手2049》里的数字生命女孩Joi。
投中网独家获悉,近⽇,由清华博⼠、华为天才少年领衔的AI初创公司Philo AI已完成近千万级美⾦的⾸轮融资,由祥峰投资(Vertex Ventures)独家投资。
三个“不满足”的年轻人
Philo这个名字,来自希腊语词根,是Philosophy(哲学)和Philanthropy(博爱)的共同词根,意为“爱”,一种仁慈的、笼罩全人类的大爱。
投中网了解到,该公司成立不过一个月。它的三位联创张家声、王博、陈人龙,是在2026年春节后决定创业的。
“我们不是那种慢慢悠悠烧投资人钱的团队,”张家声说,“我们从拿到数据和算力开始,训了一周就能看到模型初步的效果,给我们两个月的时间,我们的模型效果能够比市面上做得更久的友商都要出色。”
这句话说得大胆,但了解他们背景的人,未必会觉得这是空话。
在Philo AI的故事中,张家声是中心人物。他博士毕业于清华大学交叉信息研究院,2023年入选为华为天才少年,之后的一段时间,他曾短暂离开过技术一线,加入腾讯做能力要求更为综合的战略岗位。
2024年,热闹的AI浪潮再次唤醒了他的技术基因,也埋下了一颗创业的种子,但技术领域就是这样残酷,离场容易返场难。“当时我作为一个计算机博士去投简历,大厂的team leader们觉得我毕业后没做过模型训练,谁都不跟我聊。”张家声回忆道。
此后,他开始有意识地接近技术一线,后来加入了一支创业团队,在那里遇到了陈人龙。
陈人龙是一个有着鲜明技术理想主义的人,他在北京大学读博期间的研究方向是多智能体强化学习,见证了强化学习从坐冷板凳到成为AI核心浪潮的时代跨越。博士毕业后,他先后加入昆仑万维和腾讯,是腾讯线上多模态模型强化学习部分的主训,并管理过超过五千张GPU的训练集群。不过,在大厂里,他反复遇到同一个困境:想做的事情太多,但能落地的太少。
而这两个在创业公司相遇的年轻人,也很快交出了一份不错的答卷。他们联手训练的Avenger模型,在25年10月Artificial Analysis I2V榜单一度位列全球第一,最终定榜虽惜败可灵,但力压了字节、Vidu、PixVerse 等头部团队。这个结果也让张家声和陈人龙确信,他们掌握了训练视频模型的关键节奏。
而这三人之中,王博是最有创业经验的。他早年间在美国做过连续创业者,后来回国加入了TikTok,负责社交和创作方向的工作。“在TikTok我做的事简单来讲,就是帮助判断这个全球数十亿DAU的产品,在AI时代可以有什么突破。”这段经历让他对AI 模型能力与落地场景的前沿趋势保持敏锐洞察。
其实,如果把时间拉得更长,社交娱乐是贯穿了王博此前整个职业经历的主题,其之前的三次创业也全部围绕该主题展开,所以这次与张家声、陈人龙一起探索新的交互方式,在他看来是自己擅长领域的一个自然延伸。
当然,相比于张家声和陈人龙在技术追求上的偏执。王博的判断逻辑则更冷静。他从三个维度评估这个机会:“第一,视频是AI领域目前唯一在技术和应用层面上都还没完全收敛的方向;第二,相比已经跑出了阶段性红利的代码赛道,放眼整个AI领域,多模态可能是唯一承载得起下一个超级叙事、且尚未定局的大赛道;第三,这需要一个足够强的团队——既有技术能力和认知,又愿意做足够激进的新尝试。”
于是,春节后三个人一拍即合,正式开启了创业生涯。
世界生命模型与全清北团队
在开篇,我们提到,Philo AI做的事情是用AI创造数字生命。团队将其概括为三个维度的同时成⽴:⾝(视频形态与感知)、⼼(记忆与情感)、⾏(主动⾏为与关系演化)。
但要真正理解Philo,需要先理解它所处的赛道坐标。
当前市场上的视频生成模型,像是Sora、可灵(Kling)、Vidu等本质上都在做同一件事,提升视频的生产效率。用AI替代传统的手工制作或拍摄流程,让视频生成得更快、更便宜,最终交付一个MP4文件。
“这是上一代模型的逻辑,”张家声说,“Sora、可灵、Vidu,它们的强点都在于提升视频的生产效率。但我们想做的,是完全改变内容的交互形态。”
Philo AI给自己的定位是“世界生命模型”。他们要做的不是生成一段固定的视频,而是让用户可以与视频中的角色进行实时、双向的互动。这⼀判断正被全球最前沿的团队印证。由前 OpenAI CTO Mira Murati 创⽴的 Thinking Machines Lab近期提出“交互模型”,同样主张交互须原⽣于模型、实现全双⼯实时交互。
更形象一点,“就像我跟我家人打视频电话,他可以一边做家务一边跟我打电话,可以一边做任何事,我们的模型要做到这种程度。”
要知道,实时、双向的互动交互,不仅对技术提出了更高的要求和挑战,对成本的控制要求也近乎极致。毕竟资金庞大如OpenAI,也不得不关停token消耗量巨大的Sora,这种阴影之下,年轻的Philo AI团队该如何平衡与克服?
张家声分享称,在技术层面,Philo的核心壁垒是一种全链路强化学习能力。简单来说,传统做法是先把扩散模型训练好,然后再做加速。但加速一定有代价,最明显的就是效果往往会大幅下降。
“我们掌握的关键要素是,知道怎么在加速的过程中保持模型的能力,甚至让模型变得略微更强一点,”张家声说,“这是我们团队最独门秘笈的能力。”
陈人龙补充称:“这本质上是做加速一定要对效果做trade-off,是做减法。很多公司要么效果做得特别好但一加速就崩了,要么速度快但效果不行。我们能做到效果特别好,同时速度也非常快,而且长时间有很好的一致性和连贯性。”
当然,成本数据是Philo引以为豪的另一个指标。他们透露,内部正在训练的模型已经可以把生成成本降低到约0.0024元/秒,而市面上Seedance等产品的对外售价大约在1到2元/秒。这意味着Philo的成本大约只有行业水平的千分之一到万分之一,他们的目标是进一步优化到0.0001元/秒的量级,同时保证极具真实感的视频生成效果。
为什么大厂做不到这一点?Philo团队给出的解释是,大厂的积累大多在非实时的大型多模态模型上,技术路线不同。其次,大厂的组织架构导致决策成本很高,对人才的利用效率很难提上去,他们人很多,但也很冗余。
更关键的是认知上的领先,训练模型最重要的不是资源,而是你得知道这个事的节奏是什么样的,每个阶段的训练应当花费多少资源和时间,很多团队没有这个概念。
虽然视频AI赛道正在迅速升温,大厂在加速入场,世界模型的概念一波接一波。在Philo AI看来,“视频模型的技术还没有完全收敛,语言模型已经是纯粹的军备竞赛了,但视频模型还有很多技术点大家没找到。所以这个赛道,还是能够凭认知和技术产生领先的。”
而⽐单⼀指标更稀缺的,是团队的能⼒栈完整度。短短数月内,张家声迅速组建的一个小而精的团队,目前Philo AI核心团队的平均年龄在28岁左右,清一色的清华、北大博士背景,覆盖了从底层算法、⼤规模训练,到推理⼯程、系统与产品的每一个核心技术环节。
他们多是张家声的好友和过去的同事,比如数据负责人是一位00后,25岁就拿到博士学位,再比如基础设施负责人之前也是华为天才少年,在华为和小米都待过,博士期间深耕编译器和操作系统,对底层优化有极深的积累。
这些年轻人放弃的并不少,加入Philo AI前,他们在各大厂拿着百万甚至数百万的年薪。但最终让他们做出选择的是更愿意去做成一件事。
做AI时代的张一鸣,祥峰独家领投
Philo AI 出来融资时信心十足,只主动接触了少数几家最头部的机构。而最终与祥峰走到一起,背后其实还有一段要追溯到两年前的缘分。
早在两年前,祥峰投资就曾与张家声有过接触。彼时祥峰既看中他深厚的技术背景,也欣赏他全面的综合素质,这正是祥峰的典型投资人画像。只是当时的张家声一心想扎进技术一线,这段接触并没有走向合作。
缘分却以另一种奇妙的方式被续写。两年兜兜转转,这一次因为一个偶然的机会,恰逢张家声创业,双方再度走到了一起。与不少机构在早期反复观望不同,祥峰展现出的是一种少见的果断与犀利。在与合伙人夏志进的会面中,张家声展现了两个特质:其一,对自己要做的事极具激情,私下里他是个妥妥的 I 人,可一旦讲起热爱的事业便滔滔不绝;其二,团队踏实、靠谱、实干的风格。夏志进当场就表达了对 Philo 的强烈兴趣,并迅速推进了投资决策。事后,他这样评价 Philo AI 团队:
我们坚信,视频不会停留在“生成一段内容”,而会成为人与 AI 建立关系的另一重要入口。Philo AI希望以全双工、实时双向的视频交互为本体,探索AI交互的新范式。我们很欣赏Philo AI团队既年轻、聪明、务实,又具备从底层算法到大规模训练,同时具备完整的工程化能力,也相信他们将在这一领域有所突破。
后来,Philo AI团队在深圳与祥峰投资创始合伙人郑俊聪进行了交流,同样,他也表达了浓厚的兴趣和认可。作为曾在早期就捕获宇树等明星创业公司的投资人,这一次,祥峰在 Philo AI 上直接下了重注,背后是其对这个赛道与这支团队的犀利判断。
一个月,首轮融资交割,核心模型正在训练中,下游合作已经铺开。Philo的故事刚刚开始,但这群年轻人的节奏,确实比大多数人快了一步。
在应用场景上,Philo已经看到了多个方向,用世界生命模型,大幅改善甚至重写直播、游戏、社交、内容平台的底层逻辑。团队透露,他们已经与多家下游厂商展开了沟通,“我们的模型一旦打磨好,就可以立马部署到下游的产品上去”,同时团队预计最晚Q4可以正式发布模型。
对于更长远的愿景,张家声给出了一个颇有些野心的表述:“我们希望开创性地做一些新的东西,就像张一鸣开创算法推荐和短视频的时代。当然,我们做的是AI时代的、人与多模态智能的交互新范式。”
热门跟贴