打开网易新闻 查看精彩图片

来找找相同和不同吧。

本文首发于 2024 年 04 月 17 日,2025 年 01 月 17 日。

文丨程曼祺

编辑丨宋玮

在今天(1 月 9 日)早上前往港交所敲钟前,MiniMax 创始人闫俊杰对《晚点 LatePost》分享了他此刻的想法:

希望我们后续能有机会对整个行业智能水平的提升做出更大的贡献。我们初步探索了一条纯草根 AI 创业的路径,尽管后面还是非常挑战,如果能对 AI 创新创业生态的发展有启发我们会感到很光荣。

2024 年和 2025 年,《晚点 LatePost》发表了两篇对 MiniMax 创始人兼 CEO 闫俊杰的访谈。第一篇访谈发生在 2023 年年底和 2024 年 3 月,第二次访谈发生在 2025 年 1 月。

两次访谈间隔不到 1 年,行业和 MiniMax 自身都有很大变化。2024 年初,闫俊杰给团队定下的目标是 “技术上如何达到 GPT-4,产品上如何把用户规模翻十倍,单个产品能突破千万 DAU(日活)。”2025 年春节 DeepSeek-R1 震撼全球后, DAU 在 MiniMax 内部被视为 “虚荣指标”。

这在那个春节前的访谈中已有信号。当时闫俊杰告诉我们,做大模型的一大误区是套用移动互联网的逻辑。更多的用户和他们带来的反馈能直接反哺移动互联网推荐算法,让它更懂用户、更精准,但这些数据并不能直接让模型变得更聪明,现阶段提升大模型性能的核心方法是训练和迭代新模型。

不变的是,MiniMax 一直想做服务普通人的 AI,“Intelligence with everyone”。闫俊杰提及的一些计划被陆续执行:比如第一次访谈中他讲的 MoE(混合专家系统)和线性注意力机制——2025 年 1 月发布的 M1 是第一个使用线性注意力的千亿参数大模型。也有一些计划则暂时未有后续,闫俊杰认为 “信息获取” 有做 Agent 的机会,但 MiniMax 目前没有推出公开的产品。

两次访谈的不同和相同,记录了这家公司和行业议题的变化。

2024 年的访谈:AGI 不是大杀器,是普通人每天用的产品

“每件事都是做到极致才会好”

晚点:一位 OpenAI 的工程师告诉我们,他判断一位人工智能创业者到底有没有真正的 AGI 信仰,就看这个人是在 ChatGPT 发布之前创业还是在这之后。

闫俊杰:MiniMax 是 2021 底创立的,我们刚创业的那个时间点,AGI 在中国还是一个巨大的非共识。

我们当时计算过,把 GPT-3 扩大 100 倍需要非常多一笔钱,可能是几十亿美元。但在那个时间点,我们显然不认为中国会有那么多钱愿意支持一家创业公司。

晚点:有人认为你们最开始是做元宇宙的,大模型火了后才说做 AGI。你们在出发时到底有多相信 AGI?

闫俊杰:我们是在 ChatGPT 出来之前成立的,大部分公司是在那之后,这是核心的区别。

ChatGPT 之前,很多事情没有参考,你不得不做更多尝试,但最内核的还是技术进步,不确定的是产品方向。

我们最开始对 AI 产品的想象是一个同时有声音、形象、文字能力的智能体,我们做过一版有 3D 形象的东西,有点像元宇宙里的数字人,但它的语言、语音等能力还是用大模型驱动的。

晚点:你认为 AGI 到底是什么,假设有一天 AGI 真的实现,我们如何知道它已经到来?

闫俊杰:那时候我们有个模糊的定义,现在也几乎没变,就是什么时候大家认为 AI 不是 AI,那一天大概就到来了。

就像我们今天谈到抖音,你不会觉得它是一个基于推荐系统的内容分发软件,你只会觉得抖音就是抖音。

晚点:MiniMax 是国内第一个说 AI 2C 的公司,为什么?

闫俊杰:决定创业前,我一直在思考什么样的技术进步可以给社会带来足够高的反馈,想到的有电动车、移动互联网。这些行业的最大特点都是服务普通人,而服务普通人的前提是它能商品化,它是一个产品,不是一个项目。

当时整个人工智能行业遇到困境,而取得真正成功的行业又是另一种做法,结论几乎只有一个——要做出足够产品化、能服务大众的人工智能技术和产品,而不是服务少数大客户的项目。

所以我一直不认为 AGI 会像一个原子弹、一个大杀器,它就是普通人每天会用的一个产品、一个服务——这也是我们最坚持的。

而且 AGI 也不应该是一家公司自己做出来,它要靠这家公司和它的用户一起做出来。

晚点:今年 1 月你们是国内第一个推出 MoE 大模型的,其它公司去年主要在迭代 dense(稠密)模型,因为进展更快、更确定。做 MoE 是一场豪赌吗?

闫俊杰:一开始我也认为我们在赌,那几个月别人都在快速进步,走在更稳的路上,而我们在赌一个更难的东西。

我们当时放了 80 % 以上的算力和研发资源做 MoE,而且没有 Plan B。

晚点:MoE 是 2023 年夏天开始研发的,为什么当时一定要做这个?

闫俊杰:第一,我们知道自己有多少基本资源和数据,基于这些计算资源和数据,当时只有 MoE 能训完,相当于从你能训练的上限来说,必须得是 MoE。

第二,我们当时已经有很多用户,有 2B、2C 的产品,很多模型每天在处理大量 token,我们发现如果继续做 dense 模型,生成 token 的成本和延时是接受不了的,很快会崩溃,所以只能做 MoE。

当然现在这可能是行业共识了,就是如果要做万亿模型,你不可能做一个 dense。

晚点:最后是怎么搞定的?

闫俊杰:过程很痛苦,失败了两次。因为我们本来就有很多不确定性,做新东西又增加了不确定性,它就应该遇到挑战。

比如模型训了半个月,发现一些指标离前期估测的越来越远。就像你发了一个火箭,本来以为它可以到三万米,但它偏航了。你就开始想哪个地方错了,把问题解完之后,发现还没有回到一个好的状态,又失败了。但你得到了很多经验,把经验汇聚起来,再来一次。

每一次都是很多钱,更重要的是时间。

我后来发现其实这也不是赌,因为很多挑战不是 MoE 本身带来的,而是更多底层的东西:比如对实验方法、网络和数据结构的探索等等。

后面解决问题也不是因为解决了 MoE,而是找到了过去的不足,让整个研发团队变得效率更高、更科学了。

晚点:一个接触过你的人评价你很有工程化思维,你追求在一个约束条件下达到最好的目标。

闫俊杰:其实都是算出来的,我们公司大部分决策都是基于要优化某些东西计算的,我们就是在解方程。

晚点:现在各公司的资源也就是约束条件都变得很快,你计算时会倾向保守还是冒险?

闫俊杰:我们基本上都选最冒险的那种,因为做每件事都是做到极致才会好。

我选的技术路线也是上限最高的,几乎没有退路,选的算力方式也比较激进。

晚点:我听说你们不买 GPU,只租卡。

闫俊杰:我们没有一块 GPU ,虽然我们应该是中国公司里实际用 GPU 数量最多的创业公司。

因为持有资产会使动作变形。如果我有很多 GPU,在商业上变得更好的方式就是对外租 GPU。我还是想让公司更简单。

晚点:去年 10 月你们遇到过算力紧缺,怎么避免类似的风险?

闫俊杰:成为市场上最大的客户。

对中国创业公司来说,更好的方式是同时思考技术和产品

晚点:李彦宏说创业公司做 “双轮驱动” 不是好模式,但你们第一天就要做产品,是怎么决策的?

闫俊杰:一开始创业其实没资格想这些事,因为你既没有技术又没有产品也没有用户。前六七个月只是把最原始的模型做出来,才有了后面的产品。

假设你所有东西都是 free 的,假设你有一个无限强的组织,那对你来说,技术好是最重要的,因为你的用户、流量、商业化能力都具备了,可以很快试很多产品。

但对创业公司不是这样,如果没有足够好的产品能力来承接,即使你有了一些技术进展,这些东西最终也不是你的。一个独立发展的创业公司一定要考虑产品。

晚点:OpenAI 也是在做出 GPT-3.5 后才开始做 ChatGPT 这个杀手级应用 。之前 OpenAI 没那么重视产品。

闫俊杰:那是因为 OpenAI 的技术、人才、数据积累都有数量级的领先,导致它有一个长达一年的创业窗口期。我不认为世界上还有什么公司,能再有一个这么独特的的窗口期。

没有谁会是 10 倍的 OpenAI,没人能短时间里拿出一个好于全世界十倍的东西。

这就推出来,对创业公司,至少对中国的创业公司来说,更好的方式是同时思考技术和产品。

晚点:有投资人认为你们现在做产品有些太早,“在黑莓手机上做不出抖音”。

闫俊杰:按照这个观点,现在也不需要做技术,现在的技术也不是五年后的技术。

但显然大家都认为现在需要做技术:只有通过做出现在的技术,才能更深刻理解它,才可能做出未来三年、五年的技术。

晚点:技术发展是渐进式的,产品也是吗?这个时代的产品跟上个时代的产品完全不同。

闫俊杰:产品也是。中国成功的很多公司,比如米哈游、美团、字节、理想,都有一个共同特点——它们都不是靠第一个产品成功的,都是靠第二个或者更往后的产品才成功的。

这不是我说的,是我的一个朋友总结的。

晚点:那你们为什么不干脆只专注做产品?现在有很多开源大模型。

闫俊杰:核心原因在于,对模型的理解基本上等同于对产品的理解。产品越往下做,对模型理解肯定要越深。

另一个客观原因是成本和响应时间,如果没有对模型的强掌控力,就很难掌握产品成本的变化,也无法调教对用户的响应时间。而且做产品你会遇到很多问题,什么问题可以解决?什么不能解决?怎么迭代?这些都需要你对技术的掌握。

一个现实是,去年很多产品是用 GPT-4 做的,为什么没人做出一个媲美 ChatGPT 的体验?

晚点:同样做产品,有人是主做一个,你们却同时做很多,包括 Glow、星野、海螺 AI 等。为什么要做产品组,而不是专注做一两款产品?

闫俊杰:OpenAI 在 ChatGPT 之后的产品也没那么成功, OpenAI 做产品都会失败,说明现在产品对技术的理解,和技术本身能实现的东西之间有 gap。

核心就是,即使用最好的技术,最好的产品,都会不匹配。

如果你承认这个 gap,客观规律就是:你该多尝试、多失败,找到真正能成功的东西。

晚点:感觉有点像字节跳动做产品的方式。

闫俊杰:我们还没有资格按照字节跳动的方法做事。

每个公司都会选择最合适自己的形态。比如对字节来说,最重要的是技术资源,因为它所有产品都是 ready 的,且产品资源无限多,所以尝试越多对它越有利。而且每次投入,即使产品失败,也会带来更多经验和认知,这对他们的提升是巨大的。

我们也一样。而且相比模型研发的投入,产品投入的资源占比没那么大。基于我们公司目前的现状,可以算出来这样成功率最高。

晚点:技术重要,产品也重要,你们纠结过到底哪个更重要吗?

闫俊杰:之前纠结过,但现在不纠结了。

2022 年下半年我们做 Glow ,有一个经历非常惨痛。当时团队都感染了新冠,导致 2022 年底最后一次发版里出现了一个 bug,它把用户的对话体验拉低了 15% 左右,我们元旦三天 DAU 直接掉了 40%。后来实在受不了,终于在放假最后一天找到了这个 bug,其实就是非常小的一行算法,把它改了,用户量很快就回来了。

这个事给我们的教训就是,现阶段产品价值的来源,核心还是你的模型性能和算法能力。

这样的事我们经历了好几次,你可以做很多产品 feature,但你会发现,几乎所有大的提升都来自模型本身的进步。

晚点:同时做大模型和这么多产品,最大的挑战是什么?

闫俊杰:技术不够好,这是最本质的。我们的技术迭代速度已经很快了,但离全球顶尖的模型仍有差距。

十倍的 Scaling Laws

晚点:欧洲头部人工智能公司 Mistral 已经开源了 MoE 模型,行业普遍认为 OpenAI 的 GPT-4 也是 MoE,MoE 会是今年大模型领域的一个赛点吗?

闫俊杰:MoE 只是其中一个环节,还有很多其他环节。如果一个东西能写在一篇论文里,你基本可以认为它不是个绝对壁垒。

晚点:在这场技术竞赛中,MiniMax 有什么非共识的判断吗?

闫俊杰:这个行业如果有什么非共识,6-9 个月内,很快也会变成共识。

现在有三个大家都能看到的东西:一是 Scaling Laws;二是实现同样精度的模型,需要的算力和资金投入可能每年降几倍,因为算法和学术界公开的东西越来越多,很多人会做自由探索;三是把精力放在提高数据质量上,现阶段收益更大。

所以从这三点来看——Scaling Laws、同样精度模型的成本下降、数据质量提升的重要性——基本可以推出来我们和其他公司的一些决策,我觉得是比较简单的。

晚点:你怎么理解 Scaling Laws(规模定律)?它让你看到了什么可能性?

闫俊杰:Scaling Laws 就是一条曲线,你可以信仰原始的 Scaling Laws,也可以信仰十倍快,甚至百倍快的 Scaling Laws。

打开网易新闻 查看精彩图片

2020 年最初提出大模型 Scaling Laws 的论文 “ Scaling Laws for Neural Language Models ” 认为影响模型性能的最重要变量是算力、数据量和参数,并给出了这些变量间的数字关系:C≈6ND,C 是计算量(Compute)、D 是数据量(Dataset)、N 是模型参数量(Parameters);而模型结构和层数等因素对性能影响没那么大。

它更多是提供一个方法论:即你可以通过更小规模的实验来预测更大实验的结果。第二是它能让行业对齐目标,因为这件事需要数据、算力、芯片、算法和产品等多个环节的分工协作,Scaling Laws 可以让大家有相对一致的预期。

至于那篇论文里的那个公式和一些结论,现在看也不一定对,比如它认为层数、结构等没那么重要,至少有几个变量现在看是重要的。

晚点:比如呢?什么变量让你有可能实现十倍、百倍的 Scaling Laws?

闫俊杰:比如网络结构本身也重要。我们做 MoE ,最开始认为好的 MoE 结构和好的 dense 结构类似,后面发现不是,MoE 本身也能加速 Scaling Laws。

还有提升数据质量;还有算力的分配,你可以把算力分配到训练上,也可以分配到数据处理上。不同选择都可能加速 Scaling Laws。

晚点:Scaling Laws 的力量来自它够简洁,当你引入更多变量,就破坏了它。

闫俊杰:提升数据质量、优化算法和优化训练方法都没有尽头,持续做就会持续好。

真正的取舍是,它们对 Scaling Laws 的效率提升在不同周期不一样快。但你可以通过小规模实验来预测哪些变量在什么阶段更重要,这其实还是 Scaling Laws 的方法论。

为什么在中国一定要做几倍的 Scaling Laws?当算力充足,你可以优化原始的 Scaling Laws;算力不充足时,你必须优化一个几倍的 Scaling Laws,去达到相似效果。

这不是不可能的。另一家硅谷 AI 公司 Anthropic 已经用更短的时间做出了类似 GPT-4 的 Claude-3,这其实就是放大了原始的 Scaling Laws,有一个就会有第二个、第三个。

晚点:现在被讨论很多的长文本(Long Context)会成为大模型竞赛中的一个差异化路线吗?

闫俊杰:好的大模型默认就应该支持长文本。我们一直都有长文本,我们没在产品里强调这个功能,主要还是因为计算成本。

晚点:实现更长文本处理能力的技术方法是什么?

闫俊杰:标准 Transformer 里之前用的是非线性 attention;而过去一年多,很多人在研究线性的 attention,这就能帮助长文本。

线性 attention 的好处是,当文本非常长时,它的计算复杂度会是线性增长,而不是平方增长。但实际上 token 在 20 万、30 万量级时,线性和非线性效果差不多,因为二次函数在前期时近似线性函数。差别在 80 万到 100 万 token 时才特别明显。

据我所知,Google 的 Gemini 1.5 是第一个接近线性 attention 的模型。你现在调其它 API,当文本非常长时,响应会很慢。但 Gemini 1.5 真正实现了一个 100 万 token 量的文本,和 50 万比,响应只长 1 倍,而不是长 4 倍。

所以长文本解决的不是 20 万或 30 万量级的问题,而是 100 万再往上的量级。

晚点:100 万 token 近似于能处理 100 万字,你觉得多少人有这个需求?

闫俊杰:用户需求和你提供的能力是相互发生的,一个远超大家预期的模型放在这,慢慢会引起很多人的需求。

比如 ChatGPT 没有语音通话前,没人会说自己的需求是语音通话,但放上去之后,很多人会用语音通话。

我们做的语音对话产品——海螺 AI 的通话功能也很受欢迎。我阿公 80 岁,第一次用这个产品就和它讨论了四五十分钟的历史人物,我之前想不到有人会这么来用它。

晚点:看起来你们是在产品里先强调了语音等多模态能力,而不是长文本。怎么判断先优化什么技术能力?

闫俊杰:我们有一句话,Intelligence with everyone,我们并不是这个技术的 owner,这是我们最核心的信仰。

去年人工智能非常火,但全世界用过 AI 产品的人可能只有 1 到 2 亿,重度用户只有几千万。因为提出一个好的问题以及连续追问,门槛非常高,真正愿意打字的可能就是在座的这些人。更多人还是习惯用语音。

我们看重多模态,也是因为它可以让更多人来使用 AI,包括老人和小孩。当我们在产品里加入图片和语音时,可以明显观察到用户的上手门槛,甚至渗透率的变化。从今日头条到抖音,一模一样的事在移动互联网领域已经发生过一次了。

越到后期,用户的价值越高

晚点:你们推出的第一个产品 Glow,让用户和自己定制的 AI 角色交流,类似乙女游戏(恋爱角色扮演),在二次元圈子很流行,当时怎么想到做这个方向的?

闫俊杰:我们早期做产品冷启动时,针对性地找了不少年轻群体,比如 AI 爱好者、二次元人群,根据他们的体验和反馈做了前几版的迭代。

起量后,我们每天都盯着社媒用户咋用的。我们做产品早期没做过 AB testing,都是观察用户看用户反馈,再看数据验证和迭代。

晚点:做产品踩过什么坑?

闫俊杰:最早我们做智能体,当时对它的想象是同时具有声音、形象和文字的能力,这也是为什么公司刚成立就做了三个模型——语言、语音、视觉。

很快我们放弃了 3D 形象,因为它不能规模化,之前用 3D 的大行业只有游戏和电影,研发周期都是几年;同时,我意识到用深度学习来做 3D 这件事不对。

在目前的载体——手机上,如果一个 3D 人一直看着你,这本身就很奇怪。大部分情况下,交互其实不需要有一个真的形象。

晚点:是上线后通过某些数据看出来的?

闫俊杰:不是数据。当时做第一版形象,找了两个模特去拍。当把 3D 放进手机的那个瞬间,我们就知道这件事是不对的。

晚点:你们第一个模型还没做出来,就招了产品经理,当时你如何向他描述你想要一个怎样的产品?

闫俊杰:不知道。

晚点:你说不知道?

闫俊杰:那个时候是不清晰的,因为没有任何参考。我们只是想象有一个智能体可以和你自由、长时间的对话,它的本质是信息的交换和处理。

我们能确定的是,模型最重要是服务大众,那它一定会是一个产品。所以我们最早就找了产品经理。

晚点:用户有很多需求,满足什么不满足什么?

闫俊杰:我们的取舍到后面变得简单,看这个需求是否符合技术发展的趋势,是否能对这类用户的体验带来 10 倍以上的变化。

晚点:产品审美上,你认为怎样的产品是好产品?你们现在的产品玩法很多,有点复杂。

闫俊杰:坦白说,我们现在还没有做出来,所以没有答案。

当你问产品是复杂好还是简单好,大部分人一定会说简单好。但我自己比较怀疑这件事,尤其在一个行业发展前期。你想腾讯在做出微信之前,也是因为先做出了 QQ,而 QQ 是一个非常复杂的产品。

ChatGPT 大概 3000 万 DAU ,似乎很难再增加。我的结论是,一个偏简单的 AGI 产品,在目前的技术阶段,上限可能也就是这样,但最终我相信会有很简单的交互形态满足更广泛的需求。

晚点:Sora (OpenAI 发布的文生视频大模型)的出现对你有什么启发?

闫俊杰:如果 Sora 的响应速度未来能变得非常快,生成一个 1 分钟的视频不是像现在这样要花 20 分钟,而是可以实时生成,这会是很大的变化。

那它到底会是一个更好的生成视频工具,还是一个更好的生成视频的社区呢?

晚点:生成视频的社区,再往下一步不就是超级内容平台?

闫俊杰:都可以想,取决于你是不是相信这个东西空间足够大,以及你是不是相信响应时间能变得足够低。

晚点:你认为未来用户量最大的 AI 产品可能会是什么?

闫俊杰:我们只做出了日活百万的产品,还没有做出千万级或者十亿级的产品,坦白说不知道。我觉得可能还是信息的交换和处理,它的价值是巨大的。

晚点:MiniMax 产品的日活已接近 Character.AI(美国 AI 独角兽开发的一个可以和各种 AI 角色聊天、互动的应用),使用时长甚至更长。但有人质疑你们数据好不是因为技术好,而是因为软色情。

闫俊杰:我们做过分析,真正让用户留下来的东西绝不是所谓软色情。比如我们的产品星野,它的核心是给用户提供一个能够发挥创造力和想象力的平台。

我们花了很多时间和精力来确保内容是更加正向的,持续提升平台的安全能力。

晚点:技术提升能对产品带来多大提升?你们在星野上用了 MiniMax 自研的 MoE 模型,效果怎样?

闫俊杰:上线当天的消息量涨了 40%。响应更快了,之前响应要 4 秒,现在是 1 秒,这不光是因为 MoE,还有一些其它推理优化。

晚点:技术提升速度越快,和用户量越大,是因果关系吗?

闫俊杰:这非常 tricky。如果你是行业第一名,是 OpenAI,那它大概率是因果关系;如果你不是第一名,那就不是因果关系。

过去一年中国很多大模型公司没有很多用户,技术也会提升,因为你只要学第一名就可以进步。但长期看,如果你认为自己的模型可以接近最好的模型,那用户的权重和价值会越来越高。

这个就像算力,拥有更多的算力就能做出更好的模型吗?不一定,提升数据质量可能是 ROI 更高的事。但长期看,你有更多的算力,一定可以做出更好的模型。所以要看周期。

晚点:AI 原生的超级产品和移动互联网时代的超级产品,你认为会有什么不同?

闫俊杰:做移动互联网产品,大家特别在意有没有挖到一个用户痛点。但去年 DAU 超百万的六七个 AI 原生产品都不是针对痛点设计的,是把一个突破性技术释放,慢慢变成了产品。反而是后面针对性设计功能时都不太成功,比如 ChatGPT Plugins 和 GPT-S。如果技术进步速度慢下来,又会变成产品推动的方式。

目前的产品方法还是技术 driven,而非产品 driven。

晚点:你们的产品功能现在已经比较细,比如海螺 AI 经常有消息推送,吸引用户点开,你们实际上做了比较多产品优化?

闫俊杰:最近我们也在在反思,产品功能点太全面,也许是一个偏负向的事,说明你在最核心的功能上没有花最多的精力。

晚点:今年给团队什么目标?

闫俊杰:技术上如何达到 GPT-4,产品上如何把用户规模翻十倍,单个产品能突破千万 DAU。

晚点:10 倍增长,这么大。

闫俊杰:其实不大,移动互联网产品都是亿级 DAU。

靠融资打不死别人

晚点:你觉得以中国目前整个市场的钱和资源,能够支撑几家做 AGI 的创业公司?

闫俊杰:不会只有一家,总资源量是够的。

晚点:今天很多投资人已经不看大模型了,他们认为做大模型,创业公司没机会。

闫俊杰:我经历过靠融资堆起来的上一个 AI 的发展阶段。假设一家公司需要靠不停融资来发展,那这个公司真正的优化,可能会变成怎样说服投资人给它更多的钱。

我自己内心的路径是,通过慢慢服务用户,产生一些合理的商业化。当然因为有巨大的研发投入,这件事短期很难实现,但我认为应该探索这条路。

晚点:整个市场资源有限时,第一名难道不应该努力融到市场上最多的钱,让其他人拿不到钱?上一波移动互联网的竞争很多是这样。

闫俊杰:你疯狂的融钱,别人都会融不到钱——我认为这是不对的,靠融资是打不死其他人的。

因为排在前面的中国创业公司,没有谁的资源能比别人多一个量级。拐点只可能来自于技术、产品或者是商业化效率的领先。

晚点:那算力怎么解决?算力资源也很稀缺。

闫俊杰:中国现在有算力,比之前多。另外还是回到 Scaling Laws,算力不充足时,要找一种方法优化几倍的 Scaling Laws,达到相似的效果。

晚点:怎么评判你们和 OpenAI 的差距?

闫俊杰:我们自己有一个指标,可以叫 “开箱可用率”,就是看客户或开发者接一个大模型 API,能不能较快完成一个复杂需求。

从我们自己的开放平台看,几乎所有需求 GPT-4 都可以跑通。比如去年遇到的一个需求是,用户提供一本小说,让模型生成分角色、带语气的有声剧。

非常精细地使用 GPT-4 可以做到,而我们自己的模型当时不行,但现在可以做到了。

晚点:那你们和中国同行的差距呢?

闫俊杰:没有都测。因为测与不测,不会改变我们做的事。

晚点:2024 年,中国大模型行业会发生什么?

闫俊杰:中国公司会做出类似 GPT-4 的东西,并且不止一家。但更应该思考的是,再往后该怎么办?

把公司当函数

晚点:你刚才说写在论文里的东西都不是壁垒,那这个领域真正的壁垒是什么?

闫俊杰:你发现很神奇,拼多多前身是拼好货,美团是团购,字节是今日头条,都不是后来真正大成的产品。

大成与小成的区别是,大成的公司都做了组织创新,这让它们能持续做出越来越强的东西。

晚点:壁垒难道不是写出论文的人吗?

闫俊杰:我说一个非常恐怖的观点,对大模型这个领域贡献前 20,甚至前 50 的人,可能没有一个人在中国公司工作。

我们现在靠天才路径不 work。目前唯一的方式就是聚拢一些基本素质足够优秀的人,做一个比较好的成长型组织,不断一起突破挑战,让大家高速成长起来。希望三年之后,对这个领域贡献前 20、前 50 的人能来自中国公司。

晚点:想怎么打造这个组织?

闫俊杰:我觉得是在优化一个函数,这个函数没有解析解,本质是寻找梯度下降最快的方向。

晚点:举个例子?怎么找到梯度下降最快的方向?

闫俊杰:比如在提升技术进步速度上,就是学习 OpenAI,因为它是最确定的。

不是指把模型参数搞成和它一样,而是学习怎么让实验方法更科学;怎么更快试错,更高效迭代;怎么把问题定义得更清晰、简洁。

晚点:追求梯度下降可能陷入局部最优,但脱靶长期目标,怎么避免呢?

闫俊杰:我们自己的变化是,从非常含糊地看数据,到非常深入地看数据,再到意识到光看数据还不够,需要加上更好的 insight。

很多 insight 其实来自面向长期的思考。举例来说,如果只看产品短期数据,就不会意识到要做一个新的多模态模型。

晚点:可是优化函数的方法能处理人性问题吗?比如技术和产品团队间的拉扯。

闫俊杰:在做实验设计或产品时,数据埋点更细,尽可能用这些埋点推测出真正的问题,而不是靠我或任何人的主观判断。

我们相信数据科学,这些东西也不是我们发明的,中国互联网公司已经做得非常到位了。

晚点:你之前说希望组织更轻,但你们已经 300 人了,其中大部分都是过去一年入职的。

闫俊杰:其实还是很简单,组织结构只有三层,我,我的-1 和我-1 的-1。

可以说我们只有三个部门:一个技术部门,我来负责;一个产品部门,分 C 端产品和开放平台,各有一个负责人;一个运营和增长部门,既做产品增长,也做公司增长,HR 也在这里,有一个整体负责人。

晚点:你们的同行,智谱有约 1000 人,月之暗面有约 200 人,你们是 300 人,人数的差别背后是什么?

闫俊杰:这个东西就看你信啥了,我们不需要向其他人证明什么,我们就信我们做的事。一些不必要的岗位,我们就不太需要。我们需要做啥事,我们就招做啥事的人。

但我们要做一定规模的前端产品,所以除了算法跟应用数据人才外,我们还需要做推理系统、线上服务、开发和产品运营的人才。

晚点:现阶段最缺什么人才?

闫俊杰:更多算法的人才。我们现在知道怎么做实验,我们的资源也可以做很多实验,但做实验的人不够。

今年视频生成模型会变得很实用。按去年情况,第一个做出来的产品更容易取得大成功,现在很多公司都在追求成为第一个。

晚点:如何识别合适你们的人?

闫俊杰:他的加入能使团队整体输出变高。但这需要一些后验,有些非常强的人其实没法融入团队,而有些看起来没那么强的人却可以使整体输出变强。

所以面试时,我会关注他在重要项目里和周围人的合作,包括和 mentor,和上下游怎么合作。

晚点:你在商汤管过很大的技术团队,对于如何管理一群技术人才,有什么心得?

闫俊杰:当你想来做管理的时候,可能就会开始走偏了。

最重要的还是怎么让大家一起做出更强的东西,超出用户期待,也超出团队自己的期待。AI 现在可能是一个风口浪尖的行业,但也没那么神奇,它至少是一个科学,那就按照科学的方法做事:一是整体人才的水平高;二是整个组织有一套类似数据科学的方法,可以把有效的东西快速识别出来。

这两件事掺在一起,就是我们真正要做的事。

晚点:如何吸引更强的人加入你们?

闫俊杰:本质上还是组织强,能持续做一些好的事。我们也只能找到这么一条路径。

晚点:希望公司形成怎样的文化?

闫俊杰:第一是不走捷径,我们好多次走捷径,结果都被打得很惨;第二个是 User-in-the-Loop;第三是技术驱动。

这都是我们基于此前的经验和教训总结出来的。

自己好像慢慢变成了一组基函数

晚点:商汤是你的第一份工作,它给你留下了什么烙印?

闫俊杰:我觉得主要是对集中力量干大事的技术路线的自信。

还有一些反馈是刻骨铭心的,这也是为什么我希望 MiniMax 的组织足够简单,因为在一个组织里,大家觉得一个事不对,但又不直接说,这对所有人都是一个很大的伤害。

晚点:当时 AGI 还是非共识,你怎么就意识到了它是个方向?

闫俊杰:其实来自我的一次偶然思考。2020 年我还在商汤带技术团队,有一天我突然发现,每天 AI 领域的论文我已经看不完了,这对我触动非常大。

我作为一个做技术的,那时每天的技术进展已经超出我的理解范围了。人的进化速度是很慢的,唯一的方式是有更好的人工智能来帮助技术发展,或者加快人的研究速度。

当时我还有另一个观察,就是 2020 年之前的人工智能,比如我在商汤做的很多事情,它给社会带来的收益和价值没那么大。

这就有非常大的矛盾:你相信人工智能长期对社会有价值,只有它才能让人类的技术进步速度变得更快;另一方面,你做的很多事并没有直接促成它。

是因为不够重视吗?显然不是,当时社会对人工智能的关注度、投入的资金量非常巨大。考虑到这几点,唯一的可能性就是我们的技术路线不对,或者我们关注的问题不是人工智能应该真正去解决的问题。

晚点:上一代 AI 从业者其实很多都意识到了这个矛盾,但大家都找不到出路。

闫俊杰:2021 年初 OpenAI 发布的 CLIP 对我非常重要 ,那时我开始意识到自然语言和计算机视觉之间没有本质区别,就是一套统一的机器学习系统。我看到了技术上出现更通用人工智能的可能性。

当这件事发生时,如果你真的相信人工智能,你就应该去做点什么。

晚点:你是如何学习的?

闫俊杰:认识比自己更强的人,这可能是创业能带给我的为数不多的短期满足,我很幸运遇到了一些非常 top 的人,给了我一些视角。当你从更高层面思考,很多东西反而没那么难了。其次我会看很多论文。

晚点:你说要避免产品的全面优秀,那你自己是全面优秀吗?你在商汤的晋升速度很快,从研发开始,做到了集团副总裁,好像各种职能都能胜任。

闫俊杰:我不觉得我是全面优秀。过去我能做很多工作,可能跟我的成长经历有关,我出生在河南一个小县城,很多东西周围没有人教,只能靠自己,这就形成了自己领悟事情的能力。我也不想这样,我是被迫变成这样。

但今天看,这个能力还是非常有用的。当我去做一个没做过的事,能快速找到一些底层逻辑。

晚点:你觉得自己的短板是什么?

闫俊杰:虽然做过一些技术,但我不是最 top 的研究者,可能只是一个二流研究者。

晚点:还好吧,你的论文在 Google Scholar 上有接近 3 万次引用。

闫俊杰:全世界最 top 的那个人可能是 30 万。

晚点:你说要把公司当函数,那你觉得自己是一个什么函数?

闫俊杰:(想了很久)之前上学的时候学泰勒展开,我看到一个复杂的东西是可以用一些简单的函数组合来逼近的。

也就是说,你可以用一组基函数来逼近任意的函数。我感觉自己好像慢慢变成了一些基函数,通过一些不同权重的组合,在需要的时候变成不同的形态。

晚点:聊了这么久,发现还没有谈到改变世界、改变人类。

闫俊杰:真正想做的事不应该天天说。

晚点:那今天可以说说吗?

闫俊杰:还是 “Intelligence with everyone”,这句话有两个解释,一是我们希望用最好的技术服务每一个人,二是我们实现 AGI 的过程中需要和用户一起迭代、成长。

以及我看到了比想象得更快的技术进步速度。

2025 年的访谈:千万别套用移动互联网的逻辑来做 AI

“如果可以重新选,应该第一天就开源”

晚点:你们发布 MiniMax-01 系列新模型后,得到了什么有意思的反馈?

闫俊杰:技术人员比较关注的是,第一次有一个很大的模型没有完全用传统的 Transformer 架构,架构层也可以创新。

而一些非算法的合作伙伴和朋友说,觉得我们好像有点上道了,开始意识到要做技术品牌了,合作起来也少了不开源导致的各种限制。

晚点:那你们真的上道了吗?

闫俊杰:这是我们第一个开源系列模型,本质上两个原因:第一是我们认为真正有价值的事,不是当前做得怎么样,而是技术进化速度。而开源会加速技术进化,做得好的地方有鼓励,不好的地方会有很多批评,外面的人也会有贡献,这是我们开源的最大驱动力。

第二是,过去两三年,我们做得特别不好的一件事儿是,对技术品牌没有很深的认知。技术品牌之所以重要,本质也是因为这个行业最大的驱动力是技术进化。这需要算力、数据、钱,也需要足够好的人。

晚点:DeepSeek-V3 在全球技术社区爆火,是不是刺激你们了?此前在 Hacker News 上搜 DeepSeek,有 470 多个帖子,而搜 MiniMax 很少。

闫俊杰:我们意识到要做技术品牌时,DeepSeek-V3 还没有发布。

我和梁文锋 2023 年初认识后,他有两件事对我有启发:一是他们的品牌做得非常好,它的信誉和口碑是量化行业最好的之一。另一个启发是,DeepSeek 一开始没有产品,所以更聚焦。

晚点:为什么没有更早开源?

闫俊杰:第一次创业,很多经验不具备。如果可以重新选,应该第一天就开源。

如果我是 OpenAI,我今天都应该开源,因为它的核心能力已经不是模型比 Claude 或 Gemini 好多少,而是 ChatGPT 的品牌与心智。

我们这次开源,也不会自己藏一个更好的东西,这没有意义,所有模型一年之后都会落后。我们的通用模型也会持续开源。

晚点:MiniMax 成立之初就是同时要做模型和产品。而 DeepSeek 梁文锋曾说现阶段不做产品,只做模型,你怎么看这个策略?

闫俊杰:首先,DeepSeek 最近也有 App 了。

但反过来说,我觉得中国人工智能产业过去一两年一直有个巨大的误区:就是认为用户越多,模型能力提升越快。这个逻辑非常错。

你看 ChatGPT 的 DAU 是 Claude 的 50 倍到 100 倍,但它的模型并没有好 50 倍,二者其实差不多。这就反映,智能水平的提升,其实没那么依赖要有很多用户。

晚点:不是用户越多,模型能力就提升越快——去年这个观点几乎没人信。

闫俊杰:这个事要分两层看:

一是模型是产品出现的驱动力。比如去年有很多视频产品,这是因为有了更强的视频模型。

但模型却不是基于用户反馈和数据迭代才变好的。Claude 3.5 Sonnet 的代码能力很好或市面上的视频模型很强,不是因为之前已经有了很大的编程或视频 AI 产品,而是先定了一个技术 benchmark,才做到的。

所以,更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。

这个现象的底层原理是,在日常使用中,模型比大部分用户更聪明,大部分用户的 query(查询)其实没有模型自己模拟得好。

晚点:这个误区让整个行业走了什么弯路?

闫俊杰:为了有更多用户,就花大量的钱来买流量。更核心的是,中国大部分公司,不管创业公司还是大厂,都还在用做推荐系统的方法来做大模型产品。

比如一个内容产品,你没法明确知道什么会火,所以就要大量做 AB Test,这是高效的。但这个逻辑到了模型里,就变成不同研究员去尝试不同算法,在不同 feature(功能)上做不同实验,不行的话再累加。这不是做 AGI 的方式。

晚点:什么才是才是更合适的方式?

闫俊杰:应该非常清晰地定义模型能力分级,然后搞清楚每一代提升,需要什么样的算法、数据和推理过程,通过技术手段来逼近定义好的指标。

晚点:你什么时候有了这个认知的?这和你们这次更新的关系是什么?

闫俊杰:去年 3、4 月。我们想清楚之后,就干了几件事儿。

第一是,技术和产品要分开,技术就是要不断提升上限,这需要定义好下一代能力。比如为什么这次用了全新架构,本质是因为我们认为 long context(长上下文)很重要。

第二是,不要认为有产品之后模型就会变好,产品的目的不是让模型变好,它就是一个商业化产品。真正需要思考的是怎么更好满足用户。

晚点:那么对你们来说,到底是技术更重要还是产品更重要?MiniMax 是一家技术驱动的公司,还是产品驱动的公司?

闫俊杰:我们非常明确,自己是一家技术驱动的公司。它不是一个口号,实质是,当遇到冲突时谁说了算?

晚点:可以举一个技术说了算的例子吗?

闫俊杰:比如海螺视频,按月访问量,现在是全球最大的视频生成产品了,但它页面还很粗糙,甚至我们刚上线时,有很多海外用户,却没有英文界面。

一定会有用户提,为什么 Runway 支持一个功能你没有,为什么可灵出了 App 你没有。但一旦你去解决这些简单问题,模型进步速度就会变慢,因为精力会分散。当时我们的选择就是听算法的,优先做算法上限高的功能。

再比如,上线一个比较大的算法变化,可能会影响用户数据时,怎么选?还是根据算法趋势来决策。2023 年时还会纠结,2024 年基本不纠结了。

晚点:经过去年,围绕大模型创业的讨论从 “谁又融资了” 变成 “谁会先倒下”。你觉得谁会先倒下?谁会活到最后?

闫俊杰:我觉得其实不应该把创业公司分成一个单独类别。创业公司之间比其实意义不大,应该是整个行业一起。

以及我想说,我觉得 DeepSeek 和智谱是挺不错的。DeepSeek 很纯粹。智谱,他们是最早有 AI 路线图的,这点我很佩服。

“一年前最喜欢说信仰的那些人,信仰都兑现了吗?”

晚点:你描述的技术逻辑一以贯之,但一位投资人对 MiniMax 的观察是:你们 21 年融资时讲虚拟人,后面又做 Glow、星野这种类 Character.ai 产品;Kimi 火了之后,重启了生产力工具海螺;Sora 之后,放了更多资源做视频生成;接着是现在的开源。

你们好像一直在随热点而动。

闫俊杰:这是一些误解。我们从来就不是想做一个数字人,只是我们三年前创业时,我们说要做无限接近图灵测试的智能体,有投资人理解为数字人,当时还没有大模型投资概念;而我们开始做 Glow 时还没有 Character.ai;海螺是两年前就推出了,只是前一年没有做起来,当大家意识到这个方向火时,Kimi 产品体验那会儿比我们好,所以可能认为我们是重启。

视频,是最开始做星野和 Talkie 时,我们想让角色动起来,所以立项的,Sora 出现后,我意识到这个事儿比我想得更大,所以把它做得更通用了。

为什么要开源?刚才讲了,最核心是为了加速技术进化。

晚点:你对 AI 的信仰到底是什么?看起来你们做过很多事。

闫俊杰:本质上,现在没人能定义出什么是 AGI。能定义的只是,智能水平会不停进步。

它有点像长征,你不知道最终目的地具体在哪儿,但你知道更好的智能水平有意义。

晚点:所以很难基于一个明确的终点,步步为营地倒推?

闫俊杰:创业不是说有个机会,你最合适,你就是天选之子。

创业的前提是你有独特的理解。第二是,你的资源很可能不是最多的,这也是好事,逼你一定要做出真正的创新。

这种情况下,路径是什么?能不能走到那个点?其实不是一开始可以规划的,是需要一步步去争取的。

晚点:李开复上周告诉我们,整个行业从信仰 Scaling Law 到怀疑 Scaling Law 只用了一年时间。

闫俊杰:我觉得作为一个创业者,这时我想的事,不是 Scaling Law 撞墙了,我就放弃了,而是我要做什么事能让它延续。

是算法、组织、业务层面的创新,还是方向上的取舍?至少在我们还有机会时,应该努力找方法。

晚点:在讨论对 AI 技术的态度时,你觉得信仰是一个合适的词吗?

闫俊杰:一年前最喜欢说信仰的那些人,信仰都兑现了吗?

晚点:你指谁?

闫俊杰:行业里所有最喜欢说信仰的人,不管中国的还是海外的。

晚点:信仰是一年就能兑现的吗?

闫俊杰:但至少得朝那个方向做。

晚点:通向信仰的路是直线吗?不能走弯路吗?

闫俊杰:但有些动作是相反的。比如前面提到的,花大量钱投放,但问题是,更多的用户并不会带来更快的模型能力提升。

晚点:如果不用信仰,你觉得更合适来描述对技术态度的词是什么?

闫俊杰:(思考)我觉得是信念。

晚点:信念和信仰的区别是什么?

闫俊杰:信仰,有点像描述一个很远的未来;信念是,自己想怎么做,并能坚持做下去。

“做一个看上去像 o1 的东西没那么难,但我们不需要一个新闻稿”

晚点:这次 MiniMax-01 系列更新,技术博客的标题用了 “新架构开启 Agent 时代”,为什么 Agent 是一个重要目标?你怎么定义 Agent?

闫俊杰:有两个思考路径:一是,AI 该往哪个方向变得更强?二是,变强之后,对人类社会能产生哪些有益的变化?

那显然很重要的一件事是能处理复杂任务,一个标志可能是多步,它可以是 o1 这样单次输出多步,也可以是通过一个单 Agent 拆成多步,还可以像 Anthropic 定义的 workflow 那样,是更复杂的多 Agent 之间的协同。

如果再定义一下复杂任务,我的理解就是在专业领域能到专业人士的水平。

晚点:去年你说,当时没人做出成功的 Agent 应用,是因为大模型能力还不够强。现在 MiniMax-01 说 “开启 Agent 时代”,是哪里变强了?

闫俊杰:这有两层,一是架构,二是能力。

架构层面,我们现在其实已经做到了,因为它是可以高效、快速地处理非常长的 context(上下文)。

Long context 重要,是因为 AI 很难像人那样感受到时间的流逝,这需要处理越来越长的记忆。对单 Agent,提升互动质量的一个核心是记更多东西。多 Agent 则涉及相互通讯,比如 Anthropic 定义了一个 Agent 间的通讯协议叫 MCP(Model Context Protocol,模型上下文协议),那个通讯量非常长,所以也需要处理长 context 的能力。

在能力层面,我们其实还有很多可以提升的地方,比如 AI 使用工具的能力、规划能力,我们这个模型还没打磨好。但这些能力都有很多标准 benchmark(基准),可以慢慢实现。

晚点:你最开始提到,这个架构不完全是 Transformer,那它是什么?

闫俊杰:标准 Transformer 里有几个模块,我们是把其中一个最重要的 attention(注意力机制),从原来的平方复杂度的注意力变成了线性的注意力。

(注:标准 Transformer 里的注意力模块是非线性的,即 “平方复杂度”,线性注意力机制通过简化计算过程,提高处理长序列的效率,当文本非常长时,计算复杂度是线性增长,而非平方增长,所需算力更小;但线性注意力机制可能在捕捉复杂依赖关系上不如非线性注意力机制。)

晚点:它其实是 Transformer 一个比较大的变体 ?

闫俊杰:可以这么理解。

晚点:Google 的 Gemini 之前就用到了线性注意力机制,MiniMax-01 和 Gemini 的线性注意力的异同是什么?

闫俊杰:我认为 Google 今年会更强,因为它同时掌握 TPU(Google 自研的 AI 芯片) 、训练框架(TensorFlow)和算法,可以一起优化。所以 Google 做这件事相对简单一点。

而我们不能自己定制 GPU,只能在一个标准硬件上去做,这就会更复杂。

晚点:这是实现难度上,方法和效果呢?

闫俊杰:Google 是闭源的,所以我并不精细知道他是怎么做的,但应该用了 sliding window attention,它是滑动窗口,一开始记忆可能没那么长,但可以分成很多段,然后一个滑窗滑过去。

我们不是滑窗,而是都计算,只是我们找了一些近似算法,让它算得更快。

(注:sliding window attention 是一种基于局部上下文的技术,它通过在输入序列上滑动一个固定大小的窗口来计算注意力。这种方法可以有效地捕捉局部依赖关系,同时减少计算复杂度。)

晚点:除了线性注意力带来的 long-context 和记忆能力,Agent 还需要提升什么能力?

闫俊杰:就是一些 benchmark,它们大部分是学术界定义的,比如驱动代码能力进步的一个重要 benchmark 是 SWE-bench。

一年前,模型在这个 benchmark 上的解决率只有百分之十几,现在是 70% 多。多模态里也有一些 benchmark。

晚点:为什么你们这次没测 SWE-bench?

闫俊杰:代码能力是我们下一版本要提升的能力。

晚点:在技术上,达到 benchmark 和优化计算架构是分开的两件事儿吗?

闫俊杰:是一体的,你可以认为,架构指的是你的计算 pattern(形式)长什么样,能力是按这个 pattern 计算具体参数。

晚点:怎么判断你们选的计算 pattern 能支持更高的能力上限?

闫俊杰:靠认知,也要靠实验。

决定不同公司研发效率的,首先是你的认知要对,但也有可能两种认知都对,这时实验设计和效率就很重要。

怎么评估我们的研发能力比 9 个月或一年前更强了?关键一点是,在框架和数据确定的情况下,我们的实验收益更高了。这是个核心能力,它很依赖于团队合作。

晚点:为什么 MiniMax-01 面向 Agent,却不是一个 o1 方向的模型?o 系列被认为对提升 Agent 能力很有帮助。

闫俊杰:因为我们需要把每一步做扎实。其实做一个看上去像 o1 的东西没那么难,蒸馏几千条 o1 数据就可以了。我们做过这样的实验,最近也有不少这样的学术论文,这是一个业内共识。

但我们不太需要说自己有个 o1,然后发个新闻稿,我们现在的业务也不依赖于 o1 这类模型。

晚点:你们下一版模型的编程能力提升,是用 o1 的方式来做吗?

闫俊杰:不光是 coding,还有 planning(规划)。这件事也取决于,不同任务怎么用 benchmark 来衡量,找到衡量指标,就能优化。

即使是 o3,它在一些多模态 benchmark 上的分数也很低。

晚点:你怎么衡量优先级?阿里通义、Kimi、DeepSeek、智谱都已经发布了类似 o 系列的模型,而你们似乎认为多模态能力的优先级更高?

闫俊杰:第一,一个公司的能力是有限的。

第二,我们思考先优化什么 benchmark,是基于这个领域是否足够收敛了,以及我们能在里面创造多大的独特价值。o 系列从模型进展到能看到比较清楚的产品形态还需要时间。

过去几年,最终在一个领域做得好的公司,不一定是第一个做这个方向的公司,而是最能充分发挥这个方向潜力的公司。不在于早一个月、晚一个月。

晚点:编程已经是 Agent 正在落地的场景,而 o1 显著提升了编程能力。你不认为这是一个要抢时间窗口的方向吗?

闫俊杰:Cursor(AI 编程助手)是基于 Claude 3.5 Sonnet 做的,但 Claude 3.5 并不是一个 o 系列模型。

4 个月前,GitHub CoPilot(微软旗下 AI 编程助手)开始集成 o1,它也没有变成第一。

晚点:一个现象是,o1 之后,中国公司跟进比 Google、Anthropic 等美国公司更快,你觉得这说明什么?

闫俊杰:因为中国公司可能认为蒸馏是可以做的事儿,而 Anthropic 或 Google 也许不会做。但我也不觉得蒸馏是错的。

晚点:蒸馏是一种捷径吗?

闫俊杰:它肯定是一种路径。是不是捷径,见仁见智。

其实在文本模型里一直有 “对齐税”——就是如果一定要把模型去对齐一个别的模型,比如 GPT 的结果,会有一些能力受限。

晚点:除了 o1 带来的逻辑推理、数学和编程等能力提升外,怎么看它打开的 Inference-Scaling 新空间?这件事的技术意义是什么?

闫俊杰:这个趋势之前就有了,比如最简单的,best of N,你采样十次,选最好的结果,准确度就会提升。

o1 的进步是把这种思路变成了一个端到端的模型,所以可以整体优化,效果提升了很多。

“Agent 很快还会看到一类应用:信息的获取”

晚点:你认为 Agent 最先落地的场景是什么?

闫俊杰:Coding 肯定是,我觉得很快还会有一类应用,就是信息的获取。

晚点:我知道你们最近在低调测试一个信息获取的新产品。可以讲一讲用 Agent 来做这件事的思路吗?

闫俊杰:现在信息获取主要是基于推荐,推荐的内容大概率是你想看的,但不能保证你想看的,都会推给你。

比如我想每天能看到这个领域里最好的十篇论文,现在的内容平台都不能满足这个需求。所以我觉得信息获取会发生一些变化。

晚点:这听起来像一个使用新技术方法的今日头条。

闫俊杰:千万不要用上一代做移动互联网产品的方法论来思考新产品。

晚点:哪里不一样?

闫俊杰:移动互联网产品,要思考有哪些供给、哪些消费。而 AI 产品其实不需要(人的)供给。AI 既有分发,也有供给能力,而且 AI 能力会不停变化。

一个移动互联网产品体验变好了,大概率是因为供给变了。而在 AI 产品里,它主要依赖于模型能力,或者说得到供给的方法发生了变化。

它们(移动互联网产品和 AI 产品)的周期、确定性都不一样,增长方式也不一样。

晚点:Agent 类产品,看到什么信号时,你们会更多投资源去做增长?

闫俊杰:这可能不是一个对的问题。如果一个产品特别依赖推广,大概率就不太对。

晚点:星野之前也做了不少推广。

闫俊杰:Glow 没有推广,星野和 Talkie 有一些推广,到海螺视频时,我们海外、国内都没有花钱推广。

晚点:为什么有这个从不推广,到推广,再到不推广的变化?是因为字节激进加入了战局?

闫俊杰:不是,是因为认知升级——从没做过产品,做第一个产品;到开始学大厂的产品方法论,意识到有好处,也有局限;再到找到更适合自己的方法。

晚点:上个月我和小马智行 CTO 楼天成聊 L4,他觉得大模型应用里,MiniMax 做的星野比较像自动驾驶里的 L4,它是 AI 在和用户互动,是替代产生价值;而 ChatGPT、CoPilot 更像 L2,是辅助产生价值。你怎么看这两种方向的异同?

闫俊杰:这个总结还挺有意思,确实非常不一样。

比如 ChatGPT 和 Claude,ChatGPT 更像一个助手,帮你完成任务,Claude 更有温度。

一个有趣的测试是,你先和模型说一个 1 到 100 间的数,比如 50,你又回他,那我就 50 天不和你说话了。Claude 会说,能不能再给我一次机会?然后他会说个非常小的数。而 ChatGPT 不会这样。

实质是,怎么来看待对齐这件事。Anthropic 有一套价值观,基于此,推出来一套宪法。这导致他的模型具备一些特点和能力。

这是一件上限比较高的事,就是清晰定义,你做的模型到底是什么。

我觉得中国跟美国模型的一个区别,就是缺少内部定义的 benchmark,一些自己的底层思考和设计,更多是在对齐 o1 等模型的输出。

晚点:MiniMax 的模型有自己内部的 benchmark,和路线图吗?比如 OpenAI 去年提出了一个 L1 到 L5 的 AI 能力分级(聊天机器人、推理者、智能体、创新者、组织者)。

闫俊杰:这是我们要逐渐加强的一件事。

我们最开始的目标是 Intelligence with everyone,实现方式要跟用户在一起,但我们其实并没有精确定义每一步到底是什么。

这可能是一个 “逃出生天” 的逻辑,要一步一步走。我觉得对 OpenAI,目前最有意义的也是 L3(智能体),L4、L5 长什么样并不影响他们现在的行动。

“人才密度最高的是字节,其他公司都差一档”

晚点:你觉得去年到今天,你们实际上做得不错的技术成果是什么?

闫俊杰:基础设施和算力相关的东西。因为我们每天生成的对话、图片、视频和音频量,都非常大、非常难。怎样能处理这么多计算,把它优化、调度好,还有一个合理的成本。这一点,我们应该是业内做得最好的。

然后算法上,我们的多模态比较领先,通用文本暂时不是最领先的,但开始有自己的特色。

晚点:这次 MiniMax-01 更新,首次大规模实现了线性注意力机制,你们描述这是 “非常大胆的创新”,有多大胆?

闫俊杰:我们是第一个在这么大规模的模型上这么来做的。

晚点:其他人不这么做,是因为不认为这是一个好方向,还是因为难?

闫俊杰:都有。这不是一个强共识的东西。

晚点:你们去年最受外界关注的进展,如你所说是多模态,尤其是海螺视频生成大模型,效果和访问量现在都是全球第一梯队,怎么做到的?

闫俊杰:之前我们已经做过一遍文本(大模型)了,也做过文生图,有一些积累。

但真的开始做,会发现这些 Infra 其实没法完全复用到视频,算法和怎么做实验上也有很多变化,怎么做评价,就更不一样了。你可以认为,相当于又新长出了一家公司。

晚点:这些年开发这么多模型下来,你们技术团队沉淀的特点和方法论是什么?

闫俊杰:我们还是相对客观。这是指,我们有时可能目标定得不对,但一旦能找到正确目标,我们的效率和能做到的深度都比较好。

还有扁平、灵活,沟通比较简单、直接,我们现在还是我、我的-1,我的 -2 这三个层级。

晚点:客观是一个特点吗?难道行业里很多公司不客观吗?

闫俊杰:我觉得是的。非客观是指,评价技术结果时有一些别的考虑,比如士气是不是受影响,不同团队的 scope(范围) 等等。

晚点:你为什么没提人才密度?比如说我有多少竞赛获奖选手。

闫俊杰:人才密度最高的是字节跳动,其他公司都差一个档,这是一个事实。而我们也没想把自己包装成什么样。

但是我想说,两位同样优秀的同学,假设一个去了字节,一个去了需要依赖技术和创新安身立命的创业公司。2 到 3 年后,那个去创业公司的人变得显著更优秀的概率更大。

“大部分做技术的人觉得自己很牛,但我不是这么认识世界的”

晚点:在 2024 年这么多行业变化,包括你自己更想清楚了模型和应用不是一个简单正向循环的关系后,同时做模型和应用,还有必要吗?为什么不聚焦其中一个?

闫俊杰:首先不存在只做模型、不做应用的公司。DeepSeek、Anthropic 都不是。

再来说只做应用、不做模型的公司,这类公司显然很多,有些做得很好,比如 Perplexity 和 Cursor。

同时,也有既做模型、又做应用的公司,我们也是这样。我们每做出一个新产品,确实都是因为先做了模型,有了提升。

晚点:你们 21 年底成立时,大模型并没有很好的生态基础,所以你得自己做。如果你更晚创业,会做一个专注应用的公司吗?

闫俊杰:不会。一是基于现有技术做产品,二是基于未来技术做产品,我想做后一种。

晚点:这是因为你想做一个价值更大的事?

闫俊杰:不是。是基于怎样更能发挥出自己的潜力和公司的潜力。

晚点:那些更轻、更聚焦应用的公司,和 MiniMax 这样模型应用同时做的公司,2025 年会怎么竞争?

闫俊杰:市场不是有 A,就不能有 B ,其实两个东西都对。

晚点:你怎么复盘去年你们面向生产力场景的海螺 AI(指聊天助手产品,不是海螺视频)做得不如预期?

闫俊杰:我觉得就是没有坚持技术驱动。当你发现很多用户的不满时,解决思路不应该是去补这些 case,应该找到一些真正的提升方式。

而且到去年 5 月时,我就知道豆包会赢。豆包当时的体验已经比同类其它产品好了。

同时我也开始意识到,我最开始说的那件事,就是更多用户并不会导致模型能力提升。那就应该把海螺文本当一个产品,一个业务去思考,我们后来的决定就是不投放。

晚点:你之前说你 3、4 月就想清楚了这个事,为什么停止海螺文本投放的时间更晚?

闫俊杰:都是创业中的成长,其实很多认知很简单,但执行时没那么坚定。

晚点:你被什么东西影响和干扰了?投资人?竞争对手?

闫俊杰:我觉得是人,主要是考虑团队的感受。

晚点:你什么时候开始变得更无情了?

闫俊杰:现在也没有。实际的变化是,我会非常明确得给大家讲我认为的对的东西。有些事没法妥协。

晚点:另一方面,你们的 AI 社区产品星野是中国表现最好的,比字节、美团等大公司的同类产品都好。暂时领先是为什么?

闫俊杰:最关键的是,技术路线一定要选对。其次做业务决策时,我们更懂用户。

晚点:你怎么去懂他们了,你好像跟星野的用户画像并不是很像。

闫俊杰:核心是同理心。

晚点:你认为自己是个同理心很强的人?

闫俊杰:我觉得是。

实质是,大部分做技术的人会觉得自己很牛,是天才。但我不是这么认识这个世界的。

“不要区分创业公司和大公司,不要套用移动互联网”

晚点:从我们 2024 年初那一次聊到现在,你觉得中国大模型竞争格局最大的变化是什么?

闫俊杰:24 年时,很多人认为 AI 是把移动互联网复制一遍,现在至少有一些人开始意识到,其实 AI 不适用移动互联网的逻辑,这是两件事。

晚点:这个认知变化怎么影响竞争格局呢?

闫俊杰:大公司过去积累的优势,仍有意义,但不是唯一的。这还是因为,产品用户越多,模型并不会自然变好。而更好的智能,可能会导出新东西,新东西也会有新商业模式。

晚点:在全球我们看到,Google 花 25 亿美元收购了 产品形态跟你们有些相似的 Character.ai 的团队,这会是 MiniMax 的选项吗?

闫俊杰:我没考虑过把公司卖一个什么价钱。

晚点:我去年把这个新闻发给你时,你说 “感觉是一个 happy ending”。

闫俊杰:对他们来说是,本身创始人也没那么喜欢那个产品,他回去后,Gemini 2.0 里就有他很多贡献。

晚点:求证一个传闻,字节 24 年初是不是谈过以 40 亿美元估值收购 MiniMax?

闫俊杰:没有这个事。

晚点:你和张一鸣交流过,有什么收获?

闫俊杰:至少让我看到了一个非常顶级的企业家是什么样的。

晚点:什么样?

闫俊杰:他希望能给这个社会带来很多正向价值。

晚点:到 24 年下半年,大模型的投资方已是国资轮、中东轮,后面还有多少人能接力?你们怎么持续获得充足资金?

闫俊杰:我们没到这个地步。这还是取决于,怎么做出自己的好东西。

晚点:其实你去年说过,你不相信中国大模型创业公司能纯靠融资,真正的拐点会来自技术、产品或商业化效率的提升。但我了解到,你们 24 年的产品和收入都没有实现年初定下的目标,你怎么看这件事儿?

闫俊杰:但我们是增长最快的,大概率也是收入最多的。

晚点:所以是目标定太高了?

闫俊杰:核心是,24 年年初定目标时,用的还是移动互联网的业务逻辑,认知还没转变。其实这是两个行业。

晚点:现在你会怎么设立目标?2025 年的目标是怎么定的?

闫俊杰:我觉得这个阶段,不应该定一个收入目标,就应该定技术研发目标。

晚点:到去年下半年,大家都看到了大公司,如字节、阿里等的强悍,尤其是豆包的产品表现。这出乎你的预料吗?

闫俊杰:基本上都在预料之中,我预料的比这还更激烈一点。

我想说,如果你用移动互联网的思维来看,豆包确实很牛逼,但假定技术会长期发展,不同阶段会带来不同的产品和商业线,这真不一定是件好事。

晚点:你是指用户增长太快对豆包不是好事,还是指以移动互联网的思维来看豆包,对行业观察者是个干扰?

闫俊杰:都不好。还是对比 OpenAI 和 Anthropic,前者用户规模是后者的几十倍,但它的估值、资金和人才都不过后者的三倍多。为了照顾那么多用户,OpenAI 要负担很多东西,有可能拖慢研发节奏。

晚点:所以用户多,不能直接提升模型能力,多到一定程度反而有可能影响模型发展的速度和灵活性。

闫俊杰:至少看过去一年多,OpenAI 和 Anthropic 的对比就是这样。

晚点:你反复提到不要套用移动互联网的评判标准,那我们看 AI 产品,该看什么指标?

闫俊杰:海外产品的一个重要指标是订阅数和付费,而移动互联网大产品过去主要依赖广告,这显然不一样。

国内产品,我猜也有指标,但我想跑得更好一点再说。

晚点:不和巨头正面竞争,比如不重投入做豆包类产品,是一个你们的竞争原则吗?

闫俊杰:是。但本质是,我认为做 AGI 和做 ChatGPT 类产品是两件事。

而且当时也开始意识到,提升模型能力,不那么依赖最多的用户,那放弃就没太多心理压力。

晚点:一位大模型投资人对比过 MiniMax 和月之暗面的市场策略,他认为月暗是认准做 “生产力场景 + 中国市场”,当然这也是所有大公司投入最多的方向,而 MiniMax 看起来在不断适应环境,找到了巨头正面战场之外的空隙。你会怎么总结你们的定位策略?

闫俊杰:我们希望自己一直在浪潮里。这有两个意思,一是能参与推动浪潮继续发生;二是我们能让公司持续发展下去。

“不应该假定,一个公司不会有变动和流失。有才是合理的。”

晚点:你怎么看去年有些中高层离开 MiniMax?

闫俊杰:本质上是,这个事儿应该是技术驱动的,不是所有人都合适。

晚点:那你是劝退了一些人吗?会心理负担比较大吗?

闫俊杰:必须得克服。

晚点:你做这些事儿拖延了吗?

闫俊杰:拖延了,这还是属于认知不够强。

不应该假定,一个公司不会有变动和流失。有才是合理的。

晚点:实际上你们现在团队相比 24 年初有什么变化?

闫俊杰:主要的变化不在于组织架构,而是对人的要求。

一是希望各方向的 leader 是提方案的人,而不要等着别人来提方案,应该更 hands on。

二是我发现,我们想要根据客观状态分析找到理性方案的人,而不是直接复制上一家公司经验的人。

晚点:你说 2025 年你们最重要的目标是技术迭代。这块你们现在的组织协作和分工方式是怎样的?资源怎么分配?

闫俊杰:一方面做东西的资源是相对充足的,另一方面创业公司就得做取舍,但你不该假定所有取舍都是对的,一个关键是,怎么意识到错了,怎么及时改。

晚点:什么机制可以让你意识到你判断错了?

闫俊杰:不 ego。不自我。

晚点:你觉得你是一个容易被说服的人吗?

闫俊杰:不是

晚点:这和不要 ego 是矛盾的吗?

闫俊杰:很多事都是矛盾的,MiniMax 这个名字就是矛盾的(MiniMax 作为技术术语指 “极小化极大算法”。)

还是有一些办法平衡,就是尽量深入思考,不要被表面、暂时的东西迷惑住。

晚点:MiniMax 现在哪些重要的决策是你来定夺,哪些是放权给其他人?

闫俊杰:创业第一年,我觉得这件事很重要,后面发现其实不重要。

更重要的是,大家怎么有一个共同的思考基座。因为每个人做事方式不一样,如果分得特别清楚,会导致不同模块的逻辑完全不同,即使每个人都素质很高,一个公司也没法很好运行。

正确方式是,公司最底层认知能对上,谁来做决策,都会差不多,组织才会变顺。

晚点:大家都错到一起去了怎么办?

闫俊杰:多样性也是一个很重要的指标了。但是我感觉,真正把公司拧起来的还是那个共同的东西。

晚点:这种不强调划分的分工方式,会不会让员工觉得公司的管理很乱?

闫俊杰:让大家觉得公司管理得很好,其实不是一个目标。

晚点:有 MiniMax 员工说,24 年有段时间感到公司管理决策非常摇摆,这个月核心目标是收入,下个月是增长,下个月又是收入。

闫俊杰:我们后来统一了,这两个事儿都不是目标,目标是技术迭代。

晚点:管理一个不能用以前的逻辑来套的新的 AI 公司,最大难题是什么?

闫俊杰:持续招到更好的人。一个事实是,字节现在对人才吸引力最强。但去了字节的人,真正发挥出潜力的比例比创业公司低,字节人太多了。

“最大的痛苦,是不知道要取舍”

晚点:2024 这一年,你自己最大的变化是什么?

闫俊杰:半年多以前,很多人觉得我有些焦虑,最近半年不再焦虑了。核心是开始意识到要做取舍。

晚点:这一年最大的痛苦是什么?

闫俊杰:最大的痛苦是不知道要做取舍。当知道了,就不痛苦了。我现在把技术迭代作为我们最重要的目标。

晚点:你去年反思最多的问题是什么?

闫俊杰:为什么自己的认知能力不能提升更快?

晚点:找到什么新的提升方法了吗?

闫俊杰:还是要放下 ego,思考得更深。

晚点:你说过你很重要的一个学习方式,是和比自己强的人交流。去年你见过什么人,有什么学习?

闫俊杰:是有的,但我觉得光这样不够,本质还是自己能思考得非常深入。

晚点:一个投资人分享了去年和你一起找算力的事。他说你非常极致追求便宜的租金、更短的租期。有一些供应商提出,可以给 MiniMax 一些当地 to B AI 订单,让你们考虑更贵的租金,你说你不需要订单。这是你强硬、不妥协的一面吗?

闫俊杰:其实不要订单的原因是我们交付不了,答应了会分散自己的精力,也把别人坑了。

晚点:在 MiniMax,你一直被大家叫 IO,这是 Dota 2 里的一个英雄。MiniMax 海螺 AI 说:IO 是一个辅助型英雄,主要为队友提供增益和保护,在团队中扮演 4 号位或 5 号位。你为什么玩 Dota 2 选了 IO,而且一直叫这个名字?

闫俊杰:其实他不是一直 4 号位、5 号位。TI9 时(Dota 2019 年国际邀请赛决赛),安娜(一位电竞选手)使用的上帝小精灵,就是把 IO 变成了 1 号位,非常强,这让他们战队得到了那年的冠军,当时就觉得这名字挺酷的。

晚点:所以 IO 跟你自己的特点没什么直接相关?

闫俊杰:创业还是有很多随机行为的。

晚点:辅助型、输出型,你觉得自己更像什么类型的英雄?

闫俊杰:其实不应该拆开看,如果一定要说的话,我是特别相信团队作战的人。

晚点:2025 年,你觉得可预见的变化是什么?

闫俊杰:AI 在专业领域达到专业人士水平。这会是一个实质提升,虽然 2025 年不一定全部实现,但会实现一部分。

晚点:新的一年,对自己有什么新的要求吗?

闫俊杰:希望自己的技术水平变得更高。刚开始创业时,我还考虑管理的事,后来发现其实没这么重要,真正重要的就是技术认知能否不停提升。

晚点:有时你看起来非常适应性,甚至有人会觉得是摇摆,有时非常坚决。哪个更接近真实的你?

闫俊杰:这是一个进步过程。当在一个阶段变得更强后,会更坚决。

晚点:你创业时,既不是业界大佬,也不被认为是 “技术天才”。你认为自己是什么类型的创始人?

闫俊杰:我觉得是简单。简单是指,知道有一件事,这事也很难,但做好的价值挺大,就坚持做。

贺乾明对此文亦有贡献。

题图来源:《平凡之路》MV