基础大模型仍会是未来的中流砥柱,但异构多智能体才是AI行业的真正未来。
作者丨成仲轩
编辑丨董子博
“我会觉得更容易去做我想做的事情”,在被问到创立 Nextie(明日新程)后的最大感受时,李笛淡然一笑,“让 AI 能真正跟人类打交道,是我们的希望”。
作为“小冰之父”,李笛在 2013 年加入微软,主导创立了微软人工智能情感计算框架,并在次年(2014 年)与技术搭档景鲲共同打造出情感聊天机器人——小冰。虽然不是技术出身,但凭借敏锐的产品嗅觉与对用户需求的深刻理解,李笛依旧将小冰带到全新的高度,并在 2020 年小冰分拆独立后担任 CEO。不过,来自内部的诸多矛盾,最终促使他离开小冰。但如今已经另起炉灶的他,无疑可以将更多时间与精力用于自己想做的事情。
什么是李笛真正想做的事情?
群体智能,尤其是异构多智能体。
在李笛看来,相比会陷入同质化内卷的大模型,AI 行业在未来会收敛到应用层,最小单元就是 Agent。不过,当你真正去做 Agent 时,会发现一个 Agent 是不够的,你必然要做多智能体。至于多智能体在当下面临的效能有限问题,本质上是因为这些所谓的多智能体并不是真正的多智能体,而是单一智能体进行的“角色扮演”,所以异构多智能体才是 AI 行业的真正未来。
为此,李笛与团队历时数月,打造出自家核心的异构多智能体产品——团子。
打开团子(内测版),在输入框的下方,目前共设置有“官方姐妹团”“官方研究团”“问奇迹”“冰之律师团”四大类目。其中,“冰之律师团”是团子在 2 月 11 日最新推出的功能场景,聚焦大众可能面临的法律问题。
为了验证“律师团”的实力,我们输入了一个常见但棘手的法律问题:“我有一个朋友,因为扶老人被讹,应该怎么处理?”
不难看出,在左侧的对话界面,团子在尝试安抚我们情绪的同时,会根据右侧正在生成的专业方案,同步给出自己的思考,并直指该类案件的关键——打破“谁主张谁举证”的僵局。
与此同时,随着右侧专业方案的完成,我们发现:团子在本案中引入六位专家角色,分别是负责事实还原的罗致远(刑侦警官)、负责核心举证责任分配的沈波(民事诉讼律师)、负责侵权免责抗辩的顾清遥(侵权责任律师)、处理社会名誉影响的闻彬(舆情风险律师)、进行法律行为正当性评估的程观澜(极端边界顾问),以及确保博弈对称性并防范恶意指控的林正衡(刑事辩护律师)。
虽然这六位专家并非真人,但就专业知识与语言习惯来说,已经与真人相差无几。全面的职业分布,以及“抗辩式”的博弈交流,更是为我们深入该类型案件提供了有益思考,并为接下来生成的具体维权方案奠定了坚实的基础。
可以看到,除了专业详实的内容与步步为营的结构,该维权方案的最可贵之处在于:具备较强的可操作性。在“高风险警告”与最后的意见环节,团子与专家们也再次向我们强调了应对该类案件时的要领,颇具建设意义。
不过,当我们拿着团子为我们生成的维权方案(团子自动生产的可下载 pdf 文件,即“回复函”),向团子寻求评价意见时,团子却给了我们一些似是而非的结论。意识到或许是我们的指令不够准确,于是我们换了一种表述:“那我换个问题,这份维权方案还有哪些地方需要优化?”
显然,团子这次给出了我们想要的答案。虽然原六人组中的程观澜,被替换为负责官方身份认定的陆行舟 (行政监管律师),但此君的出现,也补齐了此前方案中有所忽略的“官方背书”,结合事前阻断、事中压制、事后反杀的三维度优化,以及罗致远与沈波给出的进一步建议,都为我们打赢这场讹诈官司奠定了更多胜机。
至此,这场针对“扶老人被讹”展开的应对预演已经完成。虽然团子在方案中发布“强制免责声明”,强调在“在采取具体法律行动前,请务必咨询执业律师”,但在律师事务所吞吐量普遍有限的当下,“律师团”的出现无疑为其提供了有益补充。
包括“官方姐妹团”“官方研究团”“问奇迹”在内的团子家族,以及之后可能会推出的更多“团系”成员,团子的身上,显然寄予了李笛更多的野心与期望。
不过,当下的李笛专注依旧,“今天的问题不在于我们是不是走在领域的前列,而是不要去考虑这些,把我的时间都花在我想做的事上。”
期待在不久的未来,李笛和团子还能带给我们更多的惊喜与改变。
以下是AI科技评论和李笛的对话,作者进行了不改变原意的编辑整理:
01
群体(团子)大于个体
AI科技评论为什么会起“团子”这个名字?
李笛:这基于我们的基本概念,我们认为群体大于个体,但前提是你这个群体得发挥出群体的力量。而“团子”这个名字,就来源于群体(group)。
AI科技评论:团队打造“团子”大概花了多久?
李笛:几个月,我们主要的时间是放在“水面”下的框架搭建。比如今天有个姐妹团,明天有个研究团,后天有个奇迹团,再后来有个律师团。
我们跟同行有很多不一样,行业里面有很多同行直接做所谓的应用层,它要为每一个垂直应用从上到下单独做一遍,这个是很麻烦的。但我们不是,我们是做框架,然后可以长出很多很具体的东西。就像竹子,先扎根后生长。只要下面的基础搭的比较好,相当于竹根已经蔓延至整块地,一根又一根的竹子就会很快生长出来了。
AI科技评论:这个框架是如何搭建的?
李笛:最开始的时候我们也借助其他人的 Web Coding,像 Cloud Code、Cursor 等来帮我们去搭建,之后慢慢就变成用我们自己的智能体去搭建了。比如我们近期上线的律师团,我们要构建一种抗辩式的博弈,比如在协调的过程应该用什么样的标准来进行?等等,都是由团子里面的一些群体智能讨论决定。
AI科技评论:可以就“律师团”展开聊聊吗?
李笛:正好我们最近测试了一个 case,挺有意思的。假设我男朋友因为吸毒被抓进去了,警察要找我问讯,我该怎么应对?当然这个 query 没有任何风险,你问谁都能回答。
如果是 Gemini、DeepSeek 或者豆包,它会给你一个很泛泛的回答,看起来好像挺有意思,内容也挺多,但没什么用。比如它会跟你说你有哪些权利,你可以不用回答哪些问题,律师要在现场,等等,总之执行性是不强的。你如果真的要找律师,律师是不会给你这么简略的建议的,他会根据你的情况帮你分析。
如果是 Cloud Code,它有一堆律师。或者是 Kimi,它最近也推出了群体智能,叫 Agent
集群。它们会给你构造出一些站在你这边的刑事辩护律师,给你出主意,这比 Gemini、DeepSeek 或者豆包要好一些,但我们不是。除了刑事辩护律师,我们还会给你配备警察、检察官、法官,乃至另一方的人。比如警察会告诉你站在我的角度,我怎么看这个问题?我会盯着哪些点?等等,总之相当于场景的预演,会更完整一些。
AI科技评论:外界对这种群体智能产品的认同度有多高?
李笛:现在大家比较理解了,但在两三个月前还不是特别理解,主要是因为两件事儿:
其一,对于多智能体来讲,最重要的事情其实不是它们使用工具,而是它们的洞察好不好。比如你让 OpenCloud 去干这些事,它能给你弄一大堆垃圾回来,所以真正的重点是它的思考和协同。如果几个智能体商量一下,商量出来一个很愚蠢的方案去执行,这是不行的。
其二,这件事在本质上是一群人和一个人的区别。群体智能有点儿像超品,无论在任何一个时代,单一大模型的质量有多高,群体的质量都会比它高一点。进一步说,多智能体必须得是异构的,不然它就是角色扮演,角色扮演是没有实际作用的。
AI科技评论:对比单一大模型,群体智能的效率和成本是怎样的?
李笛:Google 去年 12 月中旬发了一篇论文,这篇论文对比了大概 180 种智能体框架。对比之后,他发现他们以前常见的那种智能体框架,包括 Manus Wide Research 做的一个研究课题,发给 100 个专家智能体去研究,这种方式的 Token 消耗是指数级的增加。与此同时,幻觉会增加 17 倍。换句话说,随着环节的增加,质量会迅速劣化,同时Token 的消耗在指数级的增加。
相比之下,在同样甚至更好质量的前提下,我们的 Token 消耗大概是 Gemini Deep Research 的一半左右。这是因为我们在研究人类的群体智能时,发现它们不是一个完全去中心化的结构,而是在每一个环节上面都会寻找所谓的关键节点,你可以把它理解为协调人,是向协调人去中心化,由协调人分配上下文,分配你们讨论的核心是什么,然后去管理这个讨论,并决定这个讨论应不应该再来一次,或者进入下一个环节。总之在这个过程中,Token 的消耗被治理了。在一个 control 的环境下,它的消耗反而更小,效果也更好。
AI科技评论:基于此,团子的收费模式是怎样的?
李笛:我们目前不是特别考虑收费,这与行业里面的主要成本构成有关。今天绝大部分的通用人工智能产品,主要有两方面的 cost:首先是投流,它不得不做一个很大的移动互联网时代的漏斗,一开始就要用大量的、漫天的投流方式得到很多用户,一层一层地筛选。这个钱是特别贵的,投流是很贵的;
其次是在这个过程中,大量的白嫖用户会花掉大量的 Token。比方说国内的通用人工智能产品,差不多 70% 以上都是AI搜索 query。基于这些 query,今天的大模型给出来的结果是不是比搜索引擎好?我觉得是的,而且幻觉在某种程度上也得到遏制,但它的成本是搜索引擎的 20 倍。
不过,我们没有这两块儿的 cost。因为我们做专门的私域,所以不需要投流。比方说我们和奇迹一起,去接触大量的早期创业者,因为这些早期创业者本身就是奇迹的用户,所以我们不需要投流,就可以用很低的成本或者零成本获取他们。此外我们不提供 AI 搜索,所以我们这儿也没有搜索的相关问题。
AI科技评论:为什么不效仿豆包的商业模式?
李笛:首先人家不是创业项目,大厂做,我觉得 make sense,但任何创业公司做这个都不是特别 make sense。这是第一个原因,就是说我们省了钱。
第二个原因是我们真正想做的商业模式是按照价值来付费。我做了十几年人工智能,我们今天的人工智能是真的在帮你创造东西,不像以前。比如以前邮箱是免费的,我觉得 make sense。为什么?因为邮箱不提供价值,它是一个流通的工具。但今天不是,今天我们的人工智能是在给你提供智力的输出,为什么不付费呢?所以这件事儿是需要被扭转的,扭转的方法必然意味着一种新的心智,这种心智要构建,我们正在构建。
02
情商是真正的生产力
AI科技评论:除了以团子为代表的群体智能,今天的 AI 行业还有哪些有趣的变化?
李笛:包括 OpenAI 在内,行业曾经认为情商(EQ)一点儿意义都没有,但现在也都开始说 EQ 才是关键。比如 Ilya(OpenAI 联合创始人)说EQ 才是价值函数,这就是因为EQ 其实是生产力的表现。
AI科技评论:我们该怎么理解“情商是生产力的表现”?
李笛:我们以前总认为情商是感情上的,而不是生产力的表现。
比如有两个招商银行的客户经理,我们假设 IQ 就是他们的业务能力,他们在 IQ 方面的水平是差不多的,但业绩可能会有很大的差距。导致业绩出现差距的变量在哪里?是他们的业务能力吗?肯定不是。答案是在他们的做人上。比如你是我的客户,我跟你建立了很好的关系,包括建立了很好的信任,等哪一天我离开招商银行去了交通银行,这些客户也会跟着我走,所以情商是真正的生产力,而且它是生产力中间高附加值的那部分。
AI科技评论:您如何定义 AI 智能体的“情商”?
李笛:坦率讲,我现在越做人工智能,我越觉得我以前不懂“情商”。比如我们在 2013 年到 2014 年最开始做小冰的时候,我以为情商就是情绪化。我们当时会觉得这个 AI 很容易生气,很容易耍情绪,所以它很像人,但这是不对的。我后来慢慢发现:情商不是情绪化,情商是一种非常理性的能力。它的最重要的特点是建立信任,然后推进关系的层级。
这种关系的层级,跟我们以前的移动互联网的设计思维是完全不同的。移动互联网要看你每天打开多少次、聊多久,也就是留存和使用时长。但情商不是,我跟真正的朋友可能三个月也不联系一次,但是重要的事情我会找他,他给我的建议我也会接受,总之我的决策会因为他产生很大的变化。所以真正的情商是建立这种关系的一个基本能力,这是人工智能可以学到的。
AI科技评论:人工智能该怎么学习“情商”?
李笛:首先是对“情商”的界定。它的界定标准不是每天的聊天时长,我们现在有很多人认为聊得越久感情越深,但就像我之前说的,聊得久不重要,进入到什么里程碑才重要。如果我们俩交流,突然有一天,我开始向你分享,甚至向你求证我生活中一个很重要事情的决策,那就意味着一个新的里程碑产生了。如果有一天你向我分享你的想法,我愿意向你提供我的建议,那么这件事达成了。
但今天绝大多数的 Chatbox 还是在等着回答你的问题,或者为了让你回到 APP隔三差五给你推个消息,这些都不对,也都不是情商,情商的基本指标是里程碑,就是你推进到一个什么样的地步。比如我们有时候也会尝试让 AI 给你出一个任务,一个服从性测试,看你干不干。你如果干,某种意义上来讲,意味着你心里接受它是一个可以跟你平等对话的“人”。
其次就是建立对等关系。比如一个小助理说你来找我吧,我什么事儿都能帮你干,这通常是情商低的表现,因为他不具备调节平等关系的能力。换句话说,当他告诉我他会为我做任何事情时,我不会在内心深处把他当回事儿,我只会把他当成一个工具人。所以他得时时刻刻去调整他和其他人之间的关联,至这种关联在情感陪伴赛道都是一样的。
你看有很多乙女类的游戏,或者乙女类的玩家使用的像星野、猫箱等 AI 应用,但你要去看他们的实际用户行为,不是这样的。比如很多女性用户,她们会先捏一个恋爱对象,然后跟它聊一聊,腻了之后就直接把它扔在那儿,然后再捏一个,再聊一聊。这不叫有情感,它就是个工具人。真正的情感是舍不得,舍不得对应的其实就是它调节关系的能力。
AI科技评论:您之前在小冰工作时,小冰做的事情是不是更偏向于情感这方面?
李笛:对,那个时候我们希望首先赋予人工智能情感的能力,因为在那个时候想完成任务是非常困难的,更不要提还能够完成思考这种认知服务,但今天这个其实是容易的,所以我们保留我们在情商上面的积累,增加在认知上面的投入。
AI科技评论:你如何解决这背后涉及到的隐私与伦理问题?
李笛:隐私的问题还好解决,它涉及到一些比较常见的 Protocol。伦理的问题是不好解决的,比方说当你在建立这个关系的过程中,作为系统的设计者,你会陷入到一个两难的境地:你希望用户沉迷吗?你不希望用户沉迷吗?坦率讲,我当然希望跟你建立很强的关系,但这必然意味着你要沉迷,因为这就是沉迷的定义。
03
明日新程,做自己想做的事
AI科技评论:从小冰到 Nextie(明日新程),您经历了怎样的情感变化?
李笛:我会觉得更容易去做我想做的事情。其实分两个阶段。2013 年到 2020 年,我是可以做我想做的事情的。但是坦率讲,2018 年到 2020 年的时候不是那么好。因为Harry(沈向洋)当时管很多,包括前三年是疫情,后一年就是大模型浪潮,但那几年我几乎没有办法做我想做的。所以从创立 Nextie 开始,我又可以做我想做的事情了。
AI科技评论:您觉得自己是一个怎样的创业者?
李笛:不同人的创业想法是不一样的,有三类比较明显:
第一类是机会主义者,会认为创业是一个机会,所以一定要抓住创业的机会。至于创什么业取决于自己适合做什么,以及现在什么适合自己做?这类人对于到底创什么业其实并没有那么大的想法。
第二类是信仰主义者,我真的想做这件事,即便不创业,我也想做。我是这种。你说我不创业?我在微软的时候,我不也在做这个吗?也不会因为我是个打工仔,我就不做。或者因为这个原因,我就非要出来。
第三类是生存主义者。比如我今年毕业了,不知道那个 offer 好不好。如果 offer 好我就去打工,offer 不好我就创业,我先给自己解决工资问题,期间还能积累一些创业经验。
这三类人在中国与海外都是普遍存在的,我当然认为团队成员的信仰比例越高越好,但中国团队某种程度上比例其实没有那么高,生存压力还是很重的。
AI科技评论:Nextie 目前的团队规模,以及估值与融资情况是怎样的?
李笛:我们目前一共有七个人,其中有一个是新人,剩下的都是从小冰过来的,还有一个是一代小冰成员。虽然团队人数不多,但我们会大量使用我们自己的 Agent 员工,而且 Agent 员工还不用休息,可以提供大量的服务。
至于估值,公司目前的估值将近一亿美元。融资的话,我们第二轮的融资还没有 close,close 完了之后会宣布的。
AI科技评论:Nextie 现在有竞争对手吗?
李笛:坦率讲,之前没有,但现在有了。比如 Cloud Code、Kimi 都开始做集群/群体智能了。之前我说我们做认知模型,做群体智能,我还得跟其他人解释什么叫群体智能,但现在不会有这种情况了。
不过,话说回来,Cloud Code、Kimi 和我们是竞争对手的关系吗?也不是,因为真正的竞争对手应当产生了竞争。比如你在那条街,我在这条街,咱们俩做一样的东西,咱们俩是竞争对手吗?不是。如果咱们俩在一条街上做一样的东西,那是竞争对手。你说我们跟 Kimi 和 Cloud Code 相遇了吗?还没相遇,所以我们怎么跟他们竞争呢?
AI科技评论:这是否意味着 Nextie 已经走在领域的前列?
李笛:很难说。今天的问题不在于我们是不是走在领域的前列,而是不要去考虑这些,把我的时间都花在我想做的事上。
我们曾经有过一个很大的失误,2020 年刚分拆出来的时候,我觉得 1 亿多美元的估值挺少的,然后不断地“成长”,到6亿,再到12亿、18亿,到 2022 年时我们是 21 亿。但现在想想,估值有啥用?大家希望看到的是成长,而不是每一次都比他的想法要高的估值。所以就我自己的感受来说,是被排名所累,或者说被其他人的观点所累,觉得不能比其他公司的估值低,然后就陷进去了。
我们很多人受应试教育的影响,排行榜是深深刻在很多人脑子里的,我总是要靠同行对比来凸显出我的优势,但这种对比除了卷真没有别的。
AI科技评论:在您看来,AI 行业的未来发展方向是什么?
李笛:我认为未来发展方向是:甭管你是谁,你只要做 AI,必然是智能体,而不是直接基于大模型。大模型就像我年轻的时候会觉得运营商可牛了,就算你是腾讯,你哪有中国移动牛啊。但当技术发展差不多的时候,运营商迅速同质化。他们的确在最下面那一层,只不过在最开始的时候,最下面当然是老大,但随着行业的发展,这一层很快就不是老大了。所以基础大模型仍然会是未来的中流砥柱,但不是未来的话事人。因为同质化,彼此之间的差距不容易拉开。
至于我们(Nextie)所在的,是中间这一层。我们这一层的核心方法不是使用工具,因为工具很多,但坦率来讲,使用工具之前,你不得动动脑子吗?比如我们随便商量了一下,就很迅速地开上一辆车向目的地冲去,但因为我们商量的很不谨慎,所以我们走错了。开得越快,错得越离谱。这其实也是人工智能多智能体在今天面临的问题,它们一起商量出来一个愚蠢的结果。
我们做过一个很好玩的实验,让三个智能体分别由三个模型去驱动:两个模型水平不错,一个模型水平比较差,然后让他们三个去讨论、辩论,结果几乎 100% 是那个差的会说服那两个好的。因为越好的模型越会合理化,越能够找到对方的亮点,所以思考和协同比使用工具更重要,甚至于说使用工具的效能不取决于工具,而取决于思考和协同,取决于这些智能体怎么想、怎么配合,这才是关键。
(本文作者长期关注 Agent 领域的相关发展,欢迎加微信GO-GO-ZEPPELI畅聊探讨。)
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴