思必驰俞凯：分布式大模型智能体系统是 AGI 时代一道别样的风景|人工智能|俞凯|大模型|思必驰|智能体系统|算法

生成式智能与任务执行智能，是两种路线目标。

作者丨朱可轩

编辑丨陈彩娴

历时两天（12.10-12.11），今年的 2024 全球人工智能产品应用博览会已在苏州工业园区完美闭幕。

在第一天下午的大会主论坛中，思必驰联合创始人、首席科学家俞凯以「迈向分布式大模型智能体系统」为主题，深入探讨了思必驰在大模型技术路线上的独到思考，以及其对行业的观察和见解。

「分布式大模型智能体系统」是思必驰在深耕对话式人工智能领域十七年后探索出的新发展方向，即：1 个中枢大模型+ N 个垂域模型及全链路交互组件组成全功能系统。

当前，国内许多大模型厂商都跟随 OpenAI 的技术方向，将超级智能作为发力重点。

但俞凯认为，「OpenAI 这一类厂商以单一的、集中式的超级智能为目标去建设大模型，某种意义上是在造一个全知全能的神，在引领技术前沿上有划时代的重要作用；但在 2B 真实场景落地中，这个技术路线遇到了很多的问题，包括实时私域知识缺乏、专业领域能力欠缺、可靠执行能力不足和系统协作架构缺失等。」

区别于此，思必驰选择的技术路径类似于打造一个公司，从 CEO 到 CFO 、CTO 等都各司其职。其中，CEO 是中枢大模型，CFO 、CTO 等是垂域大/小模型，在这之中并不需要每一个大模型都是超级智能，它们是分布式的，核心的系统目标主要是可靠的任务执行。

现阶段生成式大模型都面临难解的“幻觉”问题，AI 还无法知晓自身的知识边界何在，而俞凯反复强调的可靠的执行智能所解决的问题便恰好在于此。

除此之外，俞凯还向 AI 科技评论介绍道，「智能体系统和大模型不一样，大模型或单一智能体现在只强调一个功能模块的输入和输出，最终的用户体验不一定好。而“智能体系统”则考虑多个不同的全链路功能模块组合，强调能组成有机整体，从整个系统层面给用户的交互体验会更好。」

不过，这些对行业的洞察也是在不断摸索试错后，俞凯和团队才逐步明晰的。成立以来，思必驰在找准自身定位的过程中也遇到过诸多技术难题：

从刚开始只想去提升识别率，到后来开始思考降低成本，再之后又面临了软件易复制、智能硬件没做过的难题，而全链路智能语音交互系统、大规模可定制也都存在着诸多需要攻关的技术难点......

以下是 AI 科技评论与俞凯的访谈实录，作者进行了不改原意的编辑整理：

构建分布式大模型智能体系统

AI 科技评论：可以简单介绍一下你们的大模型技术路线吗？

俞凯：我们一直把 ChatGPT 类的大模型叫做对话式人工智能、对话式语言计算。OpenAI 实际上是从预训练语言模型发展起来的，而思必驰是从一个完整的端到端对话系统发展起来的，一直以多轮交互为核心，不断迭代出现在的大语言模型。所以虽然殊途同归，但实际上我们有自己独特的发展轨迹。

思必驰 DFM 语言大模型是自主的技术研发路线逐渐形成的语言大模型。长期持续开展对话式语言大模型自研的其实不多，可能 2023 年之后讲得比较多， 2023 年之前很少，DFM 是 2022 年初正式对外发布的，而发布之前内部就已经在用了，是真正意义上的独立研发。

AI 科技评论：你们和 OpenAI 技术路径的区别具体体现在何处？

俞凯：OpenAI 这一类厂商是以超级智能为目标去建设单一集中式语言大模型，某种意义上是在造一个全知全能的神，它擅长创作和回答问题，并且可以生成多样性的回复。但这条技术路线在面向严肃的任务执行场景时遇到了许多问题，包括实时私域知识缺乏、专业领域能力欠缺、可靠执行能力不足和系统协作架构缺失等。

与之对比，我们的技术路线是构建 1+N 的分布式大模型智能体系统，这个「1」是中枢大模型，相当于大脑，「N」就是不同的垂域模型，大模型、小模型都有，它们都可以是智能体，然后又是分布式的。

这种模式类似于公司的组织架构，其中，CEO 是中枢大模型，CFO 、CTO 等是垂域大/小模型，从 CEO 到 CFO 、CTO 等都各司其职，在这之中并不需要每一个大模型都是超级智能，甚至所有的都不是超级智能体，这是思必驰跟 OpenAI 在技术路线上很关键的不同。

根据我们以往的产业实践，在实际大多数业务场景中，能够可靠地执行任务是最重要的，这类场景中的大模型本身不需要超级大，没有必要不计成本的去堆算力，而是需要许多平常的通用智能体，这些通用智能体具备和人进行交互的能力，当然通用智能体之间也可以互相交互。

AI 科技评论：所以你们的优势在于可靠的任务执行。

俞凯：对。现在国内外比较火的一些大模型很多是以内容创作生成为核心，但思必驰主要关注的是以工具使用能力为主的执行智能。

二者的侧重点不同，生成式强调的是创造性、多样性、流利性，本质是丰富；执行强调的是不出错、可靠。现在大模型有各种各样的“幻觉”，思必驰 1+N 的体系会对执行任务的质量进行保障，乃至于用一些创新的技术思路重新去定义可靠性。

举个例子，我问 10 个问题，你能答对 6 个，其余 4 个你不知道，但是也胡乱作答了；他能答对 5 个，其余 5 个他说不知道，要去问专家。这种情况下，他可能更可靠。一些大模型其实不清楚自己的知识边界在哪，不懂得拒绝。

思必驰在车载系统里着重强调的拒识能力，就是「我不是在跟你说话，你不要回答我」。总的来讲，思必驰的立足点就是可靠执行。其实，思必驰的大模型也可以用来写小作文、诗歌等，在现阶段，这些不是我们的核心出发点。

AI 科技评论：为什么你们今年一直在强调智能体系统这个概念？

俞凯：加了“系统”两个字之后，与大模型就不一样了。大模型现在讲的基本都是语言大模型，即使是一般意义的多模态大模型往往讲的也是一个软件、一个算法、一个程序，你有一个输入，它（模型）有一个输出。但如若只强调输入、输出文字，最终的用户体验不一定好。

我们强调的“系统”是要考虑多个不同的全链路系统组合，不单单只是智能体，有的可能包括模型，非模型的还有软硬件协同的问题，大模型实际上是“人的大脑”，除此之外还要让它有嘴巴、眼睛、耳朵等，这些要与大脑紧密结合，组成一个有机整体，给用户的交互体验会更好，这一点很重要。

举个例子，我说一句话，如果大模型一秒钟之后才反应，那就很慢了，怎么在零点几秒作出反应，还要满足高度可靠的快速定制需求，这就要在系统层面去实现。

做这套体系时，思必驰用分布式的方法将参数规模千亿、百亿、十亿等全尺度的大模型结合在一起，形成具备工具智能的可靠系统，这样才能实现更高的可靠性与产业落地。

投身 AI 创业，贵在长期坚持

AI 科技评论：思必驰成立于 2007 年，创业十七年了，您的这些技术思想是一开始就这么坚定吗？

俞凯：坚持是一件特别不容易的事，尤其对于处于萌芽时期的事物。我们刚开始做人工智能时，这个领域还没有像现在这样倍受重视，我们当时给公司起名叫「AISPEECH」，就是决心要把这件事做好，现在国家商标局已经不允许把 AI 放在前头了。（笑）

AI 科技评论：可以分享一下对于您来讲，你们经历了哪些关键性的转折点吗？

俞凯：我在英国待了十年，在剑桥的时候，前五年做语音识别，后五年做对话系统，2012 年我回到国内，思必驰正式开启了对话式人工智能的篇章。与此同时，我也把数据驱动的对话式语言计算从国外引到了国内，那个时候还不是现在的深度学习，而是早期的贝叶斯学习。那时开始做对话式人工智能，也就是现在大家所看到的语言计算的基础平台。

在 2014 年 10 月的 CES 电子展上， Amazon 的 Echo 一炮打响，人工智能的硬件载体由手机转换到智能硬件，思必驰开始从“软件交互”转向“智能硬件交互”。这个方向技术难度更大，并且一定程度上区别于仅在云端去做一般意义的语义处理，实际上，单一功能的云端 API 调用也很容易被复制。

2017 年，思必驰又有比较大的变化。当时，我们发现软硬件结合的方向非常好，中国的物联网硬件设备千奇百怪，需要各种各样的定制，我们开始研发一系列技术，专注 AI 领域的柔性制造，即把对话系统的模块任意组合，提升在垂域上的性能，快速进行个性化修改，这是大规模、可定制的对话系统，也就是思必驰 DUI 开放平台（Dialogue User Interface）。

AI 科技评论：你们真正开始切入大模型具体是在什么时候呢？

俞凯：2019 年。纵观公司的发展历程，思必驰于 2013 年研发出对话工场实现全链路闭环；2015 年 AIOS 系统实现软硬件协同的云端一体，至此对话系统正式开始面向智能硬件；2017 年通过全链路智能对话定制平台（即 DUI 平台）实现大规模可定制的柔性人工智能；2019 年有了通用对话式语言模型研发。

此后，思必驰语言大模型 DFM 进入深度研发阶段，2021 年发布了第一个版本。2023 年 7 月，思必驰 DFM-2 大模型发布，通过 DFM-2 实现通用人工智能的柔性定制，可以开展大规模、高质量、个性化的人工智能系统定制，既满足客户个性化的需求，又可以大大提升软硬件产品的“非标交付”效率。现在思必驰在这个基础上进一步研发分布式大模型智能体系统。

AI 科技评论：这么多次转变的背后，你们应该遇到过不少困难，都是怎么解决的？

俞凯：当然。全链路的智能对话系统是思必驰的一大优势，它的构建是第一个难题。

早先我们做语音识别技术，并在美国的比赛中取得了国际领先的成绩，但这并不意味着仅凭此项技术就能赚钱了，当时碰到的困难是，就算技术再强也有误差，没听说有谁的识别准确率是 100%。因此，当用户无法完成任务时，思必驰就必须提供完整的方案，单纯的算法优化并不能解决实际问题，必须将其整合到一个完整的对话系统中。

后来遇到的问题是软件产品容易被复制，思必驰在技术上比较强，也需要把技术转化成有效性、成本等优势，虽然软件也能形成系统，但是偏工具型，所以不能纯靠软件，思必驰要从智能硬件角度切入。

面向智能硬件也遇到了困难，在这个过程中要把没有学过的知识，通过学习转化成自己的东西，然后落地实践。硬件要做嵌入式，就得把它做小，做到芯片里......这些都是需要解决的技术难点。

再往后，思必驰要做大规模定制化，于是我们就开始就拆，对话系统拆了要能再接起来，接起来的时候还要能保障端到端的响应速度是业界领先，思必驰是业界最早把端到端的响应速度做到 1 秒以内的，后来有些人跟进了。这需要从真实的场景当中提炼问题，并通过算法、工程手段和系统架构设计来解决。

警惕「拿着锤子找钉子」

AI 科技评论：DFM-2 大模型是去年 7 月升级的最新版，今年有进行技术迭代吗？

俞凯：今年我们进行了很多迭代，都已经融合到产品中了，简单说就是闷头把事给干了，沿着之前做的事往上叠加大模型能力。

AI 科技评论：你们目前主要在哪些场景中落地呢？

俞凯：主要是两个方面，一是推垂域模型，二是推到产品里。

今年比较大的落地场景是智能汽车，除此之外有智能家居、消费电子等，还有政府机构、智能制造、科研等一些场景。

AI 科技评论：现在其实市面上许多大模型厂商都没办法找到真正的落地场景，所以可以看到最近大模型又有些冷下来了。您觉得这是现阶段大家最大的困境吗？

俞凯：是的，现在大模型厂商面临的最大挑战就是商业化落地场景。实际上我们做大模型，是先有端到端对话式系统的应用，然后叠加大模型，先有场景，大模型是嵌入到系统里的。很多大模型厂商现在是拿着“锤子”找“钉子”，而我们有一排“钉子”，用不用这一个“锤子”不一定，因为可能还有另外其他的“锤子”更适合。

现在许多 2C 场景都被互联网厂商垄断了，例如：以多样化文字生成、多模态生成为主的大模型最大的应用场景是内容创作，被抖音、快手等平台垄断；人机交互知识问答这种偏知识检索场景被搜索引擎厂商垄断；纯问答场景被电商垄断；还有其他小的场景，但是没办法撑起动辄几十个亿的投入。如何突围是技术型大模型厂商面临的巨大挑战。

如果往 2B 和智能硬件领域发力，就需要系统。这当中，系统和完整的解决方案是否可靠，是不是可以定制化、规模化是核心问题，这是很多纯算法厂商不擅长的。要积累的话往往也需要很长时间，因为这些核心问题同技术的先进程度有的有关、有的无关，思必驰也是摸索了这么多年才能有今天的积累。

另外，科研方向是有前途的，但偏学术而非产业，或者说是长期方向，短期之内的产业回报不会特别大。

总之，现在的大模型厂商面临着商业化应用场景选择的挑战，据我观察，目前一种破局的方式是往国外“卷”，因为 API 付费这种模式在国外的机会可能大一些。同时，很多应用场景其实很鸡肋，对厂商来讲有些“食之无味，弃之可惜”，这也是难点。

AI 科技评论：你们做硬件的话，像汽车、办公本这些也都和端侧结合很紧密，现在也有一些大模型厂商想去切端侧，不过手机厂商也都在自己自研端侧模型了。我刚也有听您提到思必驰在做小模型，是指端侧模型吗？

俞凯：思必驰的模型云侧和端侧都有，主要就是一些垂域模型。我认为未来端侧模型一定是个重要方向，但还是要想清楚用它来干什么，有些厂商把文生图都叫端侧模型，这不是通用智能的角度。

通用智能是以端侧语言模型为核心，同时要将任务链路有效整合，有些手机厂商走得比较靠前，但是是产品层面的靠前，基础技术上还有很长的路要走，我们正在与合作伙伴积极推进这一领域的发展，可以期待一下。

AI 科技评论：聊了这么多，那现在有没有厂商和您的想法比较类似呢？你们的差异化优势又体现在哪方面？

俞凯：思必驰的首要优势肯定是技术优势，在算法和系统结合上的优势。经过这么多次的技术迭代，在 know-how 也就是所谓的关键节点的技巧上，这些方面的积累我们也有优势。

第二就是智能硬件，思必驰作为早期参与者之一，至今依然活跃在市场中，这样的企业在国内并不多，可能只有两三家。长时间的行业深耕使我们积累了宝贵的资源，成为我们的一大竞争优势。极少有厂商像思必驰一样覆盖这么多品类，在家电及消费电子领域，思必驰基于智能语音交互技术和芯片，实现对各种智能产品和设备的实时控制，接入各类硬件设备数亿台，AI语音芯片出货数千万颗。此外，依托 DFM-2 大模型，思必驰推出了多款数字硬件产品，如无感扩声麦克风、可感知和交互摄像头、AI办公本等，满足了现代工作场景中的多样化需求，大幅提升了办公效率和质量。

另外，在客户方面，思必驰经过多年的积累和服务，与国内几乎所有的汽车和智能硬件厂商都有深入合作，这也形成了技术适配成熟度高、解决方案经验丰富和客户群基数大的优势。