Scaling Law不再唯一？任度大模型首发，全球首个数推分离双网络架构引发讨论|law|scaling|大模型|算法

禅宗有云：“以小见大，一花一世界，一叶一菩提”。启示我们即便在微小如一片叶子中，也能洞察到宏大的菩提智慧。

步入AI时代，企业在智能化转型时，常面临决策成本高、投入大且效果难以预料的挑战。在此情境下，企业迫切渴望突破传统AI推理与训练逻辑，在大模型时代践行“以小见大，见微知著”的理念，如同从一叶之中领悟菩提真谛，更精简高效地驾驭智能化进程。

2021年AI技术迅猛发展初期，就有声音指出Scaling Law（规模定律）可能存在局限性。然而，ChatGPT从2.0到3.0再到3.5的连续迭代和巨大技术飞跃，使Scaling Law的有效性得到广泛认可。但ChatGPT 4.0似乎触及人类现有数据处理的极限时，该领域探索似乎遇到瓶颈。

在此背景下，行业内开始深入探讨在通向AGI的征途中，除了依赖Scaling Law外，我们还需要哪些新的策略与方向。大模型的目标应当是追求“智慧”的提升，而不仅仅是参数规模。客户期待的是大模型在自身实际场景中，像懂自己业务的专家一样发挥实效，解决实际问题，而不是一个无关痛痒的外部顾问，也不是参数越大越好。大模型要真正在服务客户时发挥内部专家作用，就不能仅仅停留在表面交互模式，而是必须深入客户实际数据中进行深度理解和挖掘。因此，集中式预训练模式需重新审视，实时学习和训练模式更具探索价值。

大模型的未来，不能完全押注在Scaling Law上

很多模型都在追随OpenAI的路径，一味增加模型脑容量（即“参数”），认为这样能让模型更聪明。然而近期大量论文表明，大模型的聪明程度与脑容量并非成正比，甚至脑容量增加，聪明程度反而降低。

近期，传神推出的“任度数推分离大模型”独辟蹊径，采用双网络架构实现数推分离，把推理网络与数据学习网络分开。可将其理解为两个协同联动的大脑：一个是客户数据学习网络大脑，专注于数据的动态管理与迭代训练，为模型持续注入知识；一个是推理网络大脑，作为经大量数据预训练的基础网络，有良好的推理和泛化能力。双网络通过共享嵌入层和中间表示层协同工作，形成类似“主脑”与“辅脑”的高效配合模式，既支持独立训练，也支持联合推理。

凭借这一创新模式，传神成为全球大模型领域第一家实现数推分离技术路线的人工智能企业，也是中国人工智能在行业内的重大突破。

（一）打破上下文输入长度限制，实现实时的数据学习效果

数推分离的双网络架构，能够突破常规大模型数推混合一体技术架构限制，使得推理大脑成熟后，数据大脑还可以持续不断地学习接入的数据，并且不影响推理大脑的能力。因此，对于双网络架构来讲，上下文输入长度不再受限，可将类似1亿字数据乃至更多数据压缩到神经网络中实现深度知识理解。

任度大模型的技术架构无需通过大量参数存储数据来丰富知识，它可依靠数据大脑在客户场景中实时学习数据。这样能大幅降低参数规模，进而减少训练和推理的硬件投入成本。

这种架构能随着客户业务发展产生的新数据持续学习并提升完成数据压缩。在数推分离模式下，更新数据的网络压缩对推理网络影响极小，能广泛适应各种场景，灵活处理数据，训练时间可缩短至分钟级。

（二）客户本地即可完成数据学习训练，确保数据安全无忧

双网络大模型架构可以降低训练推理的算力和能耗成本，还能有效避免一体化大模型在客户数据微调训练时出现的基座模型能力退化和泛化能力减弱问题。而且，数据网络学习客户数据无增加算力和专业人员，数据可在客户现场完成训练，学习企业历史数据和新数据，消除企业的数据安全担忧。

任度的数推分离双脑模式在应用中，解决了客户定制大模型的三大难题：客户数据需离场、向量效果差、人才投入高，实现本地实时学习，让客户数据快速转化为“专家”为客户服务。重要的是，客户数据本地训练不传公有云，保障了数据隐私安全。

Scaling Law 不是万能的，性参比才是根本，本土企业需另辟蹊径

在中国市场，大型语言模型尚未充分体现 Scaling Law。在AGI 领域，Scaling Law 涉及算力、算法、数据三要素，其实现需大量资金支持。过去一段时间，甚至有国际大公司宣称在大数据、大算力背景下，算法一文不值。

传神语联创始人何恩培认为，仅依赖Scaling Law的大模型路线已遇瓶颈，要真正突破需依靠算法与架构。事实上，在不同算法与框架下，模型性能不总与参数规模成正比，采用创新架构的小参数模型凭借高效算法设计，也能有强大性能，甚至在特定指标上超越常规大参数模型。

目前，双网络架构的数推分离大模型已应用于任度“双脑”大模型一体机，其内置的任度大模型有9B和2.1B两种参数。在多项国内外测评中，9B参数模型与数百亿乃至千亿参数大模型对比脱颖而出，以更少的参数实现领先性能。

事实上，过高的成本投入已使大模型开发商和使用企业裹足不前。而最佳方案显然是企业能以最低成本实现大模型应用。相较于大参数模型，小参数模型降低了算力投入和资源消耗，更适合商业落地，且满足通用场景应用需求，是验证大模型落地可行性的便捷方式。所以，传神语联未来会加大在算法和架构提升大模型能力方面的研发投入，持续迭代。

何恩培坚信，“算法制胜”是具有中国特色的技术路径之一，这符合中国人的聪明智慧，在以大模型为代表的AI时代尤为重要。相信中国有很多像传神这样的团队在默默耕耘，正在以独特理念引领智能创新，只是他们现在还未走向台前，但终将会成为中国 AI 技术发展的重要力量。