难以置信！DeepSeek 新变体速度提升200%，企业部署成本锐减60%|deepseek|大模型|推理|速度

距离DeepSeek发布其热门开源模型 DeepSeek 的最新版本 R1-0528，才刚过去一个多月，本周，一家 24 年历史的德国公司 TNG 技术咨询有限公司发布了一个此类改编版本：DeepSeek-TNG R1T2 Chimera，这是其 Chimera 大型语言模型系列的最新型号。

R1T2 在效率和速度上实现了显著提升，其智能基准分数达到 R1-0528 的 90% 以上，同时生成答案所需的输出 token 数量不到 R1-0528 的 40%。

这意味着它能产生更简短的回复，直接转化为更快的推理速度和更低的计算成本。在 TNG的AI 代码共享社区上，该公司称其 “比常规 R1快约 20%，比 R1-0528快两倍以上”。

对此，AI 开发者社区的反响极为热烈。社区高级负责人写道：“天啊！DeepSeek R1T2，比 R1-0528 快 200%，比 R1 快 20%。在 GPQA 和 AIME 24 上显著优于 R1，通过专家组装法结合 DS V3、R1 和 R1-0528 构建，且采用 MIT 许可证，可在社区上获取。”

这一提升得益于 TNG 的专家组装（AoE）方法，这是一种通过选择性合并多个预训练模型的内部参数来构建 LLM 的技术。作为原始 R1T Chimera 的后继者，R1T2 引入了新的 “三思维”（Tri-Mind）配置，集成了三个父模型：DeepSeek-R1-0528、DeepSeek-R1 和 DeepSeek-V3-0324。其结果是一个经过精心设计的模型，既能保持高推理能力，又能显著降低推理成本。

而且，R1T2 的构建无需进一步微调或再训练。它继承了 R1-0528 的推理优势、R1 的结构化思维模式，以及 V3-0324 简洁的指令导向特性，为企业和研究应用提供了一个更高效且有能力的模型。

专家组装（AoE）与

专家混合（MoE）的区别

专家混合（MoE）是一种架构设计，其中不同组件根据输入有条件地激活。在 DeepSeek-V3 或 Mixtral 等 MoE LLM 中，任何给定 token 的前向传播过程中，仅激活模型专家层的一部分。这使得超大型模型能够实现更高的参数数量和专业化，同时保持推理成本可控，因为每个 token 仅评估网络的一小部分。

专家组装（AoE）是一种模型合并技术，而非架构。它用于通过选择性插值多个预训练 MoE 模型的权重张量来创建新模型。AoE 中的 “专家” 指的是被合并的模型组件，通常是 MoE 层内的路由专家张量，而非运行时动态激活的专家。

TNG 对 AoE 的实现主要侧重于合并路由专家张量，同时通常保留来自更快模型的更高效共享层和注意力层。这种方法使生成的 Chimera 模型能够继承推理能力，而无需复制最强父模型的冗长或延迟。

性能与速度：基准测试的实际结果

E-25 和 GPQA-Diamond 测试集衡量，R1T2 实现了其最智能父模型 DeepSeek-R1-0528 90% 至 92% 的推理性能。然而，与 DeepSeek-R1-0528 不同，R1T2 被设计为更加简洁。它能以少得多的词汇量提供同样智能的响应。TNG 并非关注原始处理时间或每秒 token 数，而是以每个答案的输出 token 数来衡量 “速度”，这是成本和延迟的实用代理指标。

根据 TNG 共享的基准测试，R1T2 生成响应所需的 token 数约为 R1-0528 的 40%。这意味着输出长度减少 60%，直接缩短推理时间和计算负载，将响应速度提升 2 倍，即 200%。与原始 DeepSeek-R1 相比，R1T2 平均也约缩短 20%，为高吞吐量或成本敏感的部署提供了显著的效率提升。这种效率并未以智能为代价。

部署注意事项与可用性

R1T2 根据宽松的 MIT 许可证发布，现已在社区上提供，这意味着它是开源的，可用于构建商业应用。TNG 指出，尽管该模型非常适合一般推理任务，但由于继承自 DeepSeek-R1 的局限性，目前不建议用于需要函数调用或工具使用的用例。这些问题可能在未来的更新中解决。

对企业技术决策者的意义

对于CTO、AI 平台所有者、工程负责人和 IT 采购团队而言，R1T2 带来了切实的好处和战略选择：

更低的推理成本：每个任务的输出 token 更少，R1T2 减少了 GPU 时间和能源消耗，直接转化为基础设施节省 —— 这在高吞吐量或实时环境中尤为重要。

无开销的高推理质量：它保留了 R1-0528 等顶级模型的大部分推理能力，但没有其冗长性。这非常适合数学、编程、逻辑等结构化任务，这些任务更偏好简洁的答案。

开放且可修改：MIT 许可证允许完全的部署控制和自定义，支持在受监管或空气隔离环境中进行私有托管、模型对齐或进一步训练。

新兴的模块化：AoE 方法预示着未来模型将以模块化方式构建，使企业能够通过重组现有模型的优势来组装专用变体，而无需从头开始再训练。

注意事项：依赖函数调用、工具使用或高级代理编排的企业应注意当前的局限性，尽管未来的 Chimera 更新可能会解决这些差距。

关于首席信息官

公众号“首席信息官 ”由资深媒体人创办，致力于用专业的文字，精准的洞察，特色的服务，深入的践行服务企业数智化领域，为产业的发展点燃“微光”！