距离DeepSeek发布其热门开源模型 DeepSeek 的最新版本 R1-0528,才刚过去一个多月,本周,一家 24 年历史的德国公司 TNG 技术咨询有限公司发布了一个此类改编版本:DeepSeek-TNG R1T2 Chimera,这是其 Chimera 大型语言模型系列的最新型号。

R1T2 在效率和速度上实现了显著提升,其智能基准分数达到 R1-0528 的 90% 以上,同时生成答案所需的输出 token 数量不到 R1-0528 的 40%。

这意味着它能产生更简短的回复,直接转化为更快的推理速度和更低的计算成本。在 TNG的AI 代码共享社区上,该公司称其 “比常规 R1快约 20%,比 R1-0528快两倍以上”。

对此,AI 开发者社区的反响极为热烈。社区高级负责人写道:“天啊!DeepSeek R1T2,比 R1-0528 快 200%,比 R1 快 20%。在 GPQA 和 AIME 24 上显著优于 R1,通过专家组装法结合 DS V3、R1 和 R1-0528 构建,且采用 MIT 许可证,可在社区 上获取。”

这一提升得益于 TNG 的专家组装(AoE)方法,这是一种通过选择性合并多个预训练模型的内部参数来构建 LLM 的技术。作为原始 R1T Chimera 的后继者,R1T2 引入了新的 “三思维”(Tri-Mind)配置,集成了三个父模型:DeepSeek-R1-0528、DeepSeek-R1 和 DeepSeek-V3-0324。其结果是一个经过精心设计的模型,既能保持高推理能力,又能显著降低推理成本。

而且,R1T2 的构建无需进一步微调或再训练。它继承了 R1-0528 的推理优势、R1 的结构化思维模式,以及 V3-0324 简洁的指令导向特性,为企业和研究应用提供了一个更高效且有能力的模型。

01

专家组装(AoE)与

专家混合(MoE)的区别

专家混合(MoE)是一种架构设计,其中不同组件根据输入有条件地激活。在 DeepSeek-V3 或 Mixtral 等 MoE LLM 中,任何给定 token 的前向传播过程中,仅激活模型专家层的一部分。这使得超大型模型能够实现更高的参数数量和专业化,同时保持推理成本可控,因为每个 token 仅评估网络的一小部分。

专家组装(AoE)是一种模型合并技术,而非架构。它用于通过选择性插值多个预训练 MoE 模型的权重张量来创建新模型。AoE 中的 “专家” 指的是被合并的模型组件,通常是 MoE 层内的路由专家张量,而非运行时动态激活的专家。

TNG 对 AoE 的实现主要侧重于合并路由专家张量,同时通常保留来自更快模型的更高效共享层和注意力层。这种方法使生成的 Chimera 模型能够继承推理能力,而无需复制最强父模型的冗长或延迟。

02

性能与速度:基准测试的实际结果

E-25 和 GPQA-Diamond 测试集衡量,R1T2 实现了其最智能父模型 DeepSeek-R1-0528 90% 至 92% 的推理性能。然而,与 DeepSeek-R1-0528 不同,R1T2 被设计为更加简洁。它能以少得多的词汇量提供同样智能的响应。TNG 并非关注原始处理时间或每秒 token 数,而是以每个答案的输出 token 数来衡量 “速度”,这是成本和延迟的实用代理指标。

根据 TNG 共享的基准测试,R1T2 生成响应所需的 token 数约为 R1-0528 的 40%。这意味着输出长度减少 60%,直接缩短推理时间和计算负载,将响应速度提升 2 倍,即 200%。与原始 DeepSeek-R1 相比,R1T2 平均也约缩短 20%,为高吞吐量或成本敏感的部署提供了显著的效率提升。这种效率并未以智能为代价。

03

部署注意事项与可用性

R1T2 根据宽松的 MIT 许可证发布,现已在社区上提供,这意味着它是开源的,可用于构建商业应用。TNG 指出,尽管该模型非常适合一般推理任务,但由于继承自 DeepSeek-R1 的局限性,目前不建议用于需要函数调用或工具使用的用例。这些问题可能在未来的更新中解决。

对企业技术决策者的意义

对于CTO、AI 平台所有者、工程负责人和 IT 采购团队而言,R1T2 带来了切实的好处和战略选择:

更低的推理成本:每个任务的输出 token 更少,R1T2 减少了 GPU 时间和能源消耗,直接转化为基础设施节省 —— 这在高吞吐量或实时环境中尤为重要。

无开销的高推理质量:它保留了 R1-0528 等顶级模型的大部分推理能力,但没有其冗长性。这非常适合数学、编程、逻辑等结构化任务,这些任务更偏好简洁的答案。

开放且可修改:MIT 许可证允许完全的部署控制和自定义,支持在受监管或空气隔离环境中进行私有托管、模型对齐或进一步训练。

新兴的模块化:AoE 方法预示着未来模型将以模块化方式构建,使企业能够通过重组现有模型的优势来组装专用变体,而无需从头开始再训练。

注意事项:依赖函数调用、工具使用或高级代理编排的企业应注意当前的局限性,尽管未来的 Chimera 更新可能会解决这些差距。

关于首席信息官

公众号“首席信息官 ”由资深媒体人创办,致力于用专业的文字,精准的洞察,特色的服务,深入的践行服务企业数智化领域,为产业的发展点燃“微光”!