DeepSeek-R1+V3左脚踩右脚=又快又好的DeepSeek-R1T-Chimera|chimera|deepseek|推理|构造|深度思考模型|神经网络

DeepSeek-R1+V3左脚踩右脚=又快又好的DeepSeek-R1T-Chimera

Ai学习的老章

2025-05-04 12:00 ·北京 ·优质互联网领域创作者

2025 年 4 月 27 日，TNG Technology Consulting GmbH（以下简称 TNG Tech）通过其官方 X 账号发布了一则重磅消息：全新开源模型 DeepSeek-R1T-Chimera 正式发布。

这一模型通过创新的构建方法，将 DeepSeek AI 的 R1 模型的推理能力与 V3-0324 模型的高效性能相结合，展现了令人瞩目的表现。发布帖子迅速引发了技术社区的广泛关注和热烈讨论。

大家都在等 DeepSeek-R2, 有没有想过把 DeepSeek-V3-0324 变成推理模型？

来看这个新模型 DeepSeek-R1T-Chimera，它基于 DeepSeek-R1 构建，并使用 DeepSeek-V3-0324 数据进行微调。

模型作者的测试结果是水平与 DeepSeek-R1 一样好，但是思考时间显著变短了，可以当作 DeepSeek-R1 加强版使用。

DeepSeek R1 和 V3-0324 两个模型“混合产物”，通过一种新颖的构建方法（而非传统的微调或知识蒸馏）构造。Chimera 模型利用了 V3-0324 的共享专家层，并结合了 R1 和 V3-0324 的路由专家层的定制融合，形成了独特的混合架构。

值得注意的是，TNG Tech 提到，他们未在这一混合模型中发现明显的缺陷。相比 R1 模型有时冗长且发散的推理过程，Chimera 的推理和思维过程更加紧凑和有序。这种改进让技术社区对模型的潜力充满期待。

模型的权重已在 Hugging Face 平台上开源（尽管因故未能赶上 ICLR 2025 的提交期限）。 https://huggingface.co/tngtech/DeepSeek-R1T-Chimera

V3-0324 模型自 2025 年 3 月发布以来，因其在高性能消费硬件上的出色表现而备受关注。而 R1 模型则以其强大的推理能力著称。TNG Tech 通过创新的构建方法，将两者的优势结合，创造了一个在智能和效率上均表现优异的新模型。这种“模块化”构建方式（直接从两个父模型的神经网络组件中构造）为未来的模型开发提供了新的思路。

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！