2025 年 4 月 27 日,TNG Technology Consulting GmbH(以下简称 TNG Tech)通过其官方 X 账号发布了一则重磅消息:全新开源模型 DeepSeek-R1T-Chimera 正式发布。

这一模型通过创新的构建方法,将 DeepSeek AI 的 R1 模型的推理能力与 V3-0324 模型的高效性能相结合,展现了令人瞩目的表现。发布帖子迅速引发了技术社区的广泛关注和热烈讨论。

大家都在等 DeepSeek-R2, 有没有想过把 DeepSeek-V3-0324 变成推理模型?

来看这个新模型 DeepSeek-R1T-Chimera,它基于 DeepSeek-R1 构建,并使用 DeepSeek-V3-0324 数据进行微调。

模型作者的测试结果是水平与 DeepSeek-R1 一样好,但是思考时间显著变短了,可以当作 DeepSeek-R1 加强版使用。

DeepSeek R1 和 V3-0324 两个模型“混合产物”,通过一种新颖的构建方法(而非传统的微调或知识蒸馏)构造。Chimera 模型利用了 V3-0324 的共享专家层,并结合了 R1 和 V3-0324 的路由专家层的定制融合,形成了独特的混合架构。

值得注意的是,TNG Tech 提到,他们未在这一混合模型中发现明显的缺陷。相比 R1 模型有时冗长且发散的推理过程,Chimera 的推理和思维过程更加紧凑和有序。这种改进让技术社区对模型的潜力充满期待。

模型的权重已在 Hugging Face 平台上开源(尽管因故未能赶上 ICLR 2025 的提交期限)。 https://huggingface.co/tngtech/DeepSeek-R1T-Chimera

V3-0324 模型自 2025 年 3 月发布以来,因其在高性能消费硬件上的出色表现而备受关注。而 R1 模型则以其强大的推理能力著称。TNG Tech 通过创新的构建方法,将两者的优势结合,创造了一个在智能和效率上均表现优异的新模型。这种“模块化”构建方式(直接从两个父模型的神经网络组件中构造)为未来的模型开发提供了新的思路。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!