440MB跑33种语言，1.25bit模型对标Qwen3-32B|mb|qwen|大模型|开源模型|方向|翻译

440 MB，1.25 bit 极限量化，跑 33 种语言，翻译质量对标几百 GB 的大模型。端侧部署的物理极限，又被 Tencent 撕开了一道口子。

极限量化：1.25 bit 压缩，3.3 GB 模型缩水至 440 MB，体积降 25%，速度快 10%
能力对标：翻译质量匹配商业服务和 Qwen3-32B 等大模型，拿过 30 次国际机翻比赛第一
完全离线：支持 33 种语言加 5 种方言，提供 Android APK，跨应用离线翻译

1.25 bit 的暴力压缩美学

搞端侧部署的兄弟都懂，显存和算力就是生命线。手机端跑大模型，最大的瓶颈根本不是算力，而是内存带宽和存储占用。Tencent 这次开源的Hy-MT1.5-1.8B-1.25bit，主打的就是一个极致压缩。原本 3.3 GB 的模型，直接干到了440 MB，连 1 GB 都不到，这个体积几乎不挑设备，随便一台主流智能手机都能轻松装下。

核心手段是把每个参数压到1.25 bit。之前业内玩 1.67 bit 量化已经觉得够狠了，这次 1.25 bit 方案不仅体积比前者小了25%，推理速度还快了10%。最关键的是，官方宣称没有质量损失。说白了，这就是在精度和体积的走钢丝里找到了新平衡点。你想啊，参数越少，访存越低，推理自然就越快，这是基本的物理规律。

440 MB 是什么概念？现在随便一个商用大模型都是几百 GB 的体量，这个模型用不到 1 GB 的空间，就实现了对标大模型的翻译质量，直接把端侧翻译的硬件门槛踩在脚下。这种激进量化路线，给整个端侧模型部署打了个样。

跑分与能力对标

别看体积小，跑分一点不虚。在标准基准测试中，Hy-MT1.5-1.8B-1.25bit的翻译质量不仅匹配了商业翻译服务，甚至能和Qwen3-32B这种量级的大模型掰手腕。440 MB 打几百 GB，这性价比不用多说了吧。官方还强调，这模型在国际机器翻译比赛中拿了30次第一名，这数据摆在这，证明不是纯靠压缩硬撑，底子本身就很硬。