440 MB,1.25 bit 极限量化,跑 33 种语言,翻译质量对标几百 GB 的大模型。端侧部署的物理极限,又被 Tencent 撕开了一道口子。
- 极限量化:1.25 bit 压缩,3.3 GB 模型缩水至 440 MB,体积降 25%,速度快 10%
- 能力对标:翻译质量匹配商业服务和 Qwen3-32B 等大模型,拿过 30 次国际机翻比赛第一
- 完全离线:支持 33 种语言加 5 种方言,提供 Android APK,跨应用离线翻译
搞端侧部署的兄弟都懂,显存和算力就是生命线。手机端跑大模型,最大的瓶颈根本不是算力,而是内存带宽和存储占用。Tencent 这次开源的Hy-MT1.5-1.8B-1.25bit,主打的就是一个极致压缩。原本 3.3 GB 的模型,直接干到了440 MB,连 1 GB 都不到,这个体积几乎不挑设备,随便一台主流智能手机都能轻松装下。
核心手段是把每个参数压到1.25 bit。之前业内玩 1.67 bit 量化已经觉得够狠了,这次 1.25 bit 方案不仅体积比前者小了25%,推理速度还快了10%。最关键的是,官方宣称没有质量损失。说白了,这就是在精度和体积的走钢丝里找到了新平衡点。你想啊,参数越少,访存越低,推理自然就越快,这是基本的物理规律。
440 MB 是什么概念?现在随便一个商用大模型都是几百 GB 的体量,这个模型用不到 1 GB 的空间,就实现了对标大模型的翻译质量,直接把端侧翻译的硬件门槛踩在脚下。这种激进量化路线,给整个端侧模型部署打了个样。
跑分与能力对标
别看体积小,跑分一点不虚。在标准基准测试中,Hy-MT1.5-1.8B-1.25bit的翻译质量不仅匹配了商业翻译服务,甚至能和Qwen3-32B这种量级的大模型掰手腕。440 MB 打几百 GB,这性价比不用多说了吧。官方还强调,这模型在国际机器翻译比赛中拿了30次第一名,这数据摆在这,证明不是纯靠压缩硬撑,底子本身就很硬。
模型覆盖面也够广,直接拉满了33种语言,包括德语、英语、中文、日语、法语,还有藏语和蒙古语。另外加上 5 种方言,支持1,056个翻译方向。这个翻译方向的数量级,基本覆盖了绝大多数跨语种交流的需求。
Google 那边也在推Gemma 4做智能手机本地运行,但 Tencent 这次在翻译细分赛道上,参数和体积控制得更极致。对比 Google Translate 这种云端服务,Hy-MT1.5-1.8B-1.25bit最大的杀手锏是完全离线,不依赖网络,也就没有网络延迟这一说。
核心参数配置: 模型参数:1.8B 量化精度:1.25 bit 模型体积:440 MB 对比前代:体积小 25%,速度快 10% 支持语言:33 种 + 5 种方言 翻译方向:1,056 个
这个 App 最实用的点在于,它可以跨任何应用进行离线翻译。没有网络信号、或者对数据隐私有极高要求的场景,比如跨国差旅、涉密会议,这套方案简直是刚需。手机端 440 MB 的占用,随便腾点空间就能装下,比起动辄几十 GB 的本地大模型,这个部署成本约等于零。
当然,1.25 bit 量化到底在长难句或者专业术语上有没有幻觉,还得自己实测才知道。但就这个体积和跑分数据来看,作为随身翻译工具绝对够格了。
你的业务场景里,端侧翻译目前是刚需还是伪需求?你会为了这 440MB 的模型放弃云端 API 吗?
热门跟贴