AIPress.com.cn报道
2月10日消息,腾讯混元宣布推出面向消费级硬件场景的“极小”端侧模型 HY-1.8B-2Bit。该模型基于1.8B参数规模,通过产业级2Bit量化技术实现等效约0.3B参数规模,实际存储占用约600MB,显著降低了端侧大模型部署门槛。
据介绍,HY-1.8B-2Bit 基于混元团队自研的产业级2Bit量化方案,通过对 HY-1.8B-Instruct 模型进行2比特量化感知训练(QAT)获得。相较原始精度模型,量化后模型体积缩小至约1/6,在真实端侧设备上的生成速度提升约2—3倍,同时保留了原模型的思维链能力,可根据任务复杂度输出不同深度的推理过程。这被视为业界首个实现产业级2Bit量化落地的端侧模型实践。
在端侧部署需求不断增长的背景下,如何在有限硬件资源内兼顾模型能力、推理速度与隐私安全,成为行业普遍面临的挑战。相较常见的4Bit或8Bit量化方案,2Bit量化在压缩效率上更具优势,但也更容易带来性能损失。腾讯混元方面表示,针对小模型、低比特带来的精度挑战,团队采用量化感知训练,并结合数据优化、弹性拉伸量化及训练策略创新,尽可能降低量化对模型能力的影响。
官方披露,在数学、代码、科学等核心指标上,HY-1.8B-2Bit 与4Bit PTQ版本表现接近,体现出“小而强”的设计目标。在部署层面,腾讯混元已提供 gguf-int2 与 bf16 伪量化权重,并完成对 Arm 等计算平台的适配,可在支持 Arm SME2 技术的移动设备上高效运行。
测试结果显示,在 MacBook M4 芯片上,HY-1.8B-2Bit 在1024输入长度内的首字时延可实现3—8倍加速,生成速度较原始精度模型稳定提升至少2倍;在天玑9500平台上,相较Q4模型,首字时延提升约1.5—2倍,生成速度提升约1.5倍。
腾讯混元表示,当前模型能力仍受限于监督微调流程及基础模型规模,后续将引入强化学习与模型蒸馏等技术路径,进一步缩小低比特量化模型与全精度模型之间的能力差距,为边缘设备上的大模型应用拓展更多可能性。
热门跟贴