打开网易新闻 查看精彩图片

这对大模型落地端侧设备来说,算是个不小的突破。徐玉庄的经历挺特殊。

打开网易新闻 查看精彩图片

本科读的国防科大,之后在部队待了5年,再到清华拿硕士学位,现在在哈工大读博。

本来想简单说下他的背景就过,但后来发现,这种跨界经历怕是最有体会大模型落地的实际痛点。

毕竟从部队的问题导向思维,到高校的科研深耕,让他能跳出传统技术框架找解法。

打开网易新闻 查看精彩图片

现在的大型语言模型里,混合专家模型很常见。

这种模型就像个超级智库,遇到问题会激活特定专家来解答。

但问题也很明显,专家太多导致参数冗余,计算和存储成本都高得吓人。

更关键的是,增加专家带来的效能提升,远跟不上成本增长的速度。

之前行业里解决这个问题,主要靠两种粗放方式。

一种是直接砍掉整个专家团队,就像某个专家偶尔偷懒,直接把他团队解散,很容易丢了关键知识。

这两种方法的局限很明显,要么把专家当整体判断去留,要么只盯着单个参数矩阵压缩。

打开网易新闻 查看精彩图片

徐玉庄团队提出的“微专家”概念,算是打破了这个僵局。

他们把每个专家看作功能部门,微专家就是部门里独立负责具体任务的神经元小组。

这些微专家由跨三个矩阵的特定行列定义,协同完成基础的知识转换。

很显然,这种从“整体专家”到“微专家”的视角转换,抓住了大模型压缩的核心痛点。

打开网易新闻 查看精彩图片

CAMERA技术的核心,是给每个微专家打分。

他们设计了一个能量指标,由激活系数和权重向量范数两部分组成。

激活系数看微专家被调用的频率和强度,权重向量范数看它自身的知识储备规模。

能量越高,说明这个微专家越重要。这个思路不算复杂,但效率是真高。

打开网易新闻 查看精彩图片

而且他们还从数学上证明了,这种基于能量排序的压缩方法,和理论最优方法的差距是可控的。

要知道,这类型的组合优化问题在数学上属于NP难题,很难在短时间内精确求解,他们这个近似解法算是解决了实际应用的效率问题。

基于这个排序,团队推出了CAMERA-P剪枝技术。

打开网易新闻 查看精彩图片

按能量排名移除低贡献的微专家,同时剪除对应三个矩阵的特定行列。

这样做能保持功能完整,还能加速推理,最关键的是不用重新训练模型。

实验数据显示,在Qwen2-57B、DeepSeek-MoE-16B等模型上,20%到60%的压缩比例下,9项任务的表现都超过了现有方法。

如此看来,这种精准剪枝的效果确实经得起验证。除了剪枝,他们还做了CAMERA-Q量化技术。

打开网易新闻 查看精彩图片

传统量化是按专家级别分配比特位,活跃专家用高精度,不活跃的用低精度。

但徐玉庄团队认为这还不够细,每个专家内部的微专家重要性也不同。

于是他们按微专家的能量分配比特位,高能量的用高比特保细节,中等能量的用标准比特稳性能,低能量的用低比特省空间。

实验证明,2比特平均精度下,这种方法的效果比传统量化好不少。

打开网易新闻 查看精彩图片

对普通用户来说,最直接的好处就是端侧设备能用上高性能大模型了。

现在手机上的AI模型大多是10亿参数以内的,有了这项技术,570亿参数的模型压缩后,说不定能在旗舰手机上流畅运行,语音助手、本地AI办公这些场景的体验都会升级。

对企业来说,模型压缩能减少服务器资源消耗,降低运营成本。

打开网易新闻 查看精彩图片

如此一来,AI服务的价格或许能降下来,更多中小企业也能用得起。

而在生物、医药这些需要复杂AI模拟的科研领域,轻量级的高性能模型能降低科研门槛,让更多中小机构参与到前沿探索中。

徐玉庄现在还在面壁智能实习,这家公司本来就侧重端侧大模型业务。

毫无疑问,这种产学研结合的模式,能让CAMERA技术更快落地。

打开网易新闻 查看精彩图片

他自己也说,未来会继续深耕大模型领域。更何况,CAMERA技术还能和模型蒸馏、稀疏化等技术结合,实现更高的压缩率。

总的来说,CAMERA技术的突破,不仅是学术上的创新,更给大模型端侧普及提供了可行方案。

从思维跃迁到技术落地,徐玉庄团队的探索,让我们看到了大模型从云端走向端侧的更多可能。

或许用不了多久,我们的手机、智能手表上,就能运行现在需要庞大算力支撑的尖端AI模型了。

打开网易新闻 查看精彩图片