三星发布MeKi,用手机ROM扩容大模型,性能媲美更大模型。
随着三星最新一代旗舰手机 Samsung Galaxy S26 的正式发布,移动端AI体验迎来了质的飞跃。新机集成了多种创新AI功能以及多款AI智能体。这些AI应用极大地丰富了用户的日常体验,也标志着智能手机正逐步转型为高度智能化的个人助理平台。然而,支撑这些复杂功能的背后,是对端侧大模型性能与效率的极致追求。
最近,三星研究院在上月发布了题为《MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling》的端侧大模型架构,提出一种全新的大模型扩展思路——通过存储空间来扩展模型容量、提升LLM的性能,而非依赖激活参数量和计算量的提升,这种新范式为在边缘设备部署高性能LLM提供了新的解决方案。
与传统的部署方式不同,MeKi架构巧妙地利用了手机上丰富的ROM存储空间,而非仅仅受限于RAM。在移动端 SoC 上,从ROM进行查找读取的操作相对廉价且能效高,且ROM带宽在大模型推理期间通常处于闲置状态,MeKi利用这一特性将ROM转化为模型知识的扩展存储库,从而缓解了内存(RAM)的压力。这种设计在不增加计算量(FLOPs)和推理时延的前提下,实现了模型容量与性能的显著提升。
文章地址:https://www.arxiv.org/pdf/2602.03359
项目主页:https://github.com/ningding-o/MeKi
01
核心痛点:边缘部署的计算与内存困境
当前大模型的主流扩展路径(增大参数量、提升推理时计算量)在数据中心表现优异,但在智能手机等边缘设备上面临致命瓶颈:
- 稠密模型参数量增加会导致浮点运算(FLOPs)激增,带来不可接受的延迟和功耗;
- 混合专家(MoE)架构虽通过稀疏激活降低单token计算量,但频繁加载离散专家权重会造成严重的内存访问延迟,成为边缘设备的主要性能瓶颈;
- 边缘设备的RAM和NPU资源有限,而ROM带宽在推理过程中大量闲置,现有方案未充分利用这一资源优势。
据此,研究团队提出了本文的核心动机:能否在不增加推理延迟和计算量的前提下,通过利用存储空间实现模型容量的有效扩展?
02
MeKi:将存储内容注入推理过程的LLM架构
MeKi(Memory-based Expert Knowledge Injection)通过"存储替代计算"的设计思路,实现模型容量与计算成本的解耦,其核心架构包含三大关键组件:
1. token级专家知识:静态与动态知识融合
MeKi为每个Transformer层配备专属的知识库,将其视为token级专家的集合,用来存储在预训练阶段学习到的语义知识。每个token的专家向量由两部分融合而成:
- 静态知识:通过token ID从一个静态的词嵌入矩阵中直接查询,存储基础语义知识;
- 动态知识:在训练阶段通过非线性投影从全局词嵌入中合成特定的特征向量,增强表示能力;
两者经过归一化处理后,由逐层可学习的系数进行加权调节,形成最终的专家知识向量。
模型每层所用的专家知识库的大小为 ,为了控制ROM空间的占用,我们控制知识向量的维度 远小于模型的hidden size ( )。
2. 低秩门控融合:高效的知识注入机制
为了将专家知识高效率的注入到Transformer的前向传播过程中,MeKi采用了一种低秩空间下的加法门控融合策略:
首先利用低秩线性投影和激活函数利用输入FFN模块的token hidden state来生成与上下文相关的低维门控信号(维度为 ),门控信号与检索到的专家知识向量相加,从而实现了hidden state与知识的动态融合;融合后的embedding(维度为 )经过升维的线性投影被映射回模型维度( ),最终通过残差连接融入主数据流。
该设计使得MeKi模块可以与FFN模块并行运行,实现模型容量的隐式扩展,且低秩空间下的融合操作拥有很少的FLOPs开销,几乎不会增加额外计算量。
3. 重参数化策略:训练复杂度与推理效率的平衡
为解决训练阶段的计算复杂与推理阶段需要高效部署的矛盾,MeKi提出使用重参数化技术来进一步降低推理阶段的FLOPs开销。
在训练阶段,MeKi保留动态的非线性投影等复杂结构,最大化模型的表征学习能力;部署之前,将MeKi模块中的动态投影和归一化层等操作进行预先计算、并融合成为统一的静态查找表,形成紧凑的ROM存储结构;在推理时,MeKi仅需通过token ID进行查找,其I/O过程以及轻量级特征融合可以实现几乎零延迟的极低额外开销。
03
实验验证:端侧性能与推理效率的双重突破
研究团队在基于Qualcomm Snapdragon 8 Elite的安卓移动平台上,对激活参数量为0.6B、1.7B、4B三个规模的MeKi模型进行了全面验证,核心结果如下:
1.性能对标更大参数量的模型:MeKi-1.7B模型在10个下游基准测试中平均得分59.7,与4B稠密模型(60.5)性能相当;
2.推理效率保持最优水平:MeKi通过将知识权重卸载到ROM空间,保持与同参数量稠密模型一致的推理速度:MeKi-1.7B模型在端侧的解码速度达13.7 token/s,是4B稠密模型(6.1 token/s)的2.26倍;
3.极低的ROM带宽需求:重参数化之后的推理阶段仅需少量的内存查找操作,对于28层的Transformer模型,每个token所需的ROM数据传输量仅为14KB,完全适配移动设备的存储带宽。
4.超越同期其他基于存储的LLM架构: MeKi-1.7B在10项下游任务上的平均得分为59.7,与DeepMind的PLE(57.0分)和DeepSeek的Engram(57.9分)等ROM扩展方案相比,分别超出了2.7和1.8个百分点,验证了本方法在融合ROM知识的机制上的优越性。
04
关键洞察:架构设计消融分析
研究团队通过一系列的消融实验进一步揭示了MeKi架构性能优势的核心来源:
▪静态知识+动态知识的融合:作者在0.6B参数量的模型上实验了两种知识来源的协同作用,与只使用单一知识来源的变体相比,两种知识互补之后分别提升了0.7和0.8个点,验证了知识互补的价值;
▪最优的知识注入位置:作者实验了将MeKi模块插入到模型中的不同位置上,其中MeKi与FFN并行的部署方式效果最佳,较其他位置(例如与Attention并行、放在FFN之后)平均提升0.4-0.8个百分点;
▪最优的融合方式:在对token 的hidden state和ROM专家知识进行融合时,作者提出了 “相乘后Sigmoid”、“相加后Sigmoid”、“相乘后SiLU”、“相加后SiLU”四种门控融合策略,其中相加后Sigmoid方案的Training Loss最低,实验得到的模型性能最优;
▪知识库容量的扩展定律:作者通过实验证明了MeKi架构的模型性能会随着ROM中存储的知识容量呈对数线性增长,通过改变预训练阶段的知识向量维度( )即可调整模型的知识容量。为了实现性能与存储成本的平衡,作者将MeKi-0.6B模型的 设置为128,MeKi-1.7B模型的 设置为256。
05
总结与展望
MeKi架构打破了"性能提升依赖计算量增加"的传统认知,通过"ROM替代RAM"的内存化扩展范式,首次实现了边缘设备上"零延迟开销+大模型性能"的双重目标。,为智能手机、物联网设备等边缘场景部署高性能LLM提供了全新思路。
对于深度集成AI功能的手机产品,MeKi架构意味着用户可以运行性能更强大的本地大模型,在保护隐私的前提下,享受更精准的智能体服务和更流畅的影像处理体验,而无需担心网络延迟导致的体验割裂,这手机真正地成为了懂知识、懂场景的“私人口袋专家”。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴