三星研究院发布手机端侧大模型MeKi：基于Memory的LLM扩展新范式，支持旗舰手机端侧部署|meki|memory|三星研究院|参数化|大模型|手机|知识库

三星发布MeKi，用手机ROM扩容大模型，性能媲美更大模型。

随着三星最新一代旗舰手机 Samsung Galaxy S26 的正式发布，移动端AI体验迎来了质的飞跃。新机集成了多种创新AI功能以及多款AI智能体。这些AI应用极大地丰富了用户的日常体验，也标志着智能手机正逐步转型为高度智能化的个人助理平台。然而，支撑这些复杂功能的背后，是对端侧大模型性能与效率的极致追求。

最近，三星研究院在上月发布了题为《MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling》的端侧大模型架构，提出一种全新的大模型扩展思路——通过存储空间来扩展模型容量、提升LLM的性能，而非依赖激活参数量和计算量的提升，这种新范式为在边缘设备部署高性能LLM提供了新的解决方案。

与传统的部署方式不同，MeKi架构巧妙地利用了手机上丰富的ROM存储空间，而非仅仅受限于RAM。在移动端 SoC 上，从ROM进行查找读取的操作相对廉价且能效高，且ROM带宽在大模型推理期间通常处于闲置状态，MeKi利用这一特性将ROM转化为模型知识的扩展存储库，从而缓解了内存（RAM）的压力。这种设计在不增加计算量（FLOPs）和推理时延的前提下，实现了模型容量与性能的显著提升。

文章地址：https://www.arxiv.org/pdf/2602.03359

项目主页：https://github.com/ningding-o/MeKi

核心痛点：边缘部署的计算与内存困境

当前大模型的主流扩展路径（增大参数量、提升推理时计算量）在数据中心表现优异，但在智能手机等边缘设备上面临致命瓶颈：

- 稠密模型参数量增加会导致浮点运算（FLOPs）激增，带来不可接受的延迟和功耗；

- 混合专家（MoE）架构虽通过稀疏激活降低单token计算量，但频繁加载离散专家权重会造成严重的内存访问延迟，成为边缘设备的主要性能瓶颈；

- 边缘设备的RAM和NPU资源有限，而ROM带宽在推理过程中大量闲置，现有方案未充分利用这一资源优势。

据此，研究团队提出了本文的核心动机：能否在不增加推理延迟和计算量的前提下，通过利用存储空间实现模型容量的有效扩展？

MeKi：将存储内容注入推理过程的LLM架构

MeKi（Memory-based Expert Knowledge Injection）通过"存储替代计算"的设计思路，实现模型容量与计算成本的解耦，其核心架构包含三大关键组件：

1. token级专家知识：静态与动态知识融合

MeKi为每个Transformer层配备专属的知识库，将其视为token级专家的集合，用来存储在预训练阶段学习到的语义知识。每个token的专家向量由两部分融合而成：

- 静态知识：通过token ID从一个静态的词嵌入矩阵中直接查询，存储基础语义知识；

- 动态知识：在训练阶段通过非线性投影从全局词嵌入中合成特定的特征向量，增强表示能力；

两者经过归一化处理后，由逐层可学习的系数进行加权调节，形成最终的专家知识向量。

模型每层所用的专家知识库的大小为，为了控制ROM空间的占用，我们控制知识向量的维度远小于模型的hidden size ( )。

2. 低秩门控融合：高效的知识注入机制

为了将专家知识高效率的注入到Transformer的前向传播过程中，MeKi采用了一种低秩空间下的加法门控融合策略：

首先利用低秩线性投影和激活函数利用输入FFN模块的token hidden state来生成与上下文相关的低维门控信号（维度为），门控信号与检索到的专家知识向量相加，从而实现了hidden state与知识的动态融合；融合后的embedding（维度为）经过升维的线性投影被映射回模型维度( )，最终通过残差连接融入主数据流。

该设计使得MeKi模块可以与FFN模块并行运行，实现模型容量的隐式扩展，且低秩空间下的融合操作拥有很少的FLOPs开销，几乎不会增加额外计算量。

3. 重参数化策略：训练复杂度与推理效率的平衡

为解决训练阶段的计算复杂与推理阶段需要高效部署的矛盾，MeKi提出使用重参数化技术来进一步降低推理阶段的FLOPs开销。

在训练阶段，MeKi保留动态的非线性投影等复杂结构，最大化模型的表征学习能力；部署之前，将MeKi模块中的动态投影和归一化层等操作进行预先计算、并融合成为统一的静态查找表，形成紧凑的ROM存储结构；在推理时，MeKi仅需通过token ID进行查找，其I/O过程以及轻量级特征融合可以实现几乎零延迟的极低额外开销。

实验验证：端侧性能与推理效率的双重突破

研究团队在基于Qualcomm Snapdragon 8 Elite的安卓移动平台上，对激活参数量为0.6B、1.7B、4B三个规模的MeKi模型进行了全面验证，核心结果如下：

1.性能对标更大参数量的模型：MeKi-1.7B模型在10个下游基准测试中平均得分59.7，与4B稠密模型（60.5）性能相当；

2.推理效率保持最优水平：MeKi通过将知识权重卸载到ROM空间，保持与同参数量稠密模型一致的推理速度：MeKi-1.7B模型在端侧的解码速度达13.7 token/s，是4B稠密模型（6.1 token/s）的2.26倍；

3.极低的ROM带宽需求：重参数化之后的推理阶段仅需少量的内存查找操作，对于28层的Transformer模型，每个token所需的ROM数据传输量仅为14KB，完全适配移动设备的存储带宽。

4.超越同期其他基于存储的LLM架构： MeKi-1.7B在10项下游任务上的平均得分为59.7，与DeepMind的PLE（57.0分）和DeepSeek的Engram（57.9分）等ROM扩展方案相比，分别超出了2.7和1.8个百分点，验证了本方法在融合ROM知识的机制上的优越性。

关键洞察：架构设计消融分析

研究团队通过一系列的消融实验进一步揭示了MeKi架构性能优势的核心来源：

▪静态知识+动态知识的融合：作者在0.6B参数量的模型上实验了两种知识来源的协同作用，与只使用单一知识来源的变体相比，两种知识互补之后分别提升了0.7和0.8个点，验证了知识互补的价值；

▪最优的知识注入位置：作者实验了将MeKi模块插入到模型中的不同位置上，其中MeKi与FFN并行的部署方式效果最佳，较其他位置（例如与Attention并行、放在FFN之后）平均提升0.4-0.8个百分点；

▪最优的融合方式：在对token 的hidden state和ROM专家知识进行融合时，作者提出了 “相乘后Sigmoid”、“相加后Sigmoid”、“相乘后SiLU”、“相加后SiLU”四种门控融合策略，其中相加后Sigmoid方案的Training Loss最低，实验得到的模型性能最优；