这项由英国剑桥MediaTek Research团队完成的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.07466v2,感兴趣的读者可通过该编号查阅完整原文。
你有没有试过让两个说着不同方言的人互相传话?假设一个人只说粤语,另一个人只说闽南语,中间那位传话的人如果不懂这两种方言,消息就会失真甚至根本传不过去。这个困境,在当今人工智能领域同样真实存在——而且规模更大、影响更深。
这项研究解决的,正是当今最强大的AI语言模型之间一道几乎无人能打通的隔阂。
一、为什么AI之间会互相"听不懂"
要理解这个问题,需要先了解现代语言AI是怎么"读"文字的。普通人阅读文章时,是一个字一个字地看。但AI语言模型读文字的方式更接近速读高手:它们不是逐字阅读,而是将文字切成一块一块的"词片"来处理,这个切割工具就叫做"分词器"(tokenizer)。
以英文为例,单词"playing"可能被切成"play"和"ing"两片,"unfortunately"可能被切成"un"、"fort"、"unate"、"ly"四片。不同的AI厂商根据自己训练数据的特点,设计了各自不同的分词方案,于是诞生了各自独特的"词汇表"。Meta公司开发的Llama模型的词汇表大约有12.8万个词片,而Qwen模型的词汇表约有15万个,谷歌的Gemma系列则又是另一套体系。
这带来了一个实际问题。在AI领域,有一种极为有效的技术叫做"知识蒸馏"(knowledge distillation)——简单说,就是用一个庞大、强悍的"老师"AI,去训练一个轻量、快速的"学生"AI,让学生继承老师的能力。这种技术对于把巨型AI"瘦身"成能在手机上运行的小模型至关重要。但现有的蒸馏技术有一个根本前提:老师和学生必须使用同一套分词方案,拥有完全相同的词汇表。
换句话说,如果老师AI和学生AI说的是不同的"方言",传统方法就完全失效了。研究者们把这个难题称为"跨分词器蒸馏"(Cross-Tokenizer Distillation,简称CTD),而在这篇论文发表之前,这个问题在学术界基本被视为悬而未决的难题。
二、前人都想了哪些办法,为何都不太理想
在这支MediaTek Research团队提出新方案之前,学术界已经有一些研究者尝试绕过这道障碍,但每种方法都有其明显的局限。
一种思路是"强行对齐词汇表"——就像手动制作一本粤语-闽南语对照字典,试图找出两套词汇表之间的对应关系。法国研究者Boizard等人提出了一种基于"最优传输理论"的方法,通过数学手段让两套不同的输出空间尽量对齐。Wan等人则尝试把多个AI的知识融合在一起。Zhang等人提出了"双空间蒸馏",同时在词汇层面和隐藏表示层面做对齐。还有Minixhofer等人提出通过"近似似然匹配"来做通用跨分词器蒸馏。
这些方法无一例外,都需要设计精巧的启发式策略、引入额外的复杂机制,并且在理论上存在信息损失——就像那本对照字典永远不可能做到完全精确,两种方言之间总有无法一一对应的表达。
另一种更原始的思路是"样本蒸馏"——让老师AI先生成一批文本,再让学生在这批文本上进行普通训练。这相当于不直接传授思维方式,而是让学生模仿老师写出来的作业。这种方法计算效率低下,而且损失了老师在每个词上的细腻概率判断。
这两类方法的共同弱点在于:它们都在试图强行架设一座连接两种不同语言体系的桥梁,而这座桥本身就是不稳定的。
三、字节:所有AI都能"听懂"的底层语言
MediaTek Research团队的突破口,来自一个看似简单却颇为精妙的发现:所有的分词方案,不管是Llama的、Qwen的还是Gemma的,最终都建立在同一套基础之上——字节(byte)。
字节是计算机处理文字的最基本单位。任何一段文字,无论是中文、英文还是阿拉伯文,在计算机里最终都会被表示为一串字节序列。所有的分词器,本质上都是先把文字转换成字节,再在字节的基础上进行切割和归组。换句话说,字节是所有AI语言体系共同的"地基"。
这个发现促成了本文提出的方法:与其费尽心机建造一座连接两套词汇体系的桥梁,不如直接找到它们共同站立的那块地基。研究团队把这个方法命名为"字节级蒸馏"(Byte-Level Distillation,简称BLD)。
四、字节级蒸馏是如何工作的
核心思路可以用一个直观的场景来理解。假设你要把一位法语厨师的精湛厨艺传授给一位中文厨师。传统方法是:先把法语食谱翻译成中文,但翻译过程中难免有偏差,有些法语烹饪概念根本没有对应的中文词汇。而字节级蒸馏的思路是:绕过语言障碍,直接让两位厨师都去观察食材本身——食材是无国界的,一块牛肉对法国人和中国人来说没有区别。
在AI的世界里,"字节"就是那个无国界的食材。
具体操作分为两个清晰的步骤。
第一步是为学生AI安装一个"字节级感知器"。研究团队在预训练好的学生模型上,在其原有的词汇输出层旁边,并联安装一个轻量级的字节级解码头(byte-level decoder head)。这个额外的模块由10个并行的线性投影层构成,每一层负责预测当前词片位置对应的一个字节是什么。这个解码头的参数量相比整个模型来说非常小,但它给学生AI开了一扇全新的窗口——能够用字节这种通用语言来感知和表达信息。字节级词汇表只包含256个可能的字节值加上4个特殊符号(序列开始、序列结束、填充、未知字符),共260个元素,比任何分词词汇表都要简洁得多。
第二步是通过字节这个共同通道完成知识传递。对于老师AI,研究团队借助Vieira等研究者开发的一套算法,将老师在词汇层面的输出概率转换成字节层面的概率——也就是说,在给定一段已有文字的情况下,老师认为下一个字节是'a'的概率是多少,是'b'的概率是多少,依此类推。这个转换过程不是凭空猜测,而是有严格数学依据的:通过对所有可能的词片分割方案进行加权求和,精确推导出字节层面的概率分布。
有了老师在字节层面的"判断",以及学生通过新安装的字节级解码头做出的"判断",两者之间就可以进行直接比较,用"KL散度"这个数学工具来衡量差距,并通过训练让学生的判断尽量靠近老师的判断。与此同时,训练过程还保留了两个辅助目标:让学生在原有的词汇层面继续预测下一个词片(确保词汇层的解码头也能得到更新),以及在字节层面预测下一个字节的正确答案(确保字节感知能力的稳健性)。三个训练目标协同作用,构成了完整的蒸馏损失函数。
训练完成后,那个临时安装的字节级解码头会被摘除,留下的是一个焕然一新、使用新分词方案的学生AI——它的内部知识已经从老师那里汲取完毕,外表却是一个标准的、干净的语言模型。
五、一个棘手的技术细节:如何把词汇概率变成字节概率
把老师的输出从词汇层面转换到字节层面,听起来简单,实际上涉及相当精妙的数学处理,理解这一点有助于我们更好地认识这个方法的价值。
问题的难点在于,一个词片(token)通常包含多个字节。比如英文词片"playing"包含7个字节。老师AI在某个时刻输出的,是对下一个完整词片的概率分布——"playing"有30%的概率,"played"有25%的概率,等等。但我们需要的是对下一个字节的概率分布:下一个字节是'p'的概率是多少?
这个转换的理论依据来自"字节-词片表示引理"(Byte-Token Representation Lemma),由Phan等研究者系统阐述,而Vieira等研究者提供了高效的近似计算算法。核心思想是:对于任何一段已有的字节序列,下一个字节的概率等于所有"覆盖"该字节序列的词片序列的概率之和。具体计算时,算法通过"集束搜索"(beam search)的方式,在所有可能的词片分割路径中找出概率最高的若干条,以此近似全局答案。
研究团队对这套近似算法进行了仔细的参数调优。他们测试了不同的集束宽度K(保留多少条候选路径)和剪枝阈值ε(概率低于多少的路径可以丢弃)。评估标准是近似结果与高精度参考结果之间的"詹森-香农散度"(JSD),这个指标可以理解为两个概率分布之间的"相似程度"——数值越接近0,说明近似越精确。
经过测试,研究团队发现K=10、ε=0.01这个组合是最佳平衡点:近似误差只有0.0045,远低于会影响下游任务表现的阈值0.005;同时,内存使用量只有高精度参考配置的十分之一,使得更高的并行度成为可能。实际运行时,在四块NVIDIA RTX 3090显卡上,处理100到150字节长度的序列平均只需约10.4秒。用这套配置处理完整个Tulu-3训练数据集的字节概率,大约需要两天时间——这是一次性的离线预计算,不影响实际训练速度。
六、实验怎么设计的,和谁比较
为了验证字节级蒸馏的实际效果,研究团队严格遵循了Minixhofer等人在同类研究中建立的实验框架,设计了三类任务,覆盖了实际应用中最常见的场景。
第一类是"BPE到BPE的分词器迁移"——把一个已经训练好的模型从一套词片分词方案迁移到另一套。具体操作是:取Meta的Llama 3.2 3B(30亿参数)指令跟随模型,把它的分词器换成阿里巴巴Qwen 2模型所使用的分词器,然后用不同的蒸馏方法让这个"换了语言体系"的模型重新学会运转。对比的基准方法包括:仅做监督微调(SFT)、DSKD双空间知识蒸馏、MinED最小编辑距离对齐法,以及ALM+SFT近似似然匹配方法。
第二类是"BPE到字节级的分词器迁移"——这是更极端的场景,相当于把一个习惯以词片为单位思考的模型,改造成一个逐字节处理文字的模型。同样使用Llama 3.2 3B作为起点,将其改造为字节级语言模型。
第三类是"真正的跨模型、跨分词器蒸馏"——这是最贴近实际应用需求的场景。具体任务是:把专门针对数学问题优化的OpenMATH2-Llama 3.1 8B(80亿参数)老师模型的数学能力,蒸馏到谷歌的Gemma 2 2B(20亿参数)学生模型中去。老师和学生不仅分词方案不同,架构和训练背景也完全不同。训练数据使用OpenMathInstruct-2数学指令数据集,评估在GSM8K(小学数学应用题)和MATH(竞赛级数学题)两个标准基准上进行。
训练策略上,研究团队对所有方法统一使用LoRA低秩适应技术(rank=64),只更新查询和数值投影矩阵,其余骨干权重保持冻结。学习率设为2×10??,采用余弦衰减加线性热身的调度策略,训练5个轮次,最大序列长度512词片,使用bf16混合精度。这样的统一设置确保了不同方法之间的公平比较。
七、实验结果说明了什么
在分词器迁移(从Llama词汇表切换到Qwen词汇表)的结果上,字节级蒸馏展现出具体的竞争力。在PiQA(物理常识推理)上,BLD取得了75.68分的最高成绩,与原始Llama 3.2 3B的75.46分几乎持平,说明通过字节通道传递知识后,模型在常识推理上恢复得相当充分。在中文AGIEval(AGI-ZH)上,BLD同样拿到了最高的35.97分。在MMLU(大规模多任务语言理解)和BoolQ(是否判断)上,BLD的表现也接近原始模型水准。
然而,BLD并非在所有方面都最优。ALM+SFT在ARC-Challenge(科学推理)、BoolQ、MMLU、英文AGIEval四个榜单上领先。最值得注意的短板出现在IFEval(指令跟随能力评估)上:BLD只得到30.58分,而MinED达到62.83分,ALM+SFT达到58.51分,原始模型的基准是66.31分。这说明字节级蒸馏目前在保留模型"按特定格式和规范输出"的能力上存在明显不足。
在更难的场景——把模型迁移到字节级分词器上——所有方法都遭受了大幅性能下滑:MMLU从60.50骤降至约39分区间,ARC-Challenge从45.73降至约31-33分区间,这反映出将一个以词片为思维单位的模型改造成逐字节运作的模型,是一项根本性的挑战。在这个艰难场景下,BLD在PiQA上以67.52分略领先于MinED的67.41分,但差距微乎其微。各方法的表现差距远比第一类任务小,说明在极端困难的情形下,所有方法都触到了相似的能力天花板,没有哪种方法能真正破局。DSKD在两类迁移任务中都垫底,证实了不做任何词汇对齐而直接进行分布匹配的方式在这类问题上行不通。
在跨模型、跨分词器的数学蒸馏任务中,BLD在GSM8K上以62.55分(±1.33)取得了所测方法中的最高分,超过了ALM+SFT的61.56分和纯SFT的59.29分,也大幅高于Gemma 2 2B原始基准的51.48分。不过,在更难的MATH竞赛题上,SFT反而以22.40分领先,BLD为20.08分,说明BLD的优势并不均匀地覆盖所有数学任务类型。尽管如此,即便是最好成绩(62.55分)与老师模型(87.26分)之间,依然存在超过24分的巨大鸿沟,这清晰地提示了跨模型知识迁移仍是一项远未解决的难题。
八、一个有趣的"意外发现"
研究团队在验证字节级解码头的有效性时,用Llama 3.2 1B模型做了一个纯字节级监督微调实验——也就是说,只用字节层面的预测误差来更新模型,根本不给词汇层面任何直接监督信号。
出乎预料的是,词汇层面的训练损失和验证损失也随之下降了,而且下降趋势相当平滑稳定。字节层面的训练损失从约0.8降到约0.1,验证损失从约0.44逐步降至约0.34;词汇层面的训练损失从约3.5降到约1.5,验证损失从约2.8降到约2.0。
这个发现颇具启示意义:在字节粒度上学习语言,能够有效地带动词片粒度上的语言理解能力提升。字节层面的信号并不是一种粗糙的替代品,而是携带着丰富的、能够渗透到更高层次的语言知识。这也从另一个角度印证了"字节是语言的通用地基"这一核心直觉。
九、诚实面对局限性
研究团队并没有回避这项工作的局限性。计算资源的约束使得实验规模被限定在3B(分词器迁移任务)和8B到2B(跨模型蒸馏任务)的范围内,更大规模模型上的行为尚未探索。参数高效的LoRA微调虽然降低了计算需求,但也可能限制了性能上限——全参数优化或许能取得更好的成绩。
字节级解码头的设计也还有进步空间。目前使用的是10个并行的简单线性层,每个位置最多预测10个字节的信息,对于词片长度超过10字节的情况(虽然较少见),监督信号会被截断。更先进的做法可以是使用一个小型自回归Transformer作为字节级解码头,让它能够按顺序生成任意长度的字节序列,从而捕捉字节之间的序列依赖关系——这一改进方向在论文中被明确列为未来工作。
此外,研究团队对结果的评价保持了相当的克制:他们明确指出,在所有测试的任务和基准上,没有任何一种方法(包括他们自己的)能够持续稳定地优于其他方法。不同的基准、不同的迁移目标、不同的模型对,会导致截然不同的方法排名。由此可见,跨分词器蒸馏在当前阶段仍然是一个开放性问题,距离完满解决还有相当距离。
归根结底,这项研究做到的事情是:用一个出人意料地简单、理论上有据可查的方案,证明了字节层面是跨AI知识传递的一个可行共同界面。它没有解决所有问题,但它开辟了一条此前几乎无人明确探索过的路径,并且用充分的实验证据表明,这条路值得继续走下去。
对于那些正在思考如何高效组合不同AI系统、或者希望把某个专业领域的大模型知识"压缩"进小模型的研究者和工程师来说,这个方向有着非常实际的意义。当各家AI厂商都在构建自己的分词体系,当开源生态中并存着数十种互不兼容的模型家族时,找到一个通用的知识传递渠道,其重要性不言而喻。字节,这个计算机世界里最基础的存在,或许正是打通这些孤岛的那把钥匙。有兴趣深入研究这一问题的读者,可通过论文编号arXiv:2604.07466查阅完整原文及所有技术细节。
Q&A
Q1:字节级蒸馏(BLD)和传统知识蒸馏有什么根本区别?
A:传统知识蒸馏要求老师AI和学生AI使用完全相同的词汇表,因为蒸馏是在词汇层面直接比较输出概率。BLD的不同之处在于,它把老师的输出概率从词汇层面转换到字节层面,同时给学生模型临时安装一个字节级解码头,让两者都在"字节"这个所有AI共有的底层语言上交流知识,从而绕过词汇不匹配的问题。蒸馏完成后,字节级解码头会被移除,学生恢复为标准的词汇级模型。
Q2:字节级蒸馏在哪些任务上效果不好?
A:根据实验结果,字节级蒸馏在"指令跟随"能力上存在明显短板。在IFEval基准测试中,BLD只得到30.58分,远低于MinED的62.83分和ALM+SFT的58.51分。此外,在MATH竞赛级数学题上,BLD的20.08分也低于纯监督微调方法的22.40分。这说明当任务要求模型严格遵循特定格式规范或应对复杂推理时,字节级蒸馏的优势会减弱甚至消失。
Q3:跨分词器蒸馏在实际中有什么用?
A:实际应用场景主要有两类。一是把某个专业领域的大模型(比如专门训练了数学能力的大模型)的知识迁移到一个使用不同词汇体系、参数量更小的模型中,得到高效的专业小模型。二是在多个不同厂商的顶级开源模型之间进行集成蒸馏,让一个小模型同时学习来自DeepSeek、Qwen、GPT等多个模型的综合知识,理论上可以超越任何单一教师模型的能力。
热门跟贴