打开网易新闻 查看精彩图片

对于部署智能体AI系统的IT领导者而言,高推理延迟和不断攀升的GPU成本已成为主要瓶颈。这些工作流程每次查询通常需要生成数千个Token,造成了当前硬件难以弥合的性能差距。

来自马里兰大学、劳伦斯利弗莫尔国家实验室、哥伦比亚大学和TogetherAI的研究人员表示,他们可以通过对预训练模型进行微调,将加速能力嵌入到模型权重中,从而在推理基准测试中实现三倍的推理速度提升,无需投机解码或辅助草稿模型。

在本月发表的一篇论文中,研究团队描述了一种多Token预测技术,该技术通过特殊的掩码Token和在线自蒸馏目标,将标准的下一Token模型转换为并行解码器。

基准测试结果显示,该方法在准确率损失极小的情况下实现了超过3倍的加速,这种权衡对于在生产AI系统中努力平衡成本和模型质量的企业具有吸引力。

据报道,最终模型保持了与预训练初始检查点相同的实现方式,可在不添加任何辅助验证器或其他专门推理代码的情况下部署。

传统架构的局限性

传统大语言模型每次前向传递生成一个Token,这种设计本身就限制了吞吐量。对于推理模型而言,这种串行瓶颈尤其成问题,因为即使是简短的最终回答,在"思维链"过程中也会生成数千个Token。一次传递生成多个Token可以减少延迟和成本。

为确保连贯性,研究人员采用了学生-教师设置。使用动物园管理员的类比,他们指出,独立预测多个词的模型可能会无意义地输出动物园管理员给"熊猫喂肉"。教师模型评估这些多Token片段,确保它们在一起有意义。

研究人员在论文中表示:"我们提出了一种受强化学习启发的训练范式,学生模型生成同时Token预测的片段。为了避免标准离线目标的陷阱,学生输出由大语言模型评判者/教师评分,而不是与已知的真实Token序列对比评分。"

他们补充道:"通过将学生的预测与教师提出的下一Token建议进行比较,我们产生了一个策略内奖励信号,使学生能够快速提高其多Token预测的质量。"

技术实现与性能表现

在推理时,系统使用置信度自适应(ConfAdapt)解码策略,动态确定每次传递发出多少个Token。当模型高度自信时,它输出更大的块。当不确定性增加时,它回退到较小的步骤,在保持速度增益的同时保持准确性。

在GSM8K数学推理基准测试实验中,80亿参数模型在准确率下降不到3%的情况下实现了超过3倍的加速。较小的40亿参数模型达到了类似的加速,尽管准确率下降了7%。更激进的配置将加速推至5倍,但准确率成本更高。

与需要辅助推测模型和专门推理管道的投机解码不同,该方法训练单个模型,保持与原始检查点相同的实现方式,无需辅助验证器。

市场分析与应用前景

分析师表示,更大的问题是这种方法是否会有意义地改变生产环境中推理堆栈的设计方式。

Greyhound Research首席分析师Sanchit Vir Gogia表示:"投机解码试图通过引入提出Token的草稿模型和验证它们的目标模型来打破这种约束。理论上,这产生无损加速。实际上,验证成本、批处理交互和草稿-目标漂移减少了实际收益。"

相比之下,他说,多Token方法保留了自回归骨架,但将优化转移到训练阶段。

"经济影响取决于输出的熵分布,"Gogia说。"在推理密集型或结构化任务中,可预测片段可以以较大块发出,降级有限。在高熵、开放式生成中,加速收缩。这是选择性压缩,不是通用速度。"

这种区别对企业部署很重要。Gogia表示:"ConfAdapt从根本上是熵敏感的。其战略优势在具有结构化支架、确定性语言段和受人类监督的咨询输出特征的工作负载中最大化。"

Gogia说,企业应该将该技术视为校准的效率杠杆,而不是通用加速开关。

Q&A

Q1:多Token预测技术是什么?它如何提升大语言模型的推理速度?

A:多Token预测技术是一种将标准的下一Token模型转换为并行解码器的方法,通过特殊的掩码Token和在线自蒸馏目标实现。它让模型在一次前向传递中生成多个Token,而不是传统的每次只生成一个Token,从而大幅提升推理速度,在基准测试中可实现超过3倍的加速。

Q2:这种技术相比投机解码有什么优势?

A:与投机解码不同,多Token预测技术无需辅助推测模型和专门的推理管道,只需训练单个模型就能实现加速。该方法保持与原始检查点相同的实现方式,无需添加辅助验证器或其他专门推理代码,部署更简单。

Q3:ConfAdapt解码策略是如何工作的?

A:ConfAdapt是置信度自适应解码策略,能动态确定每次传递发出多少个Token。当模型高度自信时,它输出更大的Token块;当不确定性增加时,它回退到较小的步骤。这种策略在保持速度增益的同时保持准确性,特别适合结构化任务和推理密集型工作负载。