Meta 科学家改写了 Transformers 的思考方式!
[让我看看]改进的 Transformers 不再只是预测「下一个 token」,还拥有了自身意图。
在一篇新发表的论文中,Meta 研究科学家 François Fleuret 构建了一个生成过程依赖于潜变量的 Transformer 模型——Free Transformer。
有 X 网友评价道,Free Transformer 为大语言模型(LLM)赋予了一个隐藏的“心智”,使得模型能够在开始“说话”之前自行决定如何生成,“打破了自 2017 年以来大多数 LLM 都遵循的核心规则”。
[强]据论文描述,要实现这一点,编码器 Transformer 在生成阶段只需要一个随机源,但在训练阶段则需要一个编码器,从而构成一个条件变分自编码器(conditional VAE)。
Free Transformer 就是这样一种“Transformer VAE”。它通过让编码器和解码器共享一半的层结构,并仅为解码器增加一个专属模块,从而减轻了计算开销。
这个额外的模块不是因果结构(non-causal)的,因此编码器可以看到完整的序列。与标准 VAE 类似,编码器向解码器传递的信息量由 KL 散度项来控制。
在合成序列上的实验表明,当 KL 散度增大时,模型确实会越来越多地利用潜变量 Z,直到最终出现坍塌(collapse)。
使用 FAIR 框架及不同规模基础模型进行的实验表明,这一方法能够有效提升模型在 GSM8K、MMLU 和 HumanEval 等标准基准测试上的性能。
#大模型 #LLM #论文 #学习 #transformers
paper:https://arxiv.org/abs/2510.17558
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
热门跟贴