BERT和RAG的底层秘密：编码器-only架构

闪存猎手

2026-05-08 04:08 ·北京

2017年，Transformer架构横空出世，带着编码器和解码器两个核心部件。这个设计本意是让两者协同工作，形成所谓的编码器-解码器架构。但研究者很快发现，事情没那么简单。

解码器单独拎出来就够强了。只用解码器，模型能预测下一个词、生成连贯文本、完成问答对话。ChatGPT的底层就是这个思路，这类模型被称为"解码器-only Transformer"。

但另一边，编码器单独用也很能打。BERT就是典型代表，这类"编码器-only Transformer"成了另一大流派。

编码器-only的核心武器：上下文感知嵌入

编码器-only架构用的还是那几层老面孔：自注意力层、前馈网络层、归一化和残差连接。但组合起来，它干了一件很特别的事——给每个词生成新的表示。

这个表示能捕捉什么？

1. 词本身的含义——"bank"是银行还是河岸

2. 周围词的语境——前面说了什么，后面要说什么

3. 整句的语义重心——哪部分是主语，哪部分是情绪

这种表示叫"上下文感知嵌入"（context-aware embeddings），也叫"语境化嵌入"。

为什么RAG检索离不开它

上下文感知嵌入的真正价值在于：能把语义相近的东西拽到一起。

"如何重置密码"和"忘记密码怎么办"——字面完全不同，嵌入空间里的距离却很近。"苹果股价"和"iPhone销量"——表面不搭边，语义上高度相关。

这就是RAG（检索增强生成）的根基。先拿编码器把知识库里的文档都编码成嵌入向量，用户提问时同样编码，然后在向量空间里找最近的邻居。没有这套机制，检索就是关键词匹配，不是语义理解。

同样的嵌入也能直接喂给机器学习模型当输入特征，省去大量手工特征工程。

编码器-only的故事就到这。下一篇聊神经网络里的强化学习。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴