编码器架构揭秘：BERT与RAG的3大底层机制

闪存猎手

2026-05-08 03:25 ·北京

2017年，Transformer架构横空出世，带着两个核心部件：编码器（encoder）和解码器（decoder）。这套设计原本是为了让两者协同工作，处理机器翻译这类需要"先理解、再生成"的任务。这就是最早的编码器-解码器架构。

但研究者的探索很快走向了分叉。有人发现，单把解码器拎出来就足够能打——GPT系列、ChatGPT正是这条路线的产物。而另一拨人则盯上了编码器：如果我只用前半截，能干什么？

答案是：理解。纯粹的、深度的理解。

仅编码器架构（encoder-only）的运作逻辑很直接。输入文本，经过自注意力层和前馈网络，输出的是每个词的新表示——不是孤立的词向量，而是"看完整句话后重新编码"的上下文嵌入（contextualized embeddings）。同一个词在不同语境下，在这里会得到不同的向量。

这种能力解锁了两个关键场景。

第一，语义聚类。上下文嵌入能把"问价格"和"多少钱"这类表面不同、意图相同的表达归到一处。RAG（检索增强生成）系统的检索环节，底层依赖的正是这个机制。

第二，特征输入。这些嵌入可以直接喂给下游机器学习模型，充当高质量的特征表示。BERT及其衍生模型（RoBERTa、DistilBERT等）都建立在这个基础之上。

仅编码器与仅解码器的分野，本质是任务导向的差异：前者专精"看懂"，后者主攻"生成"。两者共享Transformer的核心组件，却走向了不同的产品形态——一个支撑搜索与理解，一个驱动对话与创作。

下一篇将切入神经网络中的强化学习。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴