2017年,Transformer架构横空出世,带着两个核心部件:编码器(encoder)和解码器(decoder)。这套设计原本是为了让两者协同工作,处理机器翻译这类需要"先理解、再生成"的任务。这就是最早的编码器-解码器架构。

但研究者的探索很快走向了分叉。有人发现,单把解码器拎出来就足够能打——GPT系列、ChatGPT正是这条路线的产物。而另一拨人则盯上了编码器:如果我只用前半截,能干什么?

打开网易新闻 查看精彩图片

答案是:理解。纯粹的、深度的理解。

仅编码器架构(encoder-only)的运作逻辑很直接。输入文本,经过自注意力层和前馈网络,输出的是每个词的新表示——不是孤立的词向量,而是"看完整句话后重新编码"的上下文嵌入(contextualized embeddings)。同一个词在不同语境下,在这里会得到不同的向量。

这种能力解锁了两个关键场景。

第一,语义聚类。上下文嵌入能把"问价格"和"多少钱"这类表面不同、意图相同的表达归到一处。RAG(检索增强生成)系统的检索环节,底层依赖的正是这个机制。

第二,特征输入。这些嵌入可以直接喂给下游机器学习模型,充当高质量的特征表示。BERT及其衍生模型(RoBERTa、DistilBERT等)都建立在这个基础之上。

仅编码器与仅解码器的分野,本质是任务导向的差异:前者专精"看懂",后者主攻"生成"。两者共享Transformer的核心组件,却走向了不同的产品形态——一个支撑搜索与理解,一个驱动对话与创作。

下一篇将切入神经网络中的强化学习。