2017年,Transformer架构横空出世,带着编码器和解码器两个核心部件。这个设计本意是让两者协同工作,形成所谓的编码器-解码器架构。但研究者很快发现,事情没那么简单。
解码器单独拎出来就够强了。只用解码器,模型能预测下一个词、生成连贯文本、完成问答对话。ChatGPT的底层就是这个思路,这类模型被称为"解码器-only Transformer"。
打开网易新闻 查看精彩图片
但另一边,编码器单独用也很能打。BERT就是典型代表,这类"编码器-only Transformer"成了另一大流派。
编码器-only的核心武器:上下文感知嵌入
编码器-only架构用的还是那几层老面孔:自注意力层、前馈网络层、归一化和残差连接。但组合起来,它干了一件很特别的事——给每个词生成新的表示。
这个表示能捕捉什么?
1. 词本身的含义——"bank"是银行还是河岸
2. 周围词的语境——前面说了什么,后面要说什么
3. 整句的语义重心——哪部分是主语,哪部分是情绪
这种表示叫"上下文感知嵌入"(context-aware embeddings),也叫"语境化嵌入"。
为什么RAG检索离不开它
上下文感知嵌入的真正价值在于:能把语义相近的东西拽到一起。
"如何重置密码"和"忘记密码怎么办"——字面完全不同,嵌入空间里的距离却很近。"苹果股价"和"iPhone销量"——表面不搭边,语义上高度相关。
这就是RAG(检索增强生成)的根基。先拿编码器把知识库里的文档都编码成嵌入向量,用户提问时同样编码,然后在向量空间里找最近的邻居。没有这套机制,检索就是关键词匹配,不是语义理解。
同样的嵌入也能直接喂给机器学习模型当输入特征,省去大量手工特征工程。
编码器-only的故事就到这。下一篇聊神经网络里的强化学习。
热门跟贴