每个开发者都在用AI工具,但很少有人能说清楚背后的概念。Transformer到底在哪一层?MCP解决了什么问题?"智能体AI"是真技术还是聊天机器人的新包装?

这篇文章把机器学习到智能体的完整技术栈梳理成一份速查手册,从token、记忆、工具到RAG和向量数据库,按层级组织。适合遇到模糊概念时直接跳转查阅,而非通读。

打开网易新闻 查看精彩图片

基础层:机器学习

打开网易新闻 查看精彩图片

传统编程是你写规则:"如果邮件主题包含'免费赚钱',标记为垃圾邮件。"机器学习把这个逻辑颠倒过来——程序通过试错自己发现规则。你给它几千封标注"垃圾"或"正常"的邮件,程序对每封邮件猜测标签,对比正确答案,然后调整内部参数(权重)让错误少一点。重复数百万次后,这些权重会收敛成有用的模式。

权重长什么样?想象垃圾邮件检测器给每封邮件打分:看到"viagra"加0.8分,发件人未知加0.5分,感叹号多加0.2分。总分超过阈值就判为垃圾邮件。这些数字就是权重,训练就是找出每个数字该是多少。

训练产出不是代码,而是模型文件——存储所有权重。简单垃圾过滤器可能有数千个权重,大语言模型有数十亿个。把新邮件输入模型,它输出判断:垃圾或正常。

技术栈层级

几个关键区分:

• AI是最宽泛的领域——机器做任何我们称之为智能的事
• 机器学习是AI的子集:从数据中学习模式,而非显式编程
• 深度学习是ML的子集,使用多层神经网络
• 大语言模型是深度学习的具体应用,基于2017年提出的Transformer架构

所以层级关系是:LLM ⊂ 深度学习 ⊂ ML ⊂ AI。Claude、ChatGPT、Gemini、Llama都是LLM。

这些术语常被混用,但本质不同。垃圾过滤器和ChatGPT都是AI、都是ML,但只有一个是LLM。

神经网络与深度学习

神经网络是一种特定的ML算法,松散借鉴大脑结构:多层节点互相连接,每条连接携带一个权重。输入从一侧进入,流经各层,预测从另一侧输出。节点本身很简单,通常是"加权求和输入,如果超过阈值就激活"。

深度学习的"深度"指层数。2012年的突破是证明多层网络(当时8层就算深)在图像识别上远超传统方法。今天的网络可能有数百层。

层数增加带来两个问题:计算量爆炸,以及梯度消失(前面层的权重几乎不更新)。反向传播算法解决了后者,GPU解决了前者。

Transformer架构

2017年Google论文《Attention Is All You Need》提出了Transformer,成为现代LLM的基础。核心创新是自注意力机制:处理序列中每个元素时,模型能"看"到序列中所有其他位置,并决定关注哪些。

之前的RNN(循环神经网络)像阅读时只能记住前面几个词,Transformer像能随时翻回任意页。这让并行计算成为可能,训练速度大幅提升。

Transformer由编码器和解码器组成。编码器把输入转换成内部表示,解码器生成输出。GPT系列只用解码器,BERT只用编码器,T5两者都用。

Token与嵌入

模型不直接处理文字,而是token——可以是单词、子词或字符。GPT-4用BPE(字节对编码)分词,"unhappiness"可能被拆成"un"、"happiness"两个token。

每个token对应一个高维向量(嵌入),捕捉语义关系。训练后,相似词在向量空间中距离近:"king"减"man"加"woman"约等于"queen"。

上下文窗口指模型一次能处理的token数。GPT-3是2048,GPT-4是128K,Claude 3是200K。窗口越大,模型能"记住"的上下文越多。

训练三阶段

预训练:在海量文本上预测下一个token,学习语言结构和世界知识。需要数千GPU运行数月,成本数千万美元。

微调:在特定任务数据上调整模型,让它更擅长某项工作。比预训练便宜得多。

打开网易新闻 查看精彩图片

RLHF(人类反馈强化学习):让模型输出更符合人类偏好。收集人类对多个回答的排序,训练奖励模型,再用强化学习优化策略。

推理与生成

训练好的模型用于推理时,每次生成一个token。输入"今天天气",模型计算每个可能下一个token的概率,选择"很"、"不错"、"晴朗"等之一,通常用温度参数控制随机性:低温更确定,高温更多样。

贪婪解码总是选概率最高的token,束搜索保留多个候选序列,核采样(top-p)从累积概率达阈值的子集中选择。

智能体层:从预测到行动

基础LLM只是预测下一个token。智能体AI给模型加上三样东西:工具(调用API、查数据库、执行代码)、记忆(记住对话历史或长期知识)、规划(把复杂任务拆成步骤)。

ReAct模式(推理+行动)让模型交替思考"我需要什么信息"和执行工具调用。看到"巴黎天气如何",模型可能先调用天气API,拿到结果后再组织回答。

RAG与向量数据库

检索增强生成解决LLM知识截止和幻觉问题。流程:用户提问→把问题转成向量→在向量数据库找最相似的文档片段→把检索结果塞进提示词→模型基于这些上下文回答。

向量数据库专门存储高维向量并快速找最近邻。嵌入模型把文本转成向量,相似语义在空间中距离近。常用方案:OpenAI的text-embedding-ada-002,开源的sentence-transformers。

MCP:工具连接标准

模型上下文协议(Model Context Protocol)是Anthropic提出的开放标准,解决"每个AI工具都要单独写连接器"的问题。MCP把数据源或工具包装成标准接口,任何支持MCP的客户端都能调用。

类似USB-C统一充电口,MCP希望统一AI与外部系统的连接方式。服务器暴露资源(只读数据)、工具(可执行函数)、提示词(预定义模板)三种能力。

记忆机制

对话历史是短期记忆,直接放在上下文窗口里。长期记忆需要外部存储:摘要过去对话、存储关键事实到数据库、或用向量检索相关记忆。

一些实现让模型主动决定"这件事值得记住",写入长期存储;需要时检索"用户之前提过喜欢日式咖啡"。

评估与观测

智能体系统难调试,因为输出不确定且依赖外部工具。关键指标:任务完成率、步骤效率(用了多少步)、成本、延迟。需要记录完整执行轨迹,才能复盘"为什么这次调用错了API"。

LangSmith、Weights & Biases等工具提供追踪和评估框架。对抗测试故意给模糊指令或错误工具返回值,检验系统鲁棒性。

从概念到落地

这份术语手册的价值不在一次性读完,而在遇到具体问题时快速定位。搞不清RAG和微调的区别?跳到对应章节。MCP和Function Calling什么关系?看工具连接部分。

技术栈还在快速演变,但这些基础概念相对稳定。理解它们之间的层级关系,比记住每个新名词更重要。