写给技术负责人的Agentic AI术语手册

算力游侠

2026-05-14 06:53 ·北京

每个开发者都在用AI工具，但很少有人能说清楚背后的概念。Transformer到底在哪一层？MCP解决了什么问题？"智能体AI"是真技术还是聊天机器人的新包装？

这篇文章把机器学习到智能体的完整技术栈梳理成一份速查手册，从token、记忆、工具到RAG和向量数据库，按层级组织。适合遇到模糊概念时直接跳转查阅，而非通读。

基础层：机器学习

传统编程是你写规则："如果邮件主题包含'免费赚钱'，标记为垃圾邮件。"机器学习把这个逻辑颠倒过来——程序通过试错自己发现规则。你给它几千封标注"垃圾"或"正常"的邮件，程序对每封邮件猜测标签，对比正确答案，然后调整内部参数（权重）让错误少一点。重复数百万次后，这些权重会收敛成有用的模式。

权重长什么样？想象垃圾邮件检测器给每封邮件打分：看到"viagra"加0.8分，发件人未知加0.5分，感叹号多加0.2分。总分超过阈值就判为垃圾邮件。这些数字就是权重，训练就是找出每个数字该是多少。

训练产出不是代码，而是模型文件——存储所有权重。简单垃圾过滤器可能有数千个权重，大语言模型有数十亿个。把新邮件输入模型，它输出判断：垃圾或正常。

技术栈层级

几个关键区分：

• AI是最宽泛的领域——机器做任何我们称之为智能的事
• 机器学习是AI的子集：从数据中学习模式，而非显式编程
• 深度学习是ML的子集，使用多层神经网络
• 大语言模型是深度学习的具体应用，基于2017年提出的Transformer架构

所以层级关系是：LLM ⊂ 深度学习 ⊂ ML ⊂ AI。Claude、ChatGPT、Gemini、Llama都是LLM。

这些术语常被混用，但本质不同。垃圾过滤器和ChatGPT都是AI、都是ML，但只有一个是LLM。

神经网络与深度学习

神经网络是一种特定的ML算法，松散借鉴大脑结构：多层节点互相连接，每条连接携带一个权重。输入从一侧进入，流经各层，预测从另一侧输出。节点本身很简单，通常是"加权求和输入，如果超过阈值就激活"。

深度学习的"深度"指层数。2012年的突破是证明多层网络（当时8层就算深）在图像识别上远超传统方法。今天的网络可能有数百层。

层数增加带来两个问题：计算量爆炸，以及梯度消失（前面层的权重几乎不更新）。反向传播算法解决了后者，GPU解决了前者。

Transformer架构

2017年Google论文《Attention Is All You Need》提出了Transformer，成为现代LLM的基础。核心创新是自注意力机制：处理序列中每个元素时，模型能"看"到序列中所有其他位置，并决定关注哪些。

之前的RNN（循环神经网络）像阅读时只能记住前面几个词，Transformer像能随时翻回任意页。这让并行计算成为可能，训练速度大幅提升。

Transformer由编码器和解码器组成。编码器把输入转换成内部表示，解码器生成输出。GPT系列只用解码器，BERT只用编码器，T5两者都用。

Token与嵌入

模型不直接处理文字，而是token——可以是单词、子词或字符。GPT-4用BPE（字节对编码）分词，"unhappiness"可能被拆成"un"、"happiness"两个token。

每个token对应一个高维向量（嵌入），捕捉语义关系。训练后，相似词在向量空间中距离近："king"减"man"加"woman"约等于"queen"。

上下文窗口指模型一次能处理的token数。GPT-3是2048，GPT-4是128K，Claude 3是200K。窗口越大，模型能"记住"的上下文越多。

训练三阶段

预训练：在海量文本上预测下一个token，学习语言结构和世界知识。需要数千GPU运行数月，成本数千万美元。

微调：在特定任务数据上调整模型，让它更擅长某项工作。比预训练便宜得多。

RLHF（人类反馈强化学习）：让模型输出更符合人类偏好。收集人类对多个回答的排序，训练奖励模型，再用强化学习优化策略。

推理与生成

训练好的模型用于推理时，每次生成一个token。输入"今天天气"，模型计算每个可能下一个token的概率，选择"很"、"不错"、"晴朗"等之一，通常用温度参数控制随机性：低温更确定，高温更多样。

贪婪解码总是选概率最高的token，束搜索保留多个候选序列，核采样（top-p）从累积概率达阈值的子集中选择。

智能体层：从预测到行动

基础LLM只是预测下一个token。智能体AI给模型加上三样东西：工具（调用API、查数据库、执行代码）、记忆（记住对话历史或长期知识）、规划（把复杂任务拆成步骤）。

ReAct模式（推理+行动）让模型交替思考"我需要什么信息"和执行工具调用。看到"巴黎天气如何"，模型可能先调用天气API，拿到结果后再组织回答。

RAG与向量数据库

检索增强生成解决LLM知识截止和幻觉问题。流程：用户提问→把问题转成向量→在向量数据库找最相似的文档片段→把检索结果塞进提示词→模型基于这些上下文回答。

向量数据库专门存储高维向量并快速找最近邻。嵌入模型把文本转成向量，相似语义在空间中距离近。常用方案：OpenAI的text-embedding-ada-002，开源的sentence-transformers。

MCP：工具连接标准

模型上下文协议（Model Context Protocol）是Anthropic提出的开放标准，解决"每个AI工具都要单独写连接器"的问题。MCP把数据源或工具包装成标准接口，任何支持MCP的客户端都能调用。

类似USB-C统一充电口，MCP希望统一AI与外部系统的连接方式。服务器暴露资源（只读数据）、工具（可执行函数）、提示词（预定义模板）三种能力。

记忆机制

对话历史是短期记忆，直接放在上下文窗口里。长期记忆需要外部存储：摘要过去对话、存储关键事实到数据库、或用向量检索相关记忆。

一些实现让模型主动决定"这件事值得记住"，写入长期存储；需要时检索"用户之前提过喜欢日式咖啡"。

评估与观测

智能体系统难调试，因为输出不确定且依赖外部工具。关键指标：任务完成率、步骤效率（用了多少步）、成本、延迟。需要记录完整执行轨迹，才能复盘"为什么这次调用错了API"。

LangSmith、Weights & Biases等工具提供追踪和评估框架。对抗测试故意给模糊指令或错误工具返回值，检验系统鲁棒性。

从概念到落地

这份术语手册的价值不在一次性读完，而在遇到具体问题时快速定位。搞不清RAG和微调的区别？跳到对应章节。MCP和Function Calling什么关系？看工具连接部分。

技术栈还在快速演变，但这些基础概念相对稳定。理解它们之间的层级关系，比记住每个新名词更重要。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴