打开网易新闻 查看精彩图片

作者 | 何宇航

随着 2026 年的到来,生成式 AI 已经彻底告别了"Demo 满天飞"的狂热期,正式步入工程化落地的深水区。当大模型的能力边界不再神秘,企业架构师们面临的核心命题已经发生转移:如何在一个确定性要求极高的复杂企业架构中,有效驯服 Agent 固有的"幻觉"与"遗忘",让概率性的智能稳定地跑在确定性的生产系统之上?

在 2026 QCon 全球软件开发大会·北京站上,易点天下中台研发总监何宇航分享了其在 Agentic AI 领域的工程化实践与思考。依托企业级"上下文工程(Context Engineering)"与纵深安全防御体系,他详细解读了易点天下如何将概率性的 AI 稳妥地嵌入全球化业务的毛细血管中。

1 底层支撑:多云共生的确定性架构

Agent 的稳定运行无法脱离坚实的基础设施。易点天下的核心业务覆盖全球 230 多个国家和地区,面对极高的合规与网络连通性挑战,其底层的 Cycor 平台从设计之初便确立了多云战略(Multi-cloud)。

目前,该平台已实现对 AWS、GCP、阿里云、腾讯云、华为云等主流厂商的无缝接入与统一资源调度,实际纳管着大量 K8s 集群与底层组件,形成了跨云、跨地域的统一控制面。

在 Agent 的构建逻辑中,这种不依赖单一云底座的多云共生架构具有极高的战略价值:它不仅从根本上规避了供应商锁定(Vendor Lock-in)的风险,更重要的是在面对大模型算力调度时,能够在成本、效果与可控性之间动态平衡。对于人力相对精简的底层运维团队而言,这种高度统一的多云调度能力,正是后续构建 DevOps Agent 的物理前提。

2 技术攻坚:从 Prompt 编排走向 Context Engineering

在 Agent 探索的早期(V1 阶段),研发团队曾基于低代码平台构建线性 Workflow 编排:由一个前置分类器根据 System Prompt 路由到不同的固定 Agent。系统运行三个月后,架构阵痛集中暴露:

首先,高度依赖系统提示词的分类器极不稳定,分类错误率长期维持在 15% 左右,团队常常陷入"修复 A 场景却破坏 B 场景"的窘境;其次,记忆仅局限于单次上下文窗口,缺乏跨会话的持久化能力,导致同一故障在不同会话中被反复从零推理;最后,固定编排使各 Agent 各自为战,无法协同处理跨域链路问题。

为此,技术团队果断放弃线性编排,转向基于 Agent Loop 的自主智能体架构(单轮对话内最多 15 轮工具调用循环),并将工程重心从"怎么措辞(Prompt)"彻底切换到"每一步该给什么信息(Context)"的上下文工程。

简单来说,上下文工程解决三个彼此纠缠的根本问题:需要的信息如何进得来、无关的信息如何挡得住、宝贵的 Token 预算如何花在刀刃上。围绕这三条主线,易点天下搭建了一套覆盖"分层记忆 + 主动注入 + 预算治理 + 压缩续接"的完整工程体系。

打开网易新闻 查看精彩图片

1. 构建六层上下文体系

为了让 Agent 在长期任务中既能记住关键线索,又能有效过滤噪音,系统设计了一条动态的信息管线,将上下文精细化为六个层次:

  • L1 Session Memory(当前会话):基于 PostgreSQL 普通表,通过 session_id 进行硬隔离,支撑当前会话的毫秒级读写与自动化清理;

  • L2 Short-Term(近期记忆):维持 24 小时的跨会话时间窗口,用于识别短期内的故障复发;

  • L3 Long-Term(持久化事实):引入记忆引擎与向量存储,将高价值对话提炼为客观事实并持久化,配合 Agentic Search 进行语义检索与冲突合并;

  • L4 Knowledge Graph(实体关系):由 LLM 抽取三元组,存入图数据库,帮助 Agent 在复杂微服务网络中建立资源间的拓扑认知;

  • L5 Experience(个人经验库):系统自动对高频故障模式进行聚类,提炼出如"遇到 OOM 先查 limits"的经验标签,在同类报错中自动注入;

  • L6 Skill(组织技能手册):由经过人工验证的经验固化而来的标准化 Markdown 手册,作为组织级的 Skill 资产沉淀下来,真正实现"个人经验 → 团队资产"的跃迁。

2. 主动注入:让 Agent 在"需要的时候刚好知道"

仅仅把信息存下来还远远不够。传统的"Agent 按需自取"模式存在一个根本缺陷——模型不知道自己不知道什么,它无法主动去检索一条它从未听说过的故障记录。为此,易点天下借鉴了 Hook 化的主动推送思路,在 Agent 生命周期的关键节点内置了三类检索钩子:

  • UserMessage 钩子:在用户提问进入 Agent Loop 之前,先做意图过滤与关键词 / 语义双路召回,将相关记忆分层注入到 System Prompt;

  • PreToolUse 钩子:在写文件、改配置等敏感工具调用之前,按精确资源 ID 匹配历史变更记录与已知风险,避免 Agent 重复踩坑;

  • ErrorSignal 钩子:一旦检测到错误关键字(timeout、OOM、ImagePullBackOff 等),自动按 bugs/errors 维度拉取历史解法并分层注入。

这一机制把"记忆"从被动的资料库升级为主动的副驾驶——Agent 在真正需要某条知识之前,相关上下文就已经悄悄到位。

3. Token 预算治理:渐进式注入与分层内容

上下文窗口是 Agent 时代最稀缺的资源。经验表明,一次粗放地塞入 3 条知识、每条 500 tokens,就会吞掉约 10% 的可用窗口,不仅挤占推理空间,还会放大 Lost in the Middle 效应。易点天下为此构建了一套分层的 Token 预算治理体系:

  • 三级内容分层:每条知识都会被预先生成 L0/L1/L2 三种"分辨率"——L0 Abstract 约 100 tokens 的一句话摘要,L1 Overview 约 300 tokens 的详细要点,L2 Full 则是完整 Markdown 全文;

  • 按相关度动态选档:检索命中后,相关度 score > 0.8 注入 L1、score ≤ 0.8 降级为 L0、用户或 Agent 主动 Read 时才展开 L2,单次注入 Token 稳定压在 100–300 的小窗口内;

  • 短会话直通,长会话采样:当整段会话字符数在预算之内时直通不压缩,零信息损失;一旦超预算,优先截断单条 assistantText,而不是整段丢弃问答对,保住推理链条的完整性;

  • 硬预算 + 软降级:每条链路都设有明确的性能预算(如 UserMessage 注入 3 秒、PreToolUse 注入 100 毫秒内完成),超时即走降级路径,宁可少注入也不阻塞主流程。

这一套组合拳下来,单次注入的 Token 消耗下降约 80%,同时因为 L2 完整内容始终"一键可达",信息完整性反而得到了更好的保证。

4. 渐进式工具加载,破解 Token 瓶颈

在真实的 K8s 运维场景中,Agent 面临数十乃至上百个可选工具。如果将全部 Tool Schema 一次性塞入 Prompt,不仅浪费 Token,还会触发大模型的中间注意力丢失(Lost in the Middle),导致工具选择错乱。

为此,易点天下设计了"渐进式工具加载(Deferred Tool Registry)"机制:初始态仅激活 list_pods 等核心工具,其余长尾工具仅在 Prompt 中保留极简描述;当模型推理需要时,通过内部的 tool_search 能力按需动态唤醒并加载对应工具。

这一工程手段带来了跨越式的效果提升:工具调用准确率由 V1 的约 70% 提升至 V2 的约 90%;由于记忆层可直接命中已解决过的故障模式,重复性问题的处理时间由原先的 60 秒量级缩短至 5 秒以内,响应周期实现了数量级改善。

5. 压缩续接:让长任务不"失忆"

即便做了严格的预算治理,真实运维场景下的长链路排障仍可能逼近上下文上限。为此,系统在窗口接近阈值时会触发 PreCompact 钩子:将既有对话按"问题—行动—观察—结论"的结构化摘要格式进行压缩,生成 { overview, steps, todos } 三段式的会话摘要,并在下一轮启动时作为 Warm 层(最近 10 次会话摘要,FIFO 淘汰)注入。这使得 Agent 即使跨越数小时的多阶段任务,也能"记得上次做到哪一步、还有哪些 TODO 没闭环",彻底告别了 V1 阶段"关掉对话就失忆"的窘境。

可以说,如果 L1–L6 回答的是信息放在哪里,主动注入解决的是什么时候送进去,那么 Token 预算治理与压缩续接要回答的则是怎么在有限窗口里把每一个 Token 花在最有价值的地方——这三件事合在一起,才构成了易点天下真正意义上的"上下文工程"。

3 安全底线:五道防线确保可控性

将确定性要求极高的生产环境(如操作海量 K8s 集群)交由概率性的大模型去决策,安全是不可逾越的底线。在易点天下的治理理念中,"AI 是加速器,而不是刹车"——但加速器必须跑在有护栏的赛道上。

为此,系统在 Agent 操作链路上设计了五层结构化的纵深防御闸门。在这套体系中,仅有 1 层允许大模型(LLM)参与决策,其余 4 层全部交由严谨的规则代码进行物理兜底:

  1. 白名单准入(NamespaceGuard):在中间件代码层面直接屏蔽 LLM 对 kube-system 等核心命名空间的可见性与操作权限,风险从源头隔离;

  2. 试执行与人工介入(Dry Run + HITL):LLM 生成的运维指令先进行空跑校验,敏感操作强制触发人工审批流(这是 LLM 唯一参与验证判断的层级);

  3. 资源锁与爆炸半径限制:通过代码硬编码单次操作的资源配额与影响范围,防止级联雪崩;

  4. 规则校验(不轻信 LLM):指令执行后,系统拒绝依赖大模型的自然语言回复,而是通过代码重新调用系统接口,对比实际状态是否符合预期;

  5. 强制回滚机制:系统约束所有修改类工具在注册时必须附带降级与回滚逻辑,出现异常可一键退回安全态。

通过这套防御机制,易点天下将复杂集群操作的误执行率压低至接近于零,在效能与安全之间取得了稳定平衡。

4 未来洞察:生产力重构与开发者的新身份

在工程化落地的推动下,AI 的定位已经发生质变。正如其内部实践总结中所提出的预判:在 2026 年的 AI Coding 时代,开发者的工作姿势将被彻底重构——"由 AI 负责执行,人负责 Taste(审美与逻辑判断)"。

目前,Agent 在易点天下早已突破底层运维实验室的边界,作为"数字搭子"深度渗透到业务毛细血管之中。依托坚实的 AI 中台架构,公司内部已活跃运行着近百个不同职能的 Agent,覆盖营销业务(策略洞察、自动化投放)、内部运营(BI 分析、审批协同)、技术运维、客户服务等多个维度。

当大模型基座逐渐趋同,真正的技术壁垒将建立在三件事之上:企业对上下文工程的理解深度、多云架构的掌控力,以及把组织经验沉淀为可执行 Skill 的能力。易点天下的工程化实践再一次证明:在这场生产力重构的浪潮中,用极客的确定性去驾驭 AI 的不确定性,是企业走向智能化的必由之路。

(注:文中提及的相关数据均来源于易点天下,最终解释权归易点天下所有。)

会议推荐

测完 MBTI,快来解锁技术人专属 AITI !前沿探索家、大模型工程师、Agent 实战拆解师、行业赋能师… 你是哪一种?6.26-27 # AICon 上海站等你面基同频人!世界模型与多模态智能突破、Agent 架构与工程化实践、Agent 安全与可信治理、企业级研发体系重构等 14 大专题全面开启,诚挚邀请你登台分享实战经验。AICon 2026,期待与你同行。