LinkedIn的工程师正在给AI代理搭建"记忆宫殿"——不是为了让它们更聪明,而是为了解决一个尴尬现实:Demo里表现完美的代理,一旦接入真实公司的数据、服务和流程,往往迅速失控。

这是QCon AI Boston 2026透露出的核心焦虑。6月1-2日,这场聚焦"后Demo时代工程问题"的技术大会将在波士顿大学举行,议程刚刚公布。程序主席Eder Ignatowicz(红帽AI高级首席软件工程师兼架构师)把主题定得很直接:从打动投资人的Demo,到扛得住生产流量、成本约束和审计要求的系统,中间隔着什么。

打开网易新闻 查看精彩图片

LinkedIn的解法:给代理建"组织上下文层"

Ajay Prakash(LinkedIn高级资深软件工程师)将分享一个具体工程实践:如何用MCP(模型上下文协议,Model Context Protocol)构建组织上下文层。

MCP是Anthropic推出的开放协议,本意是标准化AI模型与外部数据源的连接方式。LinkedIn的用法更进一层——不是让代理每次临时查数据,而是搭建一个持久化的"上下文层",把企业内部的组织结构、权限关系、业务规则编码进去。

这个设计的出发点很务实:代理在实验环境里可以靠提示词硬塞背景信息,但生产环境里的查询复杂度、数据规模、权限边界完全不同。没有组织化的上下文管理,代理会在跨部门调用、权限校验、历史依赖上反复踩坑。

Prakash的分享标题里有个关键词"Context Engineering(上下文工程)"。这暗示一种转向:当基础模型能力趋于同质化,工程竞争的焦点正从"调模型"转向"管上下文"。

推理成本:从"能跑"到"跑得起"的硬约束

议程中另一组议题直指钱包问题。代理架构的复杂度飙升——多步骤推理、工具调用、长上下文窗口——带来的副作用是推理成本指数级增长。

一位参会工程师的背景很有代表性:来自金融科技公司,代理系统已小规模上线,但月度推理账单让管理层开始质疑ROI。这不是个案。QCon把"Inference Cost(推理成本)"单列成一个主题方向,说明这已从后台优化项变成架构设计的核心变量。

目前可见的成本控制思路包括:模型路由(简单任务用小模型)、推理缓存、 speculative decoding(推测解码,一种加速生成的方法)、以及更激进的——重新设计代理的工作流,减少不必要的LLM调用次数。但具体哪条路径最有效,还要看生产环境的实测数据。

可审计性:非确定性系统的信任危机

比成本更棘手的是"auditable(可审计)"——如何让黑箱代理的决策过程可追溯、可解释、可复核。

传统软件的逻辑链是确定的:输入A,经过固定代码路径,输出B。代理系统打破了这条链条:同样的输入,模型可能因温度参数、上下文窗口内容、甚至底层模型的静默更新而产生不同输出。这对金融、医疗、合规敏感行业是致命伤。

议程中提到的解法方向包括:决策日志的结构化记录、人机回环(human-in-the-loop)的关键节点设计、以及用确定性规则框定代理的权限边界。但这些方案都伴随代价——更重的工程负担、更慢的响应速度、或更僵化的交互体验。

AI在软件开发生命周期:重写协作规则

大会第三个主题方向是"AI in the SDLC(软件开发生命周期中的AI)"——不是讨论AI怎么写代码,而是讨论AI怎么改变团队协作方式。

一个被反复提及的现象:当AI能生成代码、写测试、做代码审查,工程师的角色定义正在模糊。代码所有权怎么划分?AI生成的bug谁负责?代码审查的标准要不要调整?

这些问题的答案还在形成中。QCon的议程设计暗示一种观察:2024-2025年的焦点是"AI能做什么",2026年的焦点转向"AI怎么做才不崩"。技术能力的前沿探索让位于工程化落地的系统性风险。

红帽的视角:开源基础设施的押注

程序主席Ignatowicz的红帽背景值得关注。红帽在AI领域的布局集中在开源基础设施层:OpenShift AI、InstructLab(社区驱动的模型调优工具)、以及对Llama等开源模型的企业级支持。

这种立场影响议程的偏向性:更多讨论开放协议(如MCP)、混合云部署、避免供应商锁定,相对较少涉及闭源生态的专有方案。对于已在AWS/Azure/GCP上深度绑定的团队,这种视角提供了某种"对冲"思路——但具体迁移成本,议程不会给出答案。

谁在参会:从实验者到负重前行者

从已公布的演讲者背景看,参会者画像正在变化。2024年的AI大会演讲者多来自研究 lab 或产品Demo团队,2026年的阵容明显向"有生产包袱"的工程师倾斜:LinkedIn、红帽、以及议程暗示的金融科技、医疗健康等合规敏感行业。

他们的共同特征是:AI代理不再是技术验证项目,而是已经或即将进入生产环境,需要处理真实流量、真实成本、真实审计要求。Demo阶段的乐观情绪让位于对系统性风险的警惕。

三个未解的 tension

梳理议程结构,可以发现三组尚未调和的张力:

第一,灵活性与可控性。代理的自主性是其价值来源,也是风险来源。组织上下文层、权限边界、人机回环都是为了给自主性套上缰绳,但缰绳越紧,代理的响应速度和场景覆盖度越受限。

第二,成本与体验。推理优化技术能降本,但往往在延迟或输出质量上有妥协。用户愿意为AI功能付多少溢价、容忍多少延迟,这个平衡点因场景而异,没有通用公式。

第三,开源与效率。开源方案提供灵活性和避免锁定,但闭源模型在特定任务上仍有性能优势。议程的偏向性不代表这个问题的答案已确定。

为什么这件事值得跟踪

QCon AI Boston 2026的议程设计本身即信号:AI工程的关注点正从"能力建设"转向"风险管控"。这不是技术热情的消退,而是技术成熟度的标志——当一项技术从实验室走向生产环境,工程问题的权重必然上升。

对于国内科技从业者,这场大会的参考价值在于其问题意识的超前性。国内大模型应用目前仍处于"卷Demo"和"卷参数"阶段,生产环境的系统性挑战尚未充分暴露。LinkedIn的上下文层实践、推理成本的架构级优化、非确定性系统的审计设计,这些议题的紧迫性将在12-18个月内显现。

数据层面,议程透露的行业转向已足够清晰:从3分钟Demo到24×7生产系统,中间隔着组织上下文工程、推理成本优化、可审计性设计三道坎。2026年6月的波士顿,将是观察这道坎怎么迈的重要窗口。