打开网易新闻 查看精彩图片

AI引发的创新浪潮正在重塑每一种客户体验、每一家公司乃至每一个行业。而且,变革才刚刚开始,技术迭代的速度远超我们以往所见的一切。不久前,人们还在测试各类聊天机器人,如今几乎每天都有新的应用场景与技术方案诞生。

然而,许多企业尚未看到AI承诺的价值真正兑现,其真正潜能也尚未完全释放。不过,这一局面正在迅速改变:AI助手正逐步让位于能代人执行任务、将工作流自动化的AI Agent。

这是AI发展轨迹的拐点,标志着AI正从技术奇观变为创造真实价值的工具。AI Agent的到来,也是AI投资开始产生实质商业回报的起点。未来,数十亿个Agents将遍布每家公司、每个可想象的领域。这场变革对各行业的影响,将不亚于互联网与云计算的普及。

问题是,企业今天该如何出发?

01

普及AI Agent的美好前景与挑战

目前,Agent已在加速医疗发现、优化客户服务、提升薪酬处理效率等领域发挥作用;在某些场景中,Agent将个人效能提升了10倍,让人们有更多时间投入创新。若人人都能获得这般赋能,无疑是极具价值的愿景。

打开网易新闻 查看精彩图片

“在某些场景中,AI Agent将个人效能提升了10倍,让人们有更多时间投入创新。”

—— Matt Garman

亚马逊云科技CEO

然而,要迈向 AI Agent普及的未来,让每个组织都能从AI中收获实际价值与成果,说起来容易,做起来难。

每个Agent的核心都由三大关键组件构成:一、作为Agent大脑的模型,负责推理、规划与执行;二、定义 Agent身份的代码,明确Agent的能力并指引其决策流程;三、工具,为Agent注入生命力,如后端 API、知识库与数据库接口,执行现实操作的代码解释器或网络浏览器等。

要让Agent释放真正的价值,就必须将这些组件高效协同起来。这一任务,面临着 5 大挑战:

第一,企业需具备大规模、快速部署Agents的能力。这要求企业拥有可支撑业务从零快速扩展至数千并发会话的基础设施,通过完善的会话隔离机制支持Agents长时间稳定运行,并防止敏感数据在不同Agents间泄露;

第二,Agent必须具备处理海量数据、应对边缘案例的能力。要让Agent真正落地生产环境,需要为其配备精密的记忆管理系统,既能精准管理会话及交互过程中的上下文信息,又能跨会话记忆用户偏好;

第三,身份与访问管理的安全挑战。若缺乏完善的安全管控机制,Agent可能无意中访问或暴露不应接触的敏感数据。在生产环境中,必须建立固若金汤的身份与访问管理体系:既要精准验证用户身份,也要严格授权Agent访问对应工具的权限;

第四,实现与生产环境的无缝连接。当Agent进入生产环境时,绝不可能孤立运行,而是会融入更庞大的业务系统。Agent需与业务应用所需的API、数据库及各类服务安全集成;

第五,具备全链路可观测与快速调试能力。毕竟,无法观测的问题必然难以修复;一旦出现问题,必须快速定位并解决。

如何应对这些挑战?关键在于融合四大核心要素:

一是AI基础设施,能提供强大且具成本效益的算力支撑;二是推理系统,可提供丰富的模型选择及高性价比的模型服务;三是数据能力,能将企业独有数据高效转化为新的核心竞争优势;四是完整的系统化构建工具,让AI Agent的构建过程简单高效,且成果可信赖、高度可靠。

02

AI基础设施的5大属性

构建真正能创造价值的Agent,首要前提是拥有可扩展、强大的AI基础设施,为所有环节提供动力。即通过高度可扩展且安全的云服务,为AI工作负载提供极致性能,以低成本完成模型训练、定制与推理。

打开网易新闻 查看精彩图片

“AI会让攻击者也更高效,因此云提供商必须将安全作为最高优先级。”

—— Peter DeSantis

亚马逊云科技公用计算高级副总裁

这要求突破基础设施的可能性边界,为Agent系统与应用打造全新的基础构建模块,并以全新视角重构所有工作流程,强化云计算的5大基础属性:

安全性:不仅是好人利用AI提升效率,坏人也在使用相同的工具。AI让攻击者也更高效,云提供商必须将安全作为最高优先级;

可用性:AI应用的部署规模空前,需要经过最严苛工作负载考验的云基础设施;

弹性:AI工作负载需求激增,客户期望获得与Amazon S3相同的弹性体验;

成本:AI训练和推理的成本极高,成本控制能力成为关键竞争力;

敏捷性:企业的AI转型充满不确定性,需要具备快速启动、优化和调整的能力。

因此,亚马逊云科技围绕这5大属性所做的持续投入,不仅是为了解决过往的技术痛点,更成为支撑Agent落地的硬核基座。

2010 年,Amazon EC2 曾面临严重的虚拟化性能抖动问题。当时,业界普遍认为虚拟化永远无法达到裸金属性能,但亚马逊云科技通过深入优化,最终开发出 Amazon Nitro 系统,将虚拟化从服务器转移到专用硬件,完全消除了抖动问题,性能甚至超越裸金属。Amazon Nitro 的成功,开启了亚马逊云科技的自研芯片之路,也证明了通过掌控芯片、硬件与系统架构,能够实现商用硬件难以企及的性能与效率提升。这一理念也延续到了服务器处理器 Amazon Graviton与AI加速器Amazon Trainium的开发中。

最新一代服务器CPU Amazon Graviton5,实现了重大的架构突破。早期客户已在生产环境中验证了其卓越性能,多家企业的实践数据显示:Airbnb(爱彼迎) 实现了25%的性能提升,软件公司Atlassian 延迟降低20%,无人机公司Honeycomb 每核心性能提升36%,思爱普的SAP HANA OLTP查询性能提升 60%;苹果公司将核心服务用Swift重写并迁移至Amazon Graviton服务器后,实现了40% 的性能提升和30%的成本降低。

打开网易新闻 查看精彩图片

“最新一代服务器CPU Amazon Graviton5,已实现重大架构突破。”

—— Dave Brown

亚马逊云科技计算与机器学习服务副总裁

2013 年,亚马逊云科技的一个小团队提出了一个看似不可能的想法:让开发者只需提交代码,无需管理服务器(即 Serverless 架构)。这一创新想法,最终演变为 Amazon Lambda这一革命性的服务。它改变了应用开发模式,让开发者从代码而非服务器开始思考。十年后,Amazon Lambda仍是从概念到生产落地的最快路径之一。而Amazon Lambda Managed Instances(托管实例)的突破,重新定义了Serverless 计算,为视频处理、机器学习预处理、高吞吐量分析等传统上不适合Amazon Lambda的工作负载打开了大门。

推理请求的处理包含四大阶段:分词、预填充、解码、去分词。每个阶段对系统资源的需求完全不同:有的属于CPU密集型,有的属于GPU计算密集型,有的对内存带宽要求极高,有的则对延迟极为敏感。在全球规模的应用场景下,数千家客户、数百万级请求、数十种模型同时运行,且每个请求的资源配置会在流程中动态变化。这带来了前所未有的扩展挑战。亚马逊云科技从零开始研发,设计出Project Mantle推理引擎,为客户带来了更稳定的延迟表现、更高的吞吐量、更优的资源利用率以及更强的系统韧性。

在非结构化数据的整合与连接方面,Amazon Nova多模态嵌入模型,支持文本、文档、图像、视频及音频等多种数据类型,能将这些不同类型的数据转换为共享向量空间,从而实现对数据的统一理解。此外,亚马逊云科技已将向量能力集成至旗下所有数据服务中,使客户无需学习全新的技术栈即可快速应用。

在自研芯片的协同创新方面,Amazon Trainium3 服务器首次在同一服务器板上集成了Amazon Trainium、Amazon Graviton与Amazon Nitro三款自研芯片。该服务器的所有组件均支持顶部维护,且可实现全机器人组装,能够大幅加快部署速度。人工智能公司Anthropic已在 Amazon Trainium上完成Claude最新一代模型的训练与运行;Descartes AI(笛卡尔AI)通过使用 Amazon Trainium3与Nki优化实时视频生成模型,实现了4倍的帧率提升,并达成80%的张量核心利用率,这一表现远超传统 GPU 系统。

03

推理:按需定制模型的开放平台

在着手构建生成式AI应用时,企业首先需要明确的核心问题是:选择哪一个模型?哪一个模型能带来最优成本、最低时延以及最佳的回答质量?很多时候,问题的答案是组合使用多种模型——因为没有任何一款模型可以“包揽所有场景”。因此,一个安全、可扩展、功能完备的推理平台必不可少。

Amazon Bedrock正是这样的平台,可加速生成式AI应用的落地进程,助力企业从原型阶段快速迈向生产环节。企业可按需定制模型,以匹配自身的业务场景和性能要求,获得融合自有数据的工具,并按需添加各类安全防护机制。

如今,全球各行各业、不同规模的公司,包括BMW(宝马)、GoDaddy(一家提供域名注册和互联网主机服务的公司)、Strava(美国健身运动和社交应用平台)等超过 50 家企业,均在使用Amazon Bedrock。部分企业通过Amazon Bedrock处理的Token数量已突破万亿。

作为平台,Amazon Bedrock一直在持续、快速地丰富模型阵容。这其中,既有开源权重模型,也有专有模型;既有通用模型,也有专用模型;既有超大模型,也有轻量模型。过去一年,Amazon Bedrock 提供的模型数量几乎翻了一番,还将引入 Google(谷歌)的Gemma、MiniMax(上海稀宇科技)的M2、NVIDIA(英伟达) 的Nemotron,以及Mistral AI(法国米斯特拉尔)的Mistral Large和Mistral 3等开源权重模型。

除了第三方模型,亚马逊云科技自研的基础模型家族Amazon Nova也在不断扩展,支持更多使用场景,不仅赢得Dentsu(日本电通)这样的营销巨头的认可,还受到Infosys(印孚瑟斯)、Blue Origin(蓝色起源)、Robinhood (罗宾汉)等科技领军企业,以及NinjaTech AI(忍者科技)这类创新型初创公司的青睐。最新版本的Amazon Nova 2,可提供兼具成本优化、低时延与前沿智能的模型。其中,Amazon Nova 2 Omni是业内首款同时支持文本、图像、视频和音频输入,并可生成文本和图像的多模态推理模型。

Amazon Bedrock与Amazon Nova让企业拥有充分的选择自由:需要效率时调用高效模型,需要算力时启用强大模型,需要复杂推理时则使用高推理能力模型。内容营销公司 Gradial正借此打造极具实用价值的能力,破解创意落地执行的最大瓶颈。目前,营销内容运营仍高度依赖人工,流程繁琐——从创意简报到最终上线,需要 4~6 周时间,涉及多达20个环节,需设计师、工程师、文案和网站策略师等多个角色协同完成。Gradial编排的AI Agents,不仅能无缝衔接不同系统和角色,大幅加速从创意到落地的全过程,还能提供精准的内容优化建议,助力企业高效触达并转化目标受众。

04

数据:强化竞争优势的关键

AI能否为企业和用户创造巨大价值,关键在于能否让AI深入理解企业的独有数据。企业的独有数据是构建差异化竞争优势的核心资产。如果 Agent能更深入地理解业务、数据和工作流程,就能解锁更多应用可能。

释放Agent真正价值的核心要义,是将大模型与企业的独有数据及知识产权深度融合。这首先需要将企业数据迁移至云端,在此基础上,确保模型能够安全、高效地访问与使用这些数据。

第三方模型最初通常无法理解企业的专属业务,也无法访问企业专有数据。企业也不愿让第三方模型接触这些数据——毕竟没有企业愿意将自身专有数据嵌入公共模型,进而被竞争对手或其他方利用。这正是Amazon Bedrock内部设立严格数据隔离机制的原因所在。

企业可以通过 RAG(检索增强生成)或向量数据库等技术,在推理阶段为所选模型动态注入上下文信息,帮助模型在企业的海量数据中精准导航,返回高度相关的结果。然而,这类方法的效果终究存在局限,企业更期望通过某种方式,让模型真正理解自身的业务数据,并深度掌握企业积淀的深厚领域知识与专业经验。例如,某家硬件企业正致力于加速新产品研发进程,其理想的模型能力是:能够理解企业过往的产品设计逻辑、制造工艺偏好、项目成功与失败案例,以及现有流程的各类约束条件,并整合所有这些信息,为设计工程师提供智能、精准的决策指导。

既然如此,企业为何不直接训练一个专属的定制模型呢?可行的路径主要有两条。第一条路径是从零开始构建企业专属模型,将企业的专有数据深度融入模型训练过程。然而,这种方式不仅成本极高,还很可能无法获取构建模型通用智能所需的全部数据;即便数据储备充足,企业也可能缺乏预训练“前沿大模型”所需的技术能力与经验。因此,对大多数企业而言,这条路径并不具备可行性。

第二条路径是从开源权重模型入手,再通过技术手段对模型进行定制化修改。这种方式的核心优势是具备极高的灵活性,企业可通过微调、强化学习等技术手段调整模型权重,从而打造出高度聚焦于自身核心业务场景的专用模型。然而,实践证明这种方法同样存在显著局限:想要让模型掌握预训练阶段未曾接触过的全新领域知识,难度极高;更关键的是,模型的定制化程度越高、注入的专有数据越多,就越容易出现“遗忘”现象,丢失早期预训练获得的核心能力,尤其是关键的核心推理能力。这一现象类似于人类学习新语言的过程:若在幼年时期学习,往往更容易掌握;若成年后才开始学习,难度则会显著提升。模型的定制化训练同样面临类似的挑战。

Amazon Nova Forge则探索出了第三条创新路径——开放训练模型。通过这一平台,企业可独家访问多个Amazon Nova模型的训练检查点,并在模型训练的全流程中,将企业专有数据与亚马逊云科技精心设计的训练数据集进行深度融合,最终生成一款既能深刻理解企业业务数据,又不会遗忘原有核心能力的企业专属模型。

大型社交新闻与内容分享平台Reddit(红迪网),在其聊天与搜索业务场景中,尝试利用生成式 AI对平台内容进行多维度安全审核,但审核效果始终未达预期。Reddit曾进行过多轮尝试,例如微调现有模型,甚至尝试为不同安全审核维度分别部署多个模型,但仍难以满足其社区特有的内容审核需求。借助Amazon Nova Forge,Reddit在模型预训练阶段就将其专有的社区数据进行深度整合,使模型能够形成独特的“融合表征”能力,从而自然地将模型的通用语言理解能力,与Reddit社区特有的知识体系深度结合。Reddit也因此首次成功构建出一款同时满足高准确性、高成本效益,且更易于部署与运维的专属安全审核模型。

05

工具:围绕四大支柱构建生产级Agent

AI Agent足以成为科技史上的关键转折点。人们不再受限于代码语法的熟悉度,也无需记住成百上千的API调用与参数,只需用自然语言描述想要实现的目标,Agent就会生成方案、编写代码、调用工具、执行完整解决方案。同时,有了Agent,以往需数年的工程开发,现在仅需数月;过去需数月的任务,如今可压缩至数周甚至数日。因此,全球的构建者正借助Agent解决极其复杂的难题,构建前所未有的创新事物。

打开网易新闻 查看精彩图片

“大多数企业陷入了‘概念验证监狱’的困境,使得无数精彩的Agent原型无法走向生产环境。”

—— Swami Sivasubramanian

亚马逊云科技Agentic AI副总裁

然而,现实的核心难题在于,构建与扩展这些强大的Agent,往往比它们要解决的难题更为复杂。其结果是,大多数企业陷入了“概念验证监狱”(POC Jail)的困境,无数精彩的Agents原型无法走向生产环境。这就要求有一套完备、系统的工具链,让Agent易于构建、高效运行、可信可控、稳定可靠。

1

易于建构

第一步,构建Agent应该极为简单,能让开发者用最少代码创建Agent。这正是 Amazon Strands Agents SDK的特点。对TypeScript的原生支持,使其能适配这一全球最流行的编程语言之一;而对边缘设备的支持,则让Strands解锁了汽车、游戏、机器人等领域的全新应用场景。现在,几乎每位开发者都能在笔记本电脑上试验与构建Agent。

第二步,填补从概念验证(POC)到生产落地的鸿沟,同样应该简单易行。一个真正智能且行为可控的托管系统,如Amazon Bedrock AgentCore正是为此而生。它能解决一系列核心问题:身份与访问管理;管控 Agent的交互过程与行为边界,同时保障Agent能够自由推理、采取最佳行动并响应业务请求;能够在数千个模拟场景中评估与测试Agent;不仅能通过“短期记忆”能力处理即时对话流,通过“长期记忆”能力捕捉跨会话的洞察,更具备情境记忆(Episodic Memory)能力,记住用户行为背后的时间背景与触发原因,从过往经验中学习——将每一次交互存储为独立的情境片段,在新的对话时自动识别相似情境片段中的行为模式,并主动提供切实可行的解决方案。这就像人类记住生命中的特定事件那样,经历得越多,Agent就越聪明。例如,用户独自出差时,Agent会自动预订航班起飞前 45 分钟到达机场的专车;用户拖家带口旅行时,Agent会自动识别过往的相似经验,将提前45分钟的专车调整为提前两小时。

2

高效运行

效率不仅关乎成本控制,还包含延迟(响应速度)、规模(流量峰值处理能力)、敏捷性(迭代速度)三大核心维度。大多数Agents将时间花在编写代码、分析搜索结果、创建内容、执行预定义工作流等常规性工作任务上。因此,如果能为这些高频场景的任务定制专用模型,就能大幅提升Agent的运行效率。

具体而言,有几项核心技术可显著提升效率。第一,监督微调技术,可将Agent从 “通才”培养为垂直领域的“专家”,就像把全科医生训练成心脏病专家,使其精准聚焦于特定业务需求。第二,模型蒸馏技术。当面临内存不足等硬件限制,或需部署更轻量、更快速的模型时,企业可选择模型蒸馏技术。这一过程类似于行业大师培养聪慧学徒:“弟子”不仅会模仿导师输出答案,更能学习其底层的思考逻辑与推理路径,掌握导师的置信度水平、决策逻辑模式乃至核心识别策略。蒸馏模型往往能带来10倍的推理速度提升,同时保留导师模型 95%~98% 的核心性能,可谓事半功倍。第三,强化学习技术,包括基于人类反馈的强化学习 (RLHF) 与基于 AI 反馈的强化学习 (RLAIF) 两种核心范式。一般而言,传统强化学习的研发投入大、周期长,并非普通企业能够承受。因此,Amazon Bedrock设计出“强化微调功能”,以扫清所有技术难关、降低研发成本,帮助客户提升模型的任务执行精度,使客户无需深厚的机器学习专业知识,也不必准备海量标注数据,即使是普通开发者也能轻松上手。

3

可信可控

你的Agent会将资金转到正确的账户吗?当它们代表你操作时,会严格遵守当地的法律法规吗?你是否愿意授予Agent访问信用卡的权限?它会不会拿着你的资金去进行非必要的消费?这些问题的核心,都关乎大语言模型的“幻觉”问题——即模型在面对复杂规则或逻辑推理时,容易产生错误输出。更糟糕的是,大语言模型还可能被恶意行为者诱导,产生有害行为。

这样的Agent显然无法在生产环境中长期部署,在涉及资金安全、人身安全等敏感事务时,更不能让它们投入使用。然而,如果对Agent完全缺乏信任,企业就会采取过度保守的策略,在每个执行步骤都引入额外的人工审核监督,或通过硬编码(hard code)的方式固定所有执行步骤。这两种方式都会大幅削弱Agent的创造性与自主决策能力。

亚马逊云科技用神经符号AI(Neuro-Symbolic AI)技术——即形式推理与大语言模型的深度融合,来破解这一难题。这一技术能够在Agent的构建初期,就轻松为其设定清晰的约束条件,既给予Agent尽可能多的自主运作空间,同时又明确其安全运作的边界范围,并确保Agent会严格遵循这些约束条件,即便约束条件十分微妙或复杂。2025年夏天正式发布的全新Agentic IDE(集成开发环境)——Amazon Kiro,就可让开发者通过自然语言描述来定义整个应用程序或功能特性的需求,自动分析应用需求、识别验收标准并转换为标准化规范,进而指导代码生成、测试用例生成,甚至可形式化证明程序的正确性。

4

稳定可靠

部分Agents能够准确完成单次任务,但当要求它们重复执行时,却容易出现偏差,更无法保障持续、稳定的重复执行。

21世纪初期,企业流程自动化的核心挑战,主要由机器人流程自动化(RPA)技术解决。大语言模型适应复杂业务场景的能力,远胜于传统 RPA 技术。它们能够操控浏览器、通过逻辑推理解决复杂问题、实现端到端工作流自动化,甚至可跨不同系统界面协同运作。然而,编排这些大语言模型的运作流程极为复杂,因此,为其构建完善的错误处理与流程回溯机制至关重要。在传统自动化脚本中,工程师能够确切定位错误发生的节点;而大语言模型可能需要在错误路径上执行多次操作后,才会意识到问题所在。因此,对许多企业而言,使用这些大语言模型开展大规模的企业流程自动化操作,不仅耗时耗力,还容易出错,实用性较低。

那么,能否让大语言模型的自动化能力,从一开始就兼具简单易用性与高可靠性呢?答案并非仅仅是训练更优秀的模型,更需要将优质模型整合为端到端自动化服务的核心组成部分。Amazon Nova Act便是专为构建与管理自动化生产级UI工作流的AI Agent团队打造的平台,在企业级复杂工作流场景中,已实现 90%的高可靠性表现。其独特之处在于,并非“在罐子里培养大脑”(仅训练模型能力),而是让“大脑”(模型)与“手脚”(执行工具)协同训练,实现“出厂即能稳定运作”。

传统的模仿学习方式,仅能让Agent观察并模仿专家的操作行为,但Agent永远无法理解这些行为背后的因果逻辑关系。因此,亚马逊云科技转向了强化学习技术,打造了数百个强化学习“健身房”——即模拟真实企业环境的训练平台,涵盖 CRM、HR 系统、任务跟踪器等各类业务系统的模拟环境。在这些“健身房”中,Agent可运行数千个典型工作流,通过数十万次交互进行试错学习。每次成功完成任务会获得正向奖励,每次失败则会获得负向惩罚。通过这种强化学习方式,Amazon Nova Act能够可靠地解决真实世界中的各类企业级业务用例。在RealBench、ScreenSpot等关键行业基准测试中,Amazon Nova Act的表现与业界最佳模型相当,甚至更为出色。

我们正处于一个前所未有的变革时代,AI Agent技术将彻底重塑企业的核心运营方式。基于强大且具成本效益的AI基础设施、丰富的模型选择与高性价比的推理系统、能将企业数据转化为核心竞争优势的工具链,以及完整的AI Agent构建与管理系统这四大核心支柱,企业将真正收获AI的全部价值。随着数十亿Agents在各行各业规模化落地运行,企业将实现全方位的 10 倍效率跃升,解锁未来的无限创新可能。

扫码获取专刊内容

内容来源:《迈向AI Agent普及的未来》专刊