打开网易新闻 查看精彩图片

无状态AI模型只能提供一次性回答,无法保留之前会话的上下文信息。虽然这种方式在短期内有用,但对于更复杂的多步骤场景来说存在明显不足。为了克服这些局限性,OpenAI推出了"有状态AI"。

该公司宣布将与亚马逊合作,推出有状态运行时环境,旨在简化AI智能体的生产部署流程。该环境将原生运行在Amazon Bedrock上,专为智能体工作流定制,并针对AWS基础设施进行优化。

值得注意的是,OpenAI同时发布声明强调,与其他公司的合作不会改变其与微软合作关系的条款。Azure将继续作为无状态OpenAI API的独家云服务提供商。

Northwest AI Consulting的Wyatt Mayham表示:"这是一个巧妙的结构性举措。各方都能宣称获胜,但潜台词很明确:OpenAI正在成为一家多云公司,独家AI合作伙伴关系的时代正在结束。"

有状态运行时环境的技术优势

OpenAI表示,Amazon Bedrock上的有状态运行时环境专为执行需要考虑上下文的复杂步骤而构建。模型可以传递内存和历史记录、工具和工作流状态、环境使用情况,以及身份和权限边界。

分析师认为,这代表了一种新范式。

Mayham解释说,无状态API调用就像"白板",模型不记得刚才做了什么、调用了哪些工具,或者在多步骤工作流中处于什么位置。

他表示,虽然这对于回答一次性问题的聊天机器人来说没问题,但对于真正的运营工作来说"完全不够",比如处理需要跨越五个不同系统、需要审批、耗时数小时或数天才能完成的客户索赔。

Mayham说,新的有状态能力为AI智能体提供了持久的工作内存,使它们能够跨步骤携带上下文、维护权限,并与真实的企业工具交互,而无需开发人员"用胶带把无状态API调用拼凑在一起"。

此外,他指出,Bedrock基础很重要,因为许多企业工作负载已经在那里运行。OpenAI和亚马逊是在企业所在的地方与它们会面,而不是要求它们重新架构安全、治理和合规态势。

他说,这使得中型市场公司能够使用复杂的AI自动化,它们不再需要一个工程师团队"从头开始构建管道"。

Greyhound Research首席分析师Sanchit Vir Gogia将有状态运行时环境称为"控制平面转移"。他指出,无状态对于摘要、代码辅助、起草或独立工具调用等单一交互来说可能很"优雅",但有状态环境为企业提供了"托管编排基础"。

Gogia表示,这支持涉及链式工具调用、长时间运行的流程、人工审批、系统身份传播、重试、异常处理和审计跟踪的真实企业工作流,而Bedrock强制执行现有的身份和访问管理(IAM)策略、虚拟私有云(VPC)边界、安全工具、日志标准和合规框架。

他说:"大多数试点失败是因为上下文在调用之间重置、权限不一致、Token在工作流中途过期,或者智能体在中断后无法安全恢复。"这些问题在有状态环境中可以避免。

企业需要考虑的风险因素

然而,Gogia强调,企业还需要考虑二阶因素。值得注意的是,状态持久性会增加攻击面。这意味着持久内存必须加密、受治理且可审计,工具调用边界应该"严格控制"。此外,工作流重放机制必须是确定性的,可观察性要足够细粒度以满足监管机构的要求。

Gogia说,还存在"微妙的锁定维度"。当编排转移到超大规模云服务商的原生运行时内部时,可移植性可能会降低。CIO需要考虑他们未来的智能体架构是保持云可移植性,还是锚定在AWS环境中。

他说,最终,这一新产品代表了市场转向:智能层正在被商品化。

Gogia表示:"我们正在从模型竞赛转向控制平面竞赛。现在的战略问题不是哪个模型最聪明,而是:哪个运行时堆栈能够保证大规模的连续性、可审计性和运营弹性?"

OpenAI与微软、AWS的平衡策略

微软和OpenAI今天关于合作伙伴关系的联合声明呼应了OpenAI在2025年10月对合作的类似重申。合作关系仍然"强大且核心",两家公司甚至称其为"技术领域最重要的合作之一",专注于研究、工程和产品开发。

两家公司强调:

微软保持对OpenAI模型和产品的知识产权(IP)的独家许可和访问权。

OpenAI的Frontier和其他第一方产品将继续托管在Azure上。

人工通用智能(AGI)的合同定义以及"确定是否已实现的流程"保持不变。

持续的收入分成安排将保持不变;该协议始终包括OpenAI与其他云服务提供商合作的收入分成。

OpenAI可以灵活地在其他地方投入算力,包括通过Stargate项目等基础设施计划。

两家公司都可以独立追求新机会。

Mayham说:"那份联合声明读起来像是由三家律师事务所同时起草的,这就是重点。"

他说,协议的核心是Azure仍然是无状态OpenAI API的独家云服务提供商。这使得OpenAI能够在AWS上建立一个不在微软控制范围内的新类别。

他指出,OpenAI最终是在"走钢丝",因为它需要将分销扩展到Azure之外,以接触AWS客户,这些客户占据了企业市场的很大一部分。同时,他们必须确保微软不会觉得其1350亿美元的投资"在战略价值上被稀释了"。

Gogia称这份声明为"结构性保证"。OpenAI必须在多个云上扩展分销,因为企业买家要求多云灵活性。他们不想被限制在单一云上;他们想要架构选择性。

此外,他指出,"CIO和董事会不希望供应商不稳定。超大规模云服务商冲突风险现在是董事会层面的关切。"

1100亿美元融资锁定算力供应

与此同时,OpenAI表示,来自英伟达、软银和亚马逊的1100亿美元新融资将使其能够扩大全球影响力并"深化"基础设施。重要的是,该融资包括使用3GW的专用推理容量和在英伟达Vera Rubin系统上的2GW训练容量。这建立在已经在微软、Oracle云基础设施(OCI)和CoreWeave上运行的Hopper和Blackwell系统之上。

Mayham称这是"标题中的标题"。

他说:"现金不能构建AI产品;算力才能。"目前,获得下一代英伟达硬件是"地球上每家AI公司的真正瓶颈"。

OpenAI本质上是在锁定为其所有业务提供动力的芯片的"有保障供应线"。Mayham说,来自这三家公司的资金为运营和基础设施提供资金,但英伟达的容量和训练使OpenAI能够使用前沿基础设施。"如果你得不到处理器,现金只是躺在银行账户里。"

推理现在是AI中最大的成本驱动因素之一,Gogia指出,前沿AI系统受到物理基础设施的限制;GPU、高带宽内存(HBM)、高速互连和其他硬件,以及电网级电力容量,都是有限资源。

当前的举措使OpenAI更深入地嵌入基础设施堆栈,但风险是集中化。当算力控制集中在少数超大规模云服务商和芯片供应商中时,系统可能变得脆弱。为了保护自己,Gogia建议企业监控供应链集中度。

他说:"然而,从战略角度来看,这一举措增强了OpenAI的持久性。它确保了维持前沿模型扩展和企业推理增长所需的物理基础。"

Q&A

Q1:什么是有状态AI?它和无状态AI有什么区别?

A:有状态AI能够保留之前会话的上下文信息、内存和历史记录,可以跨步骤携带上下文、维护权限,并与企业工具交互。而无状态AI只能提供一次性回答,不记得之前做了什么或调用了哪些工具,就像"白板"一样。有状态AI更适合需要跨多个系统、需要审批、耗时较长的复杂企业工作流。

Q2:OpenAI在AWS推出有状态AI会影响与微软的合作吗?

A:不会改变核心合作条款。Azure仍然是无状态OpenAI API的独家云服务提供商,微软保持对OpenAI模型和产品知识产权的独家许可,OpenAI的Frontier等产品继续托管在Azure上。有状态AI是在AWS上建立的新类别,不在微软的控制范围内,这使OpenAI成为多云公司,同时保持与微软的战略合作关系。

Q3:OpenAI获得的1100亿美元融资主要用于什么?

A:这笔来自英伟达、软银和亚马逊的融资将用于扩大全球影响力和深化基础设施。关键是获得算力资源:包括3GW的专用推理容量和在英伟达Vera Rubin系统上的2GW训练容量。因为获得下一代英伟达硬件是AI公司的真正瓶颈,这笔融资本质上是锁定芯片供应线,确保OpenAI能够维持前沿模型扩展和企业推理增长。