「让业务人员直接问数据要答案」——这个口号喊了十年,技术栈越堆越高,门槛却从没真正降下来。亚马逊这次拿自己的云服务做了一次完整演示,试图证明:agentic AI(自主智能体)+ 自然语言接口,可能是打破僵局的关键组合。

一个被反复验证的痛点

打开网易新闻 查看精彩图片

企业数据湖(data lake)和 lakehouse 的规模已经走到 PB 级,但提取 actionable insights(可执行洞察)的流程依然卡壳。

传统路径要求掌握 SQL、数据建模、BI 工具——技术门槛制造了瓶颈,决策速度被拖慢。零售、金融、医疗、旅游、制造业,无一幸免。

亚马逊的解决方案架构围绕一个核心假设:如果业务用户能用自然语言查询复杂结构化数据,同时混搭非结构化数据,能否真正实现自助式分析?

他们搭建了一套完整的演示环境来验证这个假设。

技术栈的选择逻辑

演示环境以 TPC-H 数据集为基准——这是一个行业标准的工作负载,模拟真实的业务数据模型(订单、客户、订单明细),确保结果可复现、有意义。

存储层用 Amazon Simple Storage Service(亚马逊简单存储服务,S3);lakehouse 层用 Amazon SageMaker 和 AWS Glue;查询层用 Amazon Athena,支持跨多种存储格式的无服务器 SQL 查询(S3 Table、Iceberg、Parquet)。

关键创新在 Amazon Quick 的功能组合:仪表盘 + 对话式 AI 智能体,提供自然语言访问数据洞察的入口。

通过 Amazon Quick spaces 集成的知识库,这套架构试图在「 democratize lakehouse data access(民主化 lakehouse 数据访问)」和「保留企业级安全、治理框架、可扩展性」之间找到平衡点。

三种表格式的实战对比

演示刻意覆盖了三种不同的数据组织方式,测试灵活性边界:

外部表(external tables)——直接查询 S3 存储的数据,无需加载到托管存储层,模拟传统数据湖的核心能力。

Apache Iceberg 的开放表格式(Open Table Format,OTF)——引入 ACID 事务支持,解决数据湖长期缺失的更新一致性难题。

Amazon 托管的 S3 Tables——展示亚马逊如何在 S3 原生层面直接支持 Iceberg 兼容的表管理,简化大规模 lakehouse 架构的运维复杂度。

数据准备环节统一使用 Amazon Athena。首次使用者需要创建一个 S3 桶存储查询结果——Athena 强制要求 S3 作为输出位置才能运行查询。

打开网易新闻 查看精彩图片

Agentic AI 的介入点

整个架构的「智能层」由 Amazon Quick 的 agentic AI assistant(自主智能体助手)驱动。

它的核心任务是将自然语言请求转化为可执行的数据操作:理解业务问题 → 生成查询逻辑 → 调用 Athena 执行 → 整合结构化与非结构化数据源 → 返回可解释的洞察。

这里的「agentic」强调自主规划能力——不是简单的问答匹配,而是能够拆解多步骤任务、处理工具调用链。

但演示文档也暴露了边界:完整的端到端数据流和用户交互能力,需要参考架构图逐步配置,并非开箱即用的黑箱产品。

一个待解的张力

这套方案试图同时满足两组矛盾需求:

业务侧要「自助」——降低技术门槛,缩短从问题到答案的路径;

IT 侧要「可控」——安全、治理、审计、扩展性一个不能少。

Amazon Quick spaces 的知识库集成是连接两者的枢纽,但文档中「preserving enterprise-grade security, governance frameworks」的表述暗示:真正的治理复杂度被折叠进了配置细节,而非被消除。

换句话说,自助化的前提是后台有足够的基础设施投资——这不是一个「便宜」的解决方案。

为什么这次演示值得注意

这不是概念验证,是基于真实服务栈的可运行架构。TPC-H 基准的选择、三种表格式的并列测试、S3 Tables 的原生集成,都指向一个明确意图:证明亚马逊的云原生服务已经能够支撑「对话式数据分析」的完整闭环。

对于 25-40 岁的科技从业者,这个案例的价值在于拆解「AI + 数据」落地的真实成本结构——智能体不是魔法,它需要存储、计算、查询引擎、知识库、权限体系的层层配合。

亚马逊选择用自家服务生态完成拼图,但架构逻辑本身具有迁移性:任何具备类似能力组合的云环境,都可以复现这个思路。

当自然语言成为新的 SQL,数据团队的职责会往哪个方向迁移——是更专注于模型调优和治理策略,还是被进一步边缘化为基础设施运维?