亚马逊把数据分析做成对话：企业 lakehouse 的自助化实验|amazon|亚马逊公司|客户端节点|知名企业|知识库|自助化实验

「让业务人员直接问数据要答案」——这个口号喊了十年，技术栈越堆越高，门槛却从没真正降下来。亚马逊这次拿自己的云服务做了一次完整演示，试图证明：agentic AI（自主智能体）+ 自然语言接口，可能是打破僵局的关键组合。

一个被反复验证的痛点

企业数据湖（data lake）和 lakehouse 的规模已经走到 PB 级，但提取 actionable insights（可执行洞察）的流程依然卡壳。

传统路径要求掌握 SQL、数据建模、BI 工具——技术门槛制造了瓶颈，决策速度被拖慢。零售、金融、医疗、旅游、制造业，无一幸免。

亚马逊的解决方案架构围绕一个核心假设：如果业务用户能用自然语言查询复杂结构化数据，同时混搭非结构化数据，能否真正实现自助式分析？

他们搭建了一套完整的演示环境来验证这个假设。

技术栈的选择逻辑

演示环境以 TPC-H 数据集为基准——这是一个行业标准的工作负载，模拟真实的业务数据模型（订单、客户、订单明细），确保结果可复现、有意义。

存储层用 Amazon Simple Storage Service（亚马逊简单存储服务，S3）；lakehouse 层用 Amazon SageMaker 和 AWS Glue；查询层用 Amazon Athena，支持跨多种存储格式的无服务器 SQL 查询（S3 Table、Iceberg、Parquet）。

关键创新在 Amazon Quick 的功能组合：仪表盘 + 对话式 AI 智能体，提供自然语言访问数据洞察的入口。

通过 Amazon Quick spaces 集成的知识库，这套架构试图在「 democratize lakehouse data access（民主化 lakehouse 数据访问）」和「保留企业级安全、治理框架、可扩展性」之间找到平衡点。

三种表格式的实战对比

演示刻意覆盖了三种不同的数据组织方式，测试灵活性边界：

外部表（external tables）——直接查询 S3 存储的数据，无需加载到托管存储层，模拟传统数据湖的核心能力。

Apache Iceberg 的开放表格式（Open Table Format，OTF）——引入 ACID 事务支持，解决数据湖长期缺失的更新一致性难题。

Amazon 托管的 S3 Tables——展示亚马逊如何在 S3 原生层面直接支持 Iceberg 兼容的表管理，简化大规模 lakehouse 架构的运维复杂度。

数据准备环节统一使用 Amazon Athena。首次使用者需要创建一个 S3 桶存储查询结果——Athena 强制要求 S3 作为输出位置才能运行查询。