打开网易新闻 查看精彩图片

Vaquar Khan在AWS干了22年,最近带着团队搞了个实时Agentic RAG系统。这东西听起来唬人,核心就解决一个老毛病:AI agent查资料时,数据已经过期了——他们管这叫"Context Rot",上下文腐烂。

打开网易新闻 查看精彩图片

传统RAG像图书馆管理员,每次查完把书塞回原位,下次来可能还是那本旧书。Khan的方案用了Apache Spark和Iceberg,数据更新像外卖实时配送,agent拿到的永远是热乎的。

打开网易新闻 查看精彩图片

他在技术博客里写了一句:「Agentic AI without real-time data is like a GPS using last year's road map.」翻译过来:用过期数据的AI agent,就是拿去年地图导航今年路况。

这套架构把数据管道切成冷热两层。热数据走Spark流处理,毫秒级喂给agent;冷数据沉在Iceberg表里,想回溯哪天都行。Khan团队测过,延迟从小时级压到秒级,agent幻觉率降了四成。

不过有个细节他没明说:Iceberg的元数据管理本身也是开销,数据量暴涨时,查询计划生成会变慢。有开发者在评论区吐槽,说自家系统数据过TB后,优化器开始"思考人生"。Khan回复说正在搞增量元数据缓存,下季度放出来。