做数据产品的都知道一个尴尬:BI 报表搭得再漂亮,业务方永远在群里@你"帮忙拉个数"。2023 年大模型刚火那会儿,网易智企数帆团队觉得机会来了——让业务自己用自然语言查数,ChatBI 听起来很美好。
结果上线才发现,"能问答"和"能分析"之间隔着一条马里亚纳海沟。业务问"上个月华东区销售额",系统可能把"华东"理解成数据库里的 region_code,也可能理解成销售团队自定义的片区划分——两边口径差出 30%,财务看了直摇头。更麻烦的是复杂分析:归因、下钻、跨表关联,ChatBI 要么答不上来,要么答完你不敢用。
这套困境不是网易一家的事。但凡试过用大模型直接对接业务数据库的团队,基本都踩过同样的坑:概率性生成遇上数据严谨性,像让诗人去当会计——灵感有余,精确不足。
2025 年 Agent 技术爆发,李卓豪团队换了个思路。不再追求"一句话出结果",而是让系统像资深数据分析师一样工作:先澄清意图,再规划步骤,每一步都可校验、可追溯。他们给这套新架构起了个名字,DataAgent。
技术细节上有几招值得记笔记。首先是"双轨语义层"——指标平台和模型宽表两层设计,把业务口径提前固化成标准化资产,大模型不再直接碰原始字段,从源头掐灭歧义。其次是多级评分机制,检索结果置信度不够时,系统会主动抛选择题:"您指的是财务口径的 GMV,还是运营口径的实付金额?" 这比强行给答案然后背锅体面多了。
最聪明的是 Skill 体系的乐高化设计。智能问数、归因分析、报告生成拆成可插拔模块,不同业务场景像拼积木一样组合。换句话说,DataAgent 不是一套固定产品,而是一个能持续生长的能力生态。
4 月 16 日到 18 日的 QCon 北京站上,李卓豪会完整复盘从 BI 到 ChatBI 再到 DataAgent 的踩坑实录。包括一个扎心细节:他们早期某种子客户 POC 时,系统把"Q1"理解成自然季度,但客户财务系统按财年走,一个字段错位导致整版分析报告重写——这种坑,文档里不会写,只有亲历者讲得出来。
如果你也在琢磨怎么让大模型正经干活而不是正经添乱,这场分享可能是近期最值得标记的日程之一。毕竟,看别人把 3 年的弯路压缩成 45 分钟,比自己从头趟一遍划算太多。
热门跟贴