打开网易新闻 查看精彩图片
邮件线程是RAG系统的噩梦,这件事业内心知肚明,但没人愿意细说。iGPT团队最近做了一次测试:把同一封邮件丢给5个前沿大模型,结果它们集体翻车——不是答错,而是根本没看见重点。
测试场景很日常:一封包含多轮回复的商务邮件, buried in the thread 的是一个关键决策和截止日期。5个模型里,有的把旧版本当成了最终结论,有的直接跳过了发起人最后的补充说明。最讽刺的是,表现最好的那个也漏掉了附件里的预算表。
打开网易新闻 查看精彩图片
团队负责人事后总结:「现在的上下文工程,本质上是在教AI怎么像人一样翻聊天记录——但我们自己都经常翻错。」
问题的根源在于邮件这种格式的结构性混乱。时间线倒序、引用嵌套、签名档干扰,再加上「转发:转发:Re: Fwd:」这种信息废墟,RAG管道里的分块策略一碰就碎。iGPT的数据显示,标准RAG处理邮件线程时,关键信息丢失率高达34%,而用户往往意识不到AI漏看了什么。
打开网易新闻 查看精彩图片
团队正在尝试一种新的上下文压缩方案,核心思路不是让AI读得更长,而是让它先判断「这段对话里到底在吵什么」。目前内测版本的召回率提升了27%,但代价是响应速度慢了40%。
一位参与测试的产品经理在反馈里写:「我终于理解为什么我的AI助手总是答非所问了——它可能真的没看到我发的那句『但是』。」
热门跟贴