处理长文档是AI最常见的办公场景之一。但真正的问题不是AI能不能总结,而是总结结果能不能直接用。一份糟糕的总结——遗漏关键数据、抓错重点、或者自信满满地跳过重要章节——反而比没有更费时间。

为了找到答案,我选了一份公开的亚马逊121页投资者文件,用同一套提示词测试了Gemini、ChatGPT和Claude。测试标准很简单:谁在真实工作场景里最靠谱。

打开网易新闻 查看精彩图片

控制变量很严格。同一份PDF,同一个文件,同一道指令:要求输出结构化总结,包括核心要点、业务板块、财务表现、战略重点、风险因素,以及几个容易被忽略的细节

评判方式也完全按实际工作来。总结有没有覆盖文档的重要部分?用的是具体数字还是模糊表述?有没有编造不存在的内容?有没有漏掉关键风险?

结果很快分出高下。三家都能快速生成看似专业的总结,但在准确性、结构清晰度和信息完整度上,差距比预期更明显。对于需要真正依赖AI输出做决策的打工人来说,这个差距决定了工具是省时间还是制造更多麻烦。