谷歌Claude们同时栽了：3家AI测同一产品

字节漫游指南

2026-03-30 13:45 ·北京

AI写报告越来越像那么回事了。结构工整、数据翔实、结论笃定——直到你发现那些"据某分析师称"根本查无出处。

我们做了个实验：让Claude、ChatGPT、Gemini三家同时调研同一款产品，再用同一套"真相过滤器"打分。结果？没有一家过30%。最讽刺的是，其中两份报告对市场规模预测惊人一致，却连引用的分析师机构名字都没写。

实验设计：故意不设陷阱

实验设计：故意不设陷阱

任务很简单："全面分析GEM²-AI及其TPMN Checker产品的技术与市场现状。"

我们没有给任何特殊指令，没提"请标注来源"，没要求"确保可验证"。就像普通用户那样，把需求丢进去，等报告出来。

三份产出都很漂亮。专业排版、章节清晰、数字精确到小数点后两位。Claude的版本甚至附了"方法论说明"，Gemini列出了"关键数据来源"，ChatGPT的表格做得像投行研报。

然后我们把它们塞进gem2_truth_filter，按七个维度逐项打分。

真相得分：Claude 28%，ChatGPT 22%，Gemini 19%

没一家及格。不是事实全错，是推理过程没法追溯——像一份盖了公章的借条，找不到出借人。

三类通病：AI的"自信幻觉"

三类通病：AI的"自信幻觉"

过滤器揪出的问题高度雷同，我们内部叫SPT分类法：

编造精度（Spurious Precision）

ChatGPT写道："2024年市场规模0.45亿美元，CAGR 25%至2033年"。数字漂亮，来源标注"某分析师报告"。哪家机构？什么方法？哪年发布的？一概没有。这不是幻觉，是精心伪装的不可验证。

无支撑最高级（Unsupported Superlatives）

三份报告都爱用"genuinely novel""唯一商业化产品""完全空白市场"。竞争分析呢？没有。就像餐厅菜单写"全城最佳"，但从不告诉你评委是谁。

快照即趋势（Snapshot-to-Trend）

把当前市场条件直接焊死成"结构性现实"。2024年的融资环境=2027年的行业底色？没人追问，直接写进预测。

最麻烦的是：三份报告都没提醒读者"以上部分无法验证"。它们自信地呈现，就像真有人做过尽调。

反转：让AI自己修Prompt，分数翻了3倍

反转：让AI自己修Prompt，分数翻了3倍

第二轮我们换了个玩法。不人工写Prompt，直接问系统："用gem2工具生成一个扎实、有依据的研究Prompt。"

系统从12个MCP工具里自动挑了tpmn_contract_writer，生成了一份带强制溯源规则的Prompt模板。我们没碰一个参数。

把新Prompt喂给三家，重跑任务。结果：

Claude从28%→89%，ChatGPT从22%→76%，Gemini从19%→71%

同一个模型，同一款产品，只是换了个Prompt结构。差距来自规则嵌入：每个论断必须绑定可验证来源，每个数字必须标注获取路径，每个预测必须区分"当前观测"与"推演假设"。

「TPMN Checker不是在评分写作质量，它评分的是认识论可追溯性。」视频里这句[0:40]说透了本质。

一个反直觉的发现

一个反直觉的发现

三家AI在"改进后"的表现排序完全打乱。Claude原本中等，新规下跃升最多；Gemini起点最低，但规则约束后反超ChatGPT。这说明什么？

模型能力差异存在，但Prompt的"真相架构"权重可能更高。就像同样三个厨师，有人给菜谱有人不给，成品差距远大于手艺差距。

我们跑了五轮校准，每轮用同一套过滤器回测。不是挑刺，是在共建标准——毕竟"真相得分"本身也不是绝对真理，它量的是"此刻推理有多少能被证据锚定"。

实验结束前，我们问了最后一个问题：如果用户永远看不到过滤器的评分，只读AI输出的报告，会发生什么？

三份初版报告的答案，此刻正躺在无数企业的决策参考文件夹里。小数点后两位的精确，是最好的镇静剂。

你最近一次"查证"AI给的数据，是什么时候？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴