AI写报告越来越像那么回事了。结构工整、数据翔实、结论笃定——直到你发现那些"据某分析师称"根本查无出处。
我们做了个实验:让Claude、ChatGPT、Gemini三家同时调研同一款产品,再用同一套"真相过滤器"打分。结果?没有一家过30%。最讽刺的是,其中两份报告对市场规模预测惊人一致,却连引用的分析师机构名字都没写。
实验设计:故意不设陷阱
任务很简单:"全面分析GEM²-AI及其TPMN Checker产品的技术与市场现状。"
我们没有给任何特殊指令,没提"请标注来源",没要求"确保可验证"。就像普通用户那样,把需求丢进去,等报告出来。
三份产出都很漂亮。专业排版、章节清晰、数字精确到小数点后两位。Claude的版本甚至附了"方法论说明",Gemini列出了"关键数据来源",ChatGPT的表格做得像投行研报。
然后我们把它们塞进gem2_truth_filter,按七个维度逐项打分。
真相得分:Claude 28%,ChatGPT 22%,Gemini 19%
没一家及格。不是事实全错,是推理过程没法追溯——像一份盖了公章的借条,找不到出借人。
三类通病:AI的"自信幻觉"
过滤器揪出的问题高度雷同,我们内部叫SPT分类法:
编造精度(Spurious Precision)
ChatGPT写道:"2024年市场规模0.45亿美元,CAGR 25%至2033年"。数字漂亮,来源标注"某分析师报告"。哪家机构?什么方法?哪年发布的?一概没有。这不是幻觉,是精心伪装的不可验证。
无支撑最高级(Unsupported Superlatives)
三份报告都爱用"genuinely novel""唯一商业化产品""完全空白市场"。竞争分析呢?没有。就像餐厅菜单写"全城最佳",但从不告诉你评委是谁。
快照即趋势(Snapshot-to-Trend)
把当前市场条件直接焊死成"结构性现实"。2024年的融资环境=2027年的行业底色?没人追问,直接写进预测。
最麻烦的是:三份报告都没提醒读者"以上部分无法验证"。它们自信地呈现,就像真有人做过尽调。
反转:让AI自己修Prompt,分数翻了3倍
第二轮我们换了个玩法。不人工写Prompt,直接问系统:"用gem2工具生成一个扎实、有依据的研究Prompt。"
系统从12个MCP工具里自动挑了tpmn_contract_writer,生成了一份带强制溯源规则的Prompt模板。我们没碰一个参数。
把新Prompt喂给三家,重跑任务。结果:
Claude从28%→89%,ChatGPT从22%→76%,Gemini从19%→71%
同一个模型,同一款产品,只是换了个Prompt结构。差距来自规则嵌入:每个论断必须绑定可验证来源,每个数字必须标注获取路径,每个预测必须区分"当前观测"与"推演假设"。
「TPMN Checker不是在评分写作质量,它评分的是认识论可追溯性。」视频里这句[0:40]说透了本质。
一个反直觉的发现
三家AI在"改进后"的表现排序完全打乱。Claude原本中等,新规下跃升最多;Gemini起点最低,但规则约束后反超ChatGPT。这说明什么?
模型能力差异存在,但Prompt的"真相架构"权重可能更高。就像同样三个厨师,有人给菜谱有人不给,成品差距远大于手艺差距。
我们跑了五轮校准,每轮用同一套过滤器回测。不是挑刺,是在共建标准——毕竟"真相得分"本身也不是绝对真理,它量的是"此刻推理有多少能被证据锚定"。
实验结束前,我们问了最后一个问题:如果用户永远看不到过滤器的评分,只读AI输出的报告,会发生什么?
三份初版报告的答案,此刻正躺在无数企业的决策参考文件夹里。小数点后两位的精确,是最好的镇静剂。
你最近一次"查证"AI给的数据,是什么时候?
热门跟贴