“煤炭(Coal)出自《Minecraft》,是可再生资源,收获来自煤矿石以及击杀凋灵骷髅获得1—3个……”当这样的内容出现在一份售价高达7600元的《2023—2028年中国煤炭行业竞争格局发展趋势预测报告》中时,着实让人哭笑不得。

这份本该专业、严谨的报告,却因AI幻觉闹出了“乌龙”,将游戏《我的世界》中的煤炭获取方式当成了现实世界的事实。报告发布方上海观知海内信息咨询有限公司对此解释为“网页BUG”,否认报告由AI生成。

类似事件已屡见不鲜。许多网友不禁质疑:为何我的DeepSeek模型总是在一本正经地“胡说八道”?

有业内人士对未来图灵表示,“AI产生幻觉,就是因为知道的东西太多了。”

AI的“脑补”能力比编剧还强

AI幻觉(Artificial Intelligence Hallucination)是指大型语言模型生成看似合理、逻辑连贯却与现实严重不符的内容。

正如Anthropic首席执行官Dario Amodei在5月22日旧金山举行的Anthropic首个开发者活动“Codewith Claude”新闻发布会上所指出的:现有AI模型普遍存在“幻觉”问题即编造事实并将其包装成真实情况。

甚至AI编得比真的还真。

4月25日,加拿大安大略省高等法院审理一起涉及已故男子的复杂遗产与家庭法动议案件时,法官迈尔斯(Myers)发现代理律师Hanna Ko的法律文件存在异常:文件中包含不存在案件的链接、对真实案件的误读,以及疑似“人工智能幻觉”的内容。

在本案中,律师在公开法庭上积极引用了其中三起可疑案件作为其陈述的一部分。上述三个未知案件在West law、Quick law或Google网站上都找不到。也许案件的超链接是错误的。法院迅速而坚定地明确表示,无论技术如何,律师都不能依赖不存在的权威机构或与提交内容相反的案例。

后来,律师在听证会前发现了自己的错误,向所有人道歉,并撤回了其陈述的事实。

迈尔斯法官在判决中指出:“律师的陈述似乎是由人工智能创建的,在提交陈述并在法庭上依赖它之前,律师可能没有检查以确保案件是真实的,或者支持律师以书面形式提交给法庭然后再次口头提交的法律主张。”

5月6日,加拿大安大略省高等法院认定,该律师使用ChatGPT等AI工具起草包含虚构案例的法律文件、以此作为论证先例的行为,属于程序滥用。迈尔斯法官认为“律师可能严重违反了职责,这在法庭上构成藐视法庭罪。”

5月22日,未来图灵团队拜访上海阶跃星辰。据相关负责人分享,在今年2月22日举办的2025全球开发者先锋大会(GDC)上,香港科技大学校董会主席、美国国家工程院外籍院士沈向洋发表了《大模型时代的创新与思考》的演讲。

沈向洋院士在发言时举了个例子,“冬天能穿多少穿多少,夏天能穿多少穿多少。” 他提到,通常大模型很难理解这句话的含义,但使用阶跃星辰在2月18日开源的语音模型却能够理解。该语音模型的底层也是TTS(Text To Speech),它能够解读出,在中国话里,冬天你要尽量多穿,夏天你要尽量少穿。

为什么AI总在“即兴创作”?

枫清科技创始人兼CEO高雪峰曾指出,“幻觉”是大模型以概率为核心的技术基底自带的弊端。

业内人士也指出,“幻觉”是大模型的“基因”问题,它本质上是根据每个词出现的概率来选择回答,所以很容易编出一篇看起来很流畅但完全不符合事实的回答。

5月2日,宁波发生保时捷司机弯道超车碰撞摩托车事件,司机更换车牌逃避责任的行为引发舆论关注。5月5日警方通报事故处理结果后,有网友发现宁波交警官方抖音账号已注销,随即引发“账号注销与事故相关”的猜测。随后根据一些网友提出的图片发现,部分AI搜索软件更直接将注销原因指向该交通事故,成为谣言传播的推手。

事实上,宁波市公安局交通管理支队已明确澄清,宁波市公安局交通管理支队政工纪检室副主任张以杰向《新闻有观点》表示,账号注销流程始于2024年12月13日,系响应上级要求整合新媒体平台资源,并于2025年2月6日完成注销,与今年5月的事故在时间上完全错位。

对此,工信部信息通信经济专家委员会委员刘兴亮表示,AI模型生成内容的原理主要依赖于训练数据中的语言模式与统计数据关联,其结果是基于概率的推导,而非对事实的理解。

这种特性可能导致AI在用户提问时,根据关键词关联性生成看似合理却错误的回答,具体体现在两方面关联:一是数据关联,例如历史案例中事故与政务账号调整存在高概率关联,AI可能因这种概率统计而输出错误内容;二是时间线关联,当公众发现如“宁波交警账号注销”事件与“保时捷事故”时间相近,缺乏实时数据更新能力的AI可能基于过去类似案例的概率,将时间接近但风马牛不相及的事件进行因果勾连,从而产生谣言。

另外,行业从业人员对未来图灵表示,结合企业本地数据,可以有效解决幻觉问题就像原来在阿里再厉害的员工,到了字节,如果不知道字节的规章制度和历史资料,估计也是干不好的。

“有时候大模型不知道或者知道的不准确,就对付一个出来,毕竟它靠的是概率预测,只是生成式的智能……也不单看数据,还要看对数据的处理能力,中间会涉及到很多技术方案。首先是要把数据加工成大模型可以理解的知识,其次还得有对数据校验的能力。”该人员说道。

有人给AI“投毒”?

当前,行业内部对AI幻觉的认知存在明显分歧。

Dario Amodei提出:“我怀疑AI模型的幻觉可能比人类少,不过它们的幻觉方式更令人惊讶。”他认识幻觉并不是Anthropic通往AGI(具有人类水平或更高智能的AI系统)道路上的限制。

而谷歌DeepMind首席执行官Demis Hassabis则持相反立场,他表示,当今的人工智能模型存在太多“漏洞”,并且在许多明显的问题上答错。

颇具戏剧性的是,Anthropic自身近期陷入“幻觉争议”漩涡。5月初,一位Anthropic的代理律师在法庭上被迫道歉,他们使用Claude(AI聊天机器人)在法庭文件中创建引用时,现了幻觉,写错了姓名和职称。

OpenAI今年发布的技术报告显示,其4月推出的O3模型在事实总结任务中幻觉率达33%,O4-mini更高达48%,而2024年末的O1模型仅为16%。这一趋势并非孤例:美国Vectara公司的幻觉率排行榜显示,包括中国DeepSeek-R1在内的“推理型”模型,幻觉率较前代产品出现两位数增长。

对此不少网友表示,推理=幻觉?”

OpenAI表示,推理过程本身不应该受到指责。

OpenAI的一位发言人表示:“幻觉在推理模型中并不是天然地更普遍,我们正在努力降低O3和O4-mini中更高的幻觉率。”Vectara创始人Forrest Sheng Bao则通过文档总结任务的事实一致性分析指出,推理模型与非推理模型的幻觉率“几乎持平”,暗示问题根源可能不在推理机制本身。

有知情人士向未来图灵表示,这时候就不是单单幻觉的问题了,要从数据侧来看。其透露,目前市场上存在向AI“投毒”的现象。

阶跃星辰的负责人指出,导致AI产生幻觉的因素,除了指令跟随方面的问题,联网搜索的情况也必须纳入考量。她解释道,当AI收到一个query(问题)时,关键在于能否在互联网上精准定位到与之真正对应的内容,而不是匹配到那些完全不相关,只是有些许类似的信息。但在实际操作中,这里面依然会出现偏差。当前互联网上的信息被污染的情况较为严重,大量虚假、错误或误导性的信息充斥其中,这使得AI在检索信息时,很容易受到干扰,从而获取到不准确的内容。

阶跃星辰向未来图灵透露,团队正在秘密开发一款与AI幻觉相关的新功能组件。该功能可对各平台大模型输出的答案、报告进行核查,且在核查过程中保留用户高自主性,每条核查均提供来源追溯,便于专业用户交叉验证。负责人表示,经研究发现,仅靠语言大模型单向推理无法解决幻觉问题,需单独采用这套核查方法。目前该功能尚未测试,但团队计划推进开发。

近期,大模型之家也针对大模型“幻觉”问题提出一套系统性应对策略。他指出,概念术语、发言、数据等场景是幻觉容易出现的位置。同时强调,在判断幻觉方面,人依旧是第一责任人,大模型无法取代人类的这一角色。在应对方法上,可通过Prompt(提示词)限定参考内容的范围来减少幻觉发生概率。此外,一旦对话中出现幻觉,建议立刻关闭当前对话线程,清空上下文后重启一轮新的对话。

AI现在只是有点“错乱”,我们等等他。