我们介绍了预测式AI的问题,下面重点谈谈生成式AI的问题。生成式AI的核心任务不再是“预测”,而是“创造”。生成式AI的代表,就是像ChatGPT、DeepSeek这样的大语言模型。虽然大语言模型和人交流能力非常强,但也很容易“一本正经地胡说八道”。也就是说,它生成的文本语言流畅、逻辑自洽、充满自信,但其核心内容却可能是完全虚假的。这种现象在学术界被称为“幻觉”(Hallucination)。

为什么大模型会产生“幻觉”?这源于其根本的技术原理。与能够精确检索信息的数据库不同,大型语言模型是一个概率性的文本生成器。它通过在数万亿词元(Token)的庞大语料库上进行训练,学习词语与词语之间的统计关系。它的任务是预测“下一个最有可能出现的词是什么”,从而生成一段在语言模式上“看似合理”的文本,而非确保其内容的真实性。事实准确性,从来不是其核心设计目标。

面对生成式AI的“幻觉”问题,学术界和工业界正在探索多种解决方案。这已远非简单的模型调优,而是一项复杂的系统性工程。下面,我们来思考一个基本的问题:我们究竟该如何衡量AI的能力?当前,整个AI领域都陷入了一场围绕基准测试(Benchmark)的激烈竞赛。各大公司和研究机构轮番登场,发布者在各项标准化测试中不断刷分。

但是,基准测试的根本问题在于,它将复杂、多维的现实世界,简化为了单一、刻板的评分标准。具体来说,绝大多数基准测试只关注模型在特定任务上的表现。例如,主流的自然语言基准测试,注重的主要是自然语言推理、文本蕴含、情感分析、问答和语义相似度判断等核心语言理解能力,但它们却完全没有评估那些在现实世界中更重要、更关乎伦理的维度。例如,模型的输出是否固化了文化偏见?它输出的内容是否会对社会稳定造成风险?这些在基准测试中统统是“隐形”的。

打开网易新闻 查看精彩图片

此外,当所有开发者都以基准分数为唯一目标时,他们会有意或无意地“为测试而优化”。这就像一个只为应试而学习的学生,他能熟练掌握所有考点和解题技巧,但在真实世界中解决复杂问题的能力却不堪一击。AI模型也一样,它们变得越来越擅长在基准测试中“看起来很美”,但在实际应用中表现不佳。

另外一个值得关注的问题是,许多模型可能已经在其海量的训练数据中,不知不觉地“见过”了基准测试的题目和答案。这种数据泄露问题让测试结果变得不再可信,因为模型不是在“推理”,而是在“背诵”。

所以,结论是:我们不应该对基准测试寄予太多希望。衡量一项技术真实价值的唯一标准,是它在真实世界中的表现。我们应该关注那些真正尝试在专业环境中使用这些AI系统的人,他们从大模型中获得的真实感受和助益,才是我们衡量大模型的金标准。