以下是目前一些主要大模型的幻觉率情况:
OpenAI 系列
• GPT-4o:幻觉率较低,非幻觉率接近80%。
• o1:幻觉率约为2.4%。
• o3:幻觉率约为33%。
• o4-mini:幻觉率高达48%。
谷歌 Gemini 系列
• Gemini-2.0-Flash-001:幻觉率仅为0.7%,表现优异。
• Gemini-2.0-Pro-Exp:幻觉率为0.8%。
• Gemini-1.5-Pro-002:幻觉率为6.6%。
• Gemini-Pro:幻觉率为7.7%。
百度文心一言(ERNIE 4.0 Turbo)
幻觉率最低,非幻觉率接近83%,在事实验证和冷门知识领域表现出色。
Qwen 系列
• Qwen 2.5-Max:非幻觉率约为77%,在处理逻辑性问题时表现不错,但在事实核验方面仍有提升空间。
• Qwen2.5-7B-Instruct:幻觉率为2.8%。
• Qwen2.5-32B-Instruct:幻觉率为3.0%。
月之暗面 Kimi k1.5
非幻觉率约为60%,在对话流畅性和逻辑性上表现较佳,但在提供事实依据方面偶尔会出现幻觉现象。
其他
• DeepSeek-R1:非幻觉率约为65%,在生成回答时更注重上下文连贯性,但在某些领域深度知识上存在幻觉问题。
• Llama-2-70B-Chat-hf:幻觉率为5.9%。
• Anthropic Claude-3-opus:幻觉率为10.1%。
附录:大模型的幻觉率是如何计算的?
目前,大模型的幻觉率计算方法主要有以下几种:
1、基于数据文本的评估方法
(1)精确率、召回率等统计指标:通过计算生成文本与参考文本之间信息的匹配程度来量化幻觉程度。例如,Dhingra等人提出的PARENT指标,将蕴含精确率与蕴含召回率相结合,克服了传统BLEU、ROUGE等指标与人工判断结果一致性较差的问题。
(2)仅使用源文本作为参考:这种方法在评估时不需要目标文本,更适应输出结果有多种可能性的场景。例如,Wang等人提出的PARENT-T指标,在PARENT指标基础上进行了优化,省略了关于目标文本的比较计算。
2、基于模型的评估方法
(1)信息提取模型:利用信息提取模型将生成文本和参考文本中的知识以某种方式表示出来,并进行比较验证。例如,Goodrich等人比较了两类信息提取方法:一类是两步提取法,另一类是基于Transformer架构的端到端直接提取事实元组的方法。
(2)特定模型的评估方法:通过使用两个在不同数据集上训练的模型来判断生成文本中每一个词例是否得到参考文本的支持。例如,Filippova利用条件语言模型和无条件语言模型计算单一词例的损失关系,判断该词例是否出现幻觉。
3、基于多任务应用的评估方法
(1)自监督模型:Deng等人通过引入信息对齐概念,训练自监督模型在词例维度上对幻觉进行度量,该方法在多种任务中表现出与人类判断相当的性能。
(2)多维评估器:Zhong等人提出的多维评估器UniEval,将不同维度的评估转换为布尔问答问题,在文本摘要和对话响应任务中表现更佳。
4、具体案例
(1)Vectara评测:Vectara公司通过让AI模型对831篇短文进行摘要来测试其产生幻觉的概率。所有模型都使用温度参数为0,确保输出的稳定性,并设置了答案率和平均摘要长度等指标。
(2)非幻觉率评估:非幻觉率指的是AI生成的回答中不包含幻觉的比例。评估标准包括回答是否为流畅的自然语言、是否直接回答问题、是否与正确答案一致以及是否可被正确答案支持或暗示。
热门跟贴