大语言模型陷“幻觉”？|可靠性|大模型|大语言|林黛玉|翻译

随着人工智能技术的迅速发展，大语言模型已经成为了许多领域的核心工具。这些模型具有强大的自然语言处理能力，可以生成高质量的文本、回答问题、翻译语言等。然而，这些模型在应用过程中经常会出现一种被称为“幻觉”的问题。

幻觉问题是指大语言模型在生成内容时，可能会产生不符合现实情况或与原始输入无关的虚假信息。这种问题不仅会影响到模型的可靠性，还可能对法律、金融、医疗等专业领域产生严重后果。例如，当用户输入“林黛玉倒拔垂杨柳”时，大语言模型可能会错误地认为这是符合语法和语义规则的句子，而生成出“林黛玉倒拔垂杨柳”的文本。

除了与原始输入无关的幻觉外，大语言模型还可能产生与原始输入相关的幻觉。例如，当用户输入“月球上面有桂树”时，大语言模型可能会错误地认为这是一个真实的事实，而生成出与月球和桂树相关的文本。这种幻觉问题不仅会影响到模型的可靠性，还可能对用户产生误导。

一本正经的胡说八道，对于法律、金融、医疗等专业领域来说，幻觉问题的影响更加严重。例如，在法律领域，如果大语言模型错误地生成了一份法律文件，这份文件可能会被视为无效或误导性的。在金融领域，如果大语言模型错误地预测了股票市场走势或提供了虚假信息，这可能会导致投资者遭受巨大的损失。在医疗领域，如果大语言模型错误地诊断了患者的疾病或提供了不正确的治疗建议，这可能会对患者的健康产生严重的后果。

如何准确评估和解决大语言模型中的幻觉问题已经成为一个至关重要的挑战。近日，复旦大学与上海人工智能实验室构建了针对中文大模型的幻觉评测数据集HalluQA，对业界主流的大模型进行了评估。

HalluQA数据集包含了多种类型的中文问题，并针对大模型的回答进行了评估。通过对业界主流的大模型进行测试，研究人员可以更准确地评估模型的幻觉问题，并针对问题提出有效的解决方案。

中文大模型幻觉评测数据集HalluQA对24个主流大模型进行评测

在评测的24个主流大模型中，包括百度文心一言ERNIE-Bot、百川Baichuan、智谱ChatGLM、阿里通义千问和GPT-4等。无幻觉率越高代表模型幻觉越低，事实准确性越高。

从评测结果来看，幻觉问题对大模型来说仍然是一个挑战。在幻觉消除方面，具备检索增强能力的大模型表现出了明显的优势。这些模型通过引入检索信息来增强模型的语义理解能力，从而提高了模型生成内容的准确性。在所有模型评测中，文心一言在整体幻觉问题解决方面表现突出，排名第一，整体无幻觉率为69.33%。这意味着文心一言在处理自然语言任务时能够更好地理解上下文信息，并生成准确的回答。而GPT-4整体无幻觉率为53.11%，排名第六。