新华社北京6月25日电 人工智能(AI)中广泛使用的大语言模型不时出现的“一本正经地胡诌”是其难以克服的问题。近日,英国牛津大学研究团队开发出一种名为“语义熵”的新方法,有望大幅提升AI回答的可靠性。
大语言模型的“胡诌”在业界被称为“幻觉”,牛津大学计算机科学系的研究人员提出“语义熵”方法试图解决这一问题。在热力学中,熵描述的是系统的混乱或者说不稳定程度。这项研究中,熵衡量了大语言模型回答的不确定性,不确定性高意味着大语言模型的回答可能存在虚构。
该研究成果已发表在近期出版的英国《自然》杂志上。论文中说,如果AI对同一个问题,给出了许多语义相似的答案,那说明它对自己的回答比较有把握;反之,如果答案五花八门,那就意味着AI自己也“心里没底”,很可能是在“胡诌”。
研究人员利用“语义熵”方法,让大语言模型对同一问题生成多个答案,然后将语义相近的答案聚类,最后根据聚类结果计算熵值。熵值越高,表示大语言模型的回答越不确定。
值得注意的是,这一方法不仅考虑了大语言模型回答的字面差异,更关注语义层面
的一致性。这使得“语义熵”能够更准确地识别AI的“胡诌”,而不会被表达方式的多样性所迷惑。
研究结果表明,“语义熵”方法在多个数据集和任务中都表现出色,能有效检测大语言模型的错误回答,并通过拒绝回答不确定的问题来提高整体准确率。更重要的是,这一方法无需修改AI模型本身,可以直接应用于现有的大语言模型。
研究人员说,“语义熵”技术有望在问答系统、文本生成、机器翻译等多个领域发挥重要作用,帮助AI生成更可靠、更有价值的内容。这不仅将提升AI在实际应用中的表现,也将增强用户对AI系统的信任。
信息熵、语法熵、语义熵和语用熵是与信息理论和语言学相关的概念,它们分别从不同角度描述了信息在语言中的不确定性和复杂性。以下是对这些概念的简要解释:
信息熵是由克劳德·香农(Claude Shannon)提出的概念,用来量化信息的不确定性或信息量。在通信和数据压缩中衡量信息源的随机性。例如,在一个消息系统中,如果某个消息越难预测,它的熵就越高。对于一个离散随机变量 ( X ) 及其概率分布 ( P(X) ),信息熵 ( H(X) ) 定义为 ( H(X) = -\sum P(x) \log P(x) )。
语法熵指的是语言中由于语法规则引起的不确定性和复杂性。在自然语言处理中,语法熵可以用来衡量不同句子结构的复杂程度,以及生成或解析句子的难易程度。考虑生成一个句子时,语法规则(如主谓宾结构、时态、数等)的选择会影响语法熵。
语义熵是指由于词语和句子意义的多样性和模糊性引起的信息不确定性。在信息检索、机器翻译等领域,用于衡量词语含义的多样性和上下文依赖性。一个具有多重含义的词(如“银行”既可以指金融机构也可以指河岸)会导致较高的语义熵。
语用熵:语用熵关注的是语言在实际使用中的不确定性,涉及语言的上下文、隐喻、言外之意等因素。在语言理解和生成中,评估特定情境中的语言使用的复杂性和多义性。在社交互动中,一个句子的实际意义可能取决于说话者的意图、听众的背景知识和情境,这些因素一起构成了语用熵。
总结
信息熵:衡量信息源随机性的基本概念。
语法熵:与句子结构和语法规则相关的复杂性。
语义熵:涉及词语和句子意义的多样性和模糊性。
语用熵:关注语言在具体使用情境中的不确定性和复杂性。
这些概念共同帮助我们更好地理解语言信息的传递和处理过程中的多层次不确定性。
热门跟贴