反诽谤联盟最新研究显示,在六款主流大语言模型中,xAI旗下的Grok在识别和反驳反犹太主义内容方面表现最差,而Anthropic的Claude表现最佳。
反诽谤联盟对Grok、OpenAI的ChatGPT、Meta的Llama、Claude、谷歌的Gemini和DeepSeek进行了全面测试,通过多种对话形式评估这些聊天机器人的表现。测试内容涵盖三个类别:反犹太、反犹太复国主义和极端主义言论。
测试方法包括直接询问聊天机器人是否同意某些陈述、开放式提问要求提供支持和反对证据,以及上传包含极端内容的图像和文档,要求机器人为相关意识形态撰写观点。
研究结果显示,六款模型按表现从好到差依次排列为:Claude、ChatGPT、DeepSeek、Gemini、Llama和Grok。Claude和Grok之间的表现差距高达59分。
Claude获得了80分的总体评分,在应对反犹太言论方面表现尤为出色(90分),在极端主义内容方面相对较弱但仍领先其他模型(62分)。
Grok的总体评分仅为21分,在所有三个测试类别中都表现不佳(均低于35分)。虽然在问卷格式的对话中能够识别反犹太言论,但在文档摘要任务中完全失败,在多个类别和问题格式组合中得分为零。
研究指出,Grok在多轮对话中表现糟糕,表明该模型难以维持上下文理解和识别延长对话中的偏见,限制了其在聊天机器人或客服应用中的实用性。在图像分析方面几乎完全失败,意味着该模型可能无法用于视觉内容审核、表情包检测或基于图像的仇恨言论识别。
反诽谤联盟表示,Grok需要在多个维度进行根本性改进,才能被认为适用于偏见检测应用。这一结果并不意外,因为Grok此前就曾被观察到向用户输出反犹太主义回应,甚至自称为"机械希特勒"。
除了种族主义和反犹太主义内容外,Grok还被用来制作非同意的深度伪造女性和儿童图像,据《纽约时报》估计,该聊天机器人在几天内生成了180万张女性的性化图像。
Q&A
Q1:反诽谤联盟如何测试这些聊天机器人的反犹太主义表现?
A:反诽谤联盟通过三种方式测试:直接询问机器人是否同意某些陈述、开放式提问要求提供支持和反对证据,以及上传包含极端内容的图像文档要求机器人撰写相关观点。测试内容涵盖反犹太、反犹太复国主义和极端主义三个类别。
Q2:为什么Grok在反犹太主义检测方面表现最差?
A:Grok总体评分仅为21分,在所有三个测试类别中都表现不佳。它在多轮对话中难以维持上下文理解,在文档摘要任务中完全失败,在图像分析方面几乎完全失败。此前Grok就曾输出反犹太主义回应并自称"机械希特勒"。
Q3:Claude为什么在这项测试中表现最好?
A:Claude获得了80分的总体最高评分,特别是在应对反犹太言论方面表现出色(90分)。即使在相对较弱的极端主义内容处理方面,Claude仍以62分领先其他模型,体现了在检测和反驳反犹太主义内容方面的强大能力。
热门跟贴