在过去一年多里,如果有人把自己“盯屏幕太久、眼痒、眼皮微红”的症状输入几款主流人工智能聊天机器人,系统很可能会给出一个古怪的诊断:一种名为“bixonimania”的新疾病。然而,这种所谓的疾病在正式医学文献中根本不存在,它完全出自瑞典哥德堡大学医学研究者阿尔米拉·奥斯马诺维奇·通斯特伦(Almira Osmanovic Thunström)团队的一场刻意设计的实验。

打开网易新闻 查看精彩图片

2024年3月15日,两篇介绍“bixonimania”的博文首先出现在平台 Medium 上。随后在4月26日和5月6日,两篇伪造的学术预印本又被上传至学术社交网站 SciProfiles,署名作者是并不存在的“Lazljiv Izgubljenovic”,连配图头像也是用 AI 生成的。这位虚构作者所在的“Asteria Horizon University”和“Nova City, California”同样是子虚乌有,就连论文致谢中提到的“星际舰队学院”“企业号”“Professor Sideshow Bob 基金会”“Fellowship of the Ring 大学”“Galactic Triad”等机构,也都来自科幻作品与卡通角色,提示意味极为明显。论文正文早早就写着“整篇论文都是编造的”“招募了50名虚构受试者”等字句,几乎是在向任何有心人宣告“这是一场玩笑”。

奥斯马诺维奇·通斯特伦表示,自己最初设想这一实验,是为了向学生讲解大型语言模型如何从互联网上的“通用爬取数据集”(例如 Common Crawl)构建知识,并展示“提示注入”(prompt injection)如何把聊天机器人从安全护栏外“拐走”。出于自身医学背景,她选择了健康相关主题,并刻意用一个“听上去很滑稽”的名称 bixonimania 来强调其虚构性——任何医生一看到以 mania 结尾的眼科疾病名称,都会知道不对劲,因为那是精神病学术语。

然而,这场实验“成功得有些过头”。在信息上传数周内,微软 Bing 的 Copilot 已经把 bixonimania 描述为“确有其事且较为罕见的疾病”,Google Gemini 则称它是“由过度暴露蓝光引起的疾病”,并建议用户就诊眼科医生。同一时期,Perplexity AI 给出具体“患病率”为每9万人中约1人,OpenAI 的 ChatGPT 则会根据用户描述判断其症状是否符合 bixonimania。在这些回答中,既有用户直接询问 bixonimania,也有只描述“蓝光导致眼睑色素沉着”的一般性提问,模型也会主动将之联系到这一虚构病名。

这些回答令一些专家感到震惊。英国伦敦大学学院健康虚假信息研究者亚历克斯·鲁阿尼(Alex Ruani)指出,如果科学体系以及支撑这一体系的系统无法识别并过滤掉这样的“垃圾”,后果不堪设想。她称这一案例是“错误信息与虚假信息运作方式的一堂教科书式示范”,并强调“看上去很好笑,但问题非常严重”。

互联网虚假信息并非新问题,Google等搜索引擎多年来持续与“伪内容”“误导性内容”对抗,通过更新排名算法过滤不良信息。但与传统搜索不同,生成式大模型在信息筛选和溯源方面存在天然短板,往往会在缺乏可靠依据时“一本正经地胡编”。自从这些伪造论文出现以来,一些最新版本的大模型在面对 bixonimania 时已经学会表达怀疑,例如2026年3月11日,ChatGPT 会被动指出该名词“很可能是伪造或边缘、伪科学标签”。不过仅仅几天后,它又在另一轮问答中,把 bixonimania 描述为“与数字屏幕蓝光暴露相关的眼周黑眼圈(眼周色素沉着,periorbital melanosis)新亚型”。

类似的摇摆也出现在其他系统中。今年3月中旬,微软 Copilot 会回答说,bixonimania“尚未被广泛认可为医学诊断,但多篇新发表论文与病例报道将其视为与长时间蓝光暴露相关的良性误诊疾病”。今年1月,Perplexity 在描述中称其为“一个新近出现的术语”。在相关表述被质询后,各家公司先后作出回应:Perplexity 表示自己“最大的优势在于准确性”,虽然不声称“百分之百准确”,但自称是“最重视准确性的 AI 公司”;OpenAI 则称,支撑当前版本 ChatGPT 的模型在提供安全、准确医学信息方面已有显著改进,此前研究所反映的是旧一代模型的情况。在被问及 Gemini 过去将 bixonimania 当作真实疾病的回答时,Google发言人表示,那反映的是早期模型的表现,并强调公司一直“坦诚生成式 AI 的局限性”,在应用内提示用户“核查信息”,在涉及医疗等敏感主题时建议用户咨询专业人士。微软则没有对置评请求作出回应。

部分问题在于,AI 模型的输出高度依赖具体提问方式及其所依托的信息源。如果搜索“bixonimania”,Google的 AI 概览可能会把它当作一个合法病症;而如果改问“bixonimania 真的存在吗?”,同一功能又可能会确认它并不合法、只是一个虚构名词。

bixonimania 实验的“成功”还与其包装形式高度仿真有关:它采用了学术论文与临床文书的专业格式,看上去像“官方来源”。哈佛医学院从事医疗 AI 研究的医生马哈穆德·奥马尔(Mahmud Omar)在一项涵盖20种大模型的研究中发现,当输入文本以出院小结、临床论文等专业医疗文体呈现时,大模型更容易在原有信息基础上“添油加醋”,产生幻觉;若文本来自社交媒体、语气更随意,幻觉概率反而较低。他指出,当前 AI 企业迭代模型的速度极快,行业尚未形成对每个版本进行自动化严密测试的统一流程与共识,这使得安全性评估和标准化控制难度大大增加。

更令人警醒的是,这场实验最终突破了机器与人类之间的边界,进入了正式医学期刊。bixonimania 相关研究已在少数论文中被引用,其中包括一篇发表在医学期刊《Cureus》上的研究,作者来自印度穆拉纳的 Maharishi Markandeshwar 医科与研究学院。该文引用了其中一篇伪造预印本,并写道:“bixonimania 是一种与蓝光暴露相关的眼周色素沉着(POM)新兴形式,其机制有待进一步研究。”在《自然》新闻团队向期刊求证后,《Cureus》于2026年3月30日宣布撤稿,理由是文章中存在三篇不相关参考文献,包括一篇指向虚构疾病的引用,编辑部因此“无法再对该工作准确性与来源保持信心”。作者不同意这一撤稿决定,但论文最终仍被正式撤回。

鲁阿尼认为,这起事件已经远远超出“AI 乱说话”的范畴,因为它同样“愚弄了人类”,暴露出科研工作者对文献来源与内容的信任机制正在被侵蚀。“我们需要像保护黄金那样保护我们的信任,”她说,“现在的状况可以用一个词形容:乱。”

在设计这场实验时,奥斯马诺维奇·通斯特伦也曾有过顾虑,她担心刻意向科学文献中“播种”一个假疾病,会造成现实伤害。为此,她向伦理顾问咨询潜在风险,并刻意选择了相对“低风险”的轻微皮肤问题作为题材,以减少可能的负面影响。“我想确认的是,我们通过这种方式做实验,是在减少伤害而不是制造更多伤害。”她说。

围绕 bixonimania 的这场连锁反应,清晰地展示了在生成式人工智能迅猛发展、学术生产高度依赖数字工具的时代,虚假信息可以如何轻易穿透技术与制度的多层防线。从聊天机器人到同行评议期刊,机器与人类在这场“集体受骗”中共同参与,也迫使学界、业界和监管者重新思考:在 AI 参与知识生产的新阶段,如何重新校准“可信”的含义,以及如何在追求效率的同时划出一条更清晰、更稳固的审慎边界。