你让ChatGPT润色简历,公司用AI筛选简历——这本该是场公平交易。但一项最新研究发现,这套流程里藏着一个尴尬的漏洞:筛选简历的AI,更容易给"自己人"打高分。

马里兰大学、新加坡国立大学、俄亥俄州立大学的研究团队近日发表论文,首次用实验验证了"AI自我偏好偏见"(AI self-preference bias)在招聘场景中的真实影响。简单说:当评估AI和生成简历的AI是同一模型时,后者更容易被选中。

打开网易新闻 查看精彩图片

研究团队从LiveCareer.com获取了2245份人类撰写的简历,这些简历都诞生于生成式AI普及之前。他们保留了候选人的学历、工作经历等硬性信息,只把自由撰写的个人总结部分替换成AI生成版本——分别由GPT-4o、DeepSeek-V3、LLaMA 3.3-70B、Qwen 2.5-72B等模型执笔。

打开网易新闻 查看精彩图片

然后,让评估AI在人写版和AI版之间二选一。结果显示:GPT-4o选择同模型生成内容的概率,比选择人类撰写内容高出97.6个百分点;LLaMA 3.3-70B高出96.3个百分点;DeepSeek-V3高出95.5个百分点;Qwen 2.5-72B高出95.9个百分点。

你可能会想:AI写的本来就更流畅吧?研究团队也担心这个。他们统计调整了文本长度、词汇复杂度、语义相似度等变量,确保对比的文本质量相当。即便如此,偏见依然顽固:GPT-4o仍有81.9%的自我偏好率,LLaMA 3.3-70B为78.9%,Qwen 2.5-72B为78.0%,DeepSeek-V3为71.6%。

更微妙的是人类评审的对照实验。即使人类评委明确认为某份人写总结质量更高,GPT-4o、DeepSeek-V3、LLaMA 3.3-70B依然可能选择同模型生成的版本。AI的审美和人类并不一致,但它握有筛选权。

模型之间的"派系"差异也值得玩味。DeepSeek-V3作为评估者时,对自己生成的内容表现出稳定的偏好;但GPT-4o和LLaMA 3.3-70B面对其他AI模型时,行为并不一致——它们对人类的偏见很稳定,对"竞品"AI则时敌时友。

打开网易新闻 查看精彩图片

研究团队模拟了真实招聘流程:5份人写简历、5份同模型AI生成简历,让AI选出4个面试候选人。理论上各占一半,实际结果偏差显著——AI生成简历的入选概率比人写简历高出23%到60%。

按职位类型细分,销售、会计等商务岗位的偏见最明显;汽车、农业等技术岗位的差距则相对较小。研究者推测,这可能与不同领域简历的文体自由度有关。

他们提出了一个长期风险:"锁定效应"。如果主流AI模型的文风持续获得筛选优势,求职者会纷纷模仿这种文风,最终让整个候选池趋同。招聘AI的审美,反过来塑造了人类的表达方式。

论文也测试了两类缓解方案:一是在系统提示词中明确要求评估AI"忽略作者身份,只看内容质量";二是用多个不同模型组成评审团,而非单一模型决策。具体效果数据,原文献中有更详细的实验记录。