AI面试官偏爱自己人：同模型写的简历更容易过关|实验|简历

你让ChatGPT润色简历，公司用AI筛选简历——这本该是场公平交易。但一项最新研究发现，这套流程里藏着一个尴尬的漏洞：筛选简历的AI，更容易给"自己人"打高分。

马里兰大学、新加坡国立大学、俄亥俄州立大学的研究团队近日发表论文，首次用实验验证了"AI自我偏好偏见"（AI self-preference bias）在招聘场景中的真实影响。简单说：当评估AI和生成简历的AI是同一模型时，后者更容易被选中。

研究团队从LiveCareer.com获取了2245份人类撰写的简历，这些简历都诞生于生成式AI普及之前。他们保留了候选人的学历、工作经历等硬性信息，只把自由撰写的个人总结部分替换成AI生成版本——分别由GPT-4o、DeepSeek-V3、LLaMA 3.3-70B、Qwen 2.5-72B等模型执笔。

然后，让评估AI在人写版和AI版之间二选一。结果显示：GPT-4o选择同模型生成内容的概率，比选择人类撰写内容高出97.6个百分点；LLaMA 3.3-70B高出96.3个百分点；DeepSeek-V3高出95.5个百分点；Qwen 2.5-72B高出95.9个百分点。

你可能会想：AI写的本来就更流畅吧？研究团队也担心这个。他们统计调整了文本长度、词汇复杂度、语义相似度等变量，确保对比的文本质量相当。即便如此，偏见依然顽固：GPT-4o仍有81.9%的自我偏好率，LLaMA 3.3-70B为78.9%，Qwen 2.5-72B为78.0%，DeepSeek-V3为71.6%。

更微妙的是人类评审的对照实验。即使人类评委明确认为某份人写总结质量更高，GPT-4o、DeepSeek-V3、LLaMA 3.3-70B依然可能选择同模型生成的版本。AI的审美和人类并不一致，但它握有筛选权。

模型之间的"派系"差异也值得玩味。DeepSeek-V3作为评估者时，对自己生成的内容表现出稳定的偏好；但GPT-4o和LLaMA 3.3-70B面对其他AI模型时，行为并不一致——它们对人类的偏见很稳定，对"竞品"AI则时敌时友。