打开网易新闻 查看精彩图片

去年秋招季,某大厂HR平均每人每天要看47份简历,留给每份的时间不到90秒。你的精心准备,可能还没被读完第一行就进了回收站。

但有个程序员做了个实验:让ChatGPT扮演面试官,结果反馈详细到让他怀疑人生——「它比真人HR更敢说实话」

一场魔术师的荒诞面试

TechRadar的编辑Tom Pritchard决定测试这个玩法。他没选程序员或产品经理这种常规岗位,而是给自己安了个离谱身份:应聘世界知名剧院的舞台魔术师

「魔术师的面试本身就是表演,」他在文章里解释,「如果AI能评判这个,那评估销售、设计、咨询这些靠『感觉』的岗位应该更不在话下。」

他给ChatGPT的指令很具体:扮演招聘委员会,针对每个回答给出详细反馈,最后打分(满分100)。

ChatGPT入戏很快。开场问题就透着股专业劲儿:「欢迎。我们在寻找能跨越文化和年龄层 captivate(吸引)观众的表演者。请告诉我们,是什么让你的魔术『难忘』而不只是『 impressive(令人印象深刻)』?」

Tom的回答走的是情感路线——强调讲故事、营造持久的好奇心,把魔术从「欺骗」重新定义为「情感共鸣」。他自认这是个聪明答案,既有真诚又有表演感。

ChatGPT的反馈像把手术刀。它先肯定「情感共鸣」这个切入点选得准,符合高端魔术的市场定位。然后话锋一转:「但『跨越文化和年龄层』这个关键词被完全忽略了。国际巡演经验?多代际观众的互动案例?零。」

得分:78。评语末尾补了一刀:「有潜力,但更像TED演讲而非舞台魔术。」

打开网易新闻 查看精彩图片

第二轮:被AI抓到「假大空」

第二轮:被AI抓到「假大空」

第二个问题更刁钻:「描述一次演出出错的经历,以及你如何救场。」

Tom编了个经典场景——道具故障,然后用即兴互动填满时间,最后把失误变成「证明魔术没有机关」的契机。他特意加入细节:观众席的窃笑、后台同事的紧张表情、最后雷鸣般的掌声。

ChatGPT的反馈让他脸红。「故事结构完整,但『雷鸣般的掌声』是结论,不是证据。评委想听的是:具体哪句话让窃笑变成参与?你观察到了观众的什么微表情,才决定改变策略?」

更狠的是这句:「『把失误变成优势』是行业陈词。200个应聘者里,180个会这么说。你的独特解法是什么?」

这轮得分直接跌到71。ChatGPT建议他补充「可验证的细节」——比如当时观众的平均年龄、剧院座位数、甚至救场台词的具体字数。

Tom在文章里承认:「真人面试官很少会追问到这种程度。他们要么被打动,要么走神,很少会逐句拆解你的叙事漏洞。」

真人面试的「黑箱」困境

真人面试的「黑箱」困境

这个实验戳中了一个真实痛点。传统面试的反馈机制近乎失灵——你花了两周准备,聊了45分钟,然后收到一封「谢谢参与」的模板邮件。哪里答得好?哪里露了怯?全是黑箱。

ChatGPT的「残忍」恰恰来自它的「非人」属性。它不会顾及你的面子,不会因为你眼神真诚就心软,也不会因为赶上午饭时间而草草收场。它的评判标准写在明处:岗位描述里的关键词,你覆盖了多少?你的故事里有几成是可验证的事实,几成是形容词堆叠?

打开网易新闻 查看精彩图片

Tom对比了他三个月前的真实面试经历。某科技公司HR在他讲完项目后点头微笑,说「很有启发」,最后拒信里只写「岗位匹配度不足」。他至今不知道「启发」和「不足」之间发生了什么化学反应。

「ChatGPT至少告诉我,71分的问题出在『结论代替证据』,」他写道,「真人HR可能根本没意识到自己在用『感觉』做判断。」

AI面试官的边界在哪

AI面试官的边界在哪

实验做到第三轮,ChatGPT开始暴露局限。Tom故意给了一个极端回答:「我认为魔术的本质是控制,观众只是被操控的客体。」

AI的反馈出现了矛盾。它先指出这种「控制论」视角「过于冷酷,不符合现代娱乐产业的价值观」,建议调整;但同时又承认「对权力动态的敏锐观察,在特定类型的表演(如心理魔术)中是优势」。

Tom总结:「它在『安全答案』和『真实判断』之间摇摆。当你给出反常规回答时,它倾向于先劝你回到主流,再勉强肯定其中的亮点。」

这暴露了生成式AI的一个底层特性:它的「评判」本质上是概率计算——什么回答在训练数据里更常见、更安全,就往哪边倾斜。真正的创意突破,反而可能被它当成「风险」标记出来。

最后一轮,Tom把ChatGPT的反馈喂给另一个AI(Claude),让它扮演「面试教练」来解读这些评分。结果Claude指出:ChatGPT对「舞台魅力」这种难以量化的特质,评分标准明显比「技术细节」更宽松。

「换句话说,AI面试官擅长抓逻辑漏洞,但对『这个人我想不想共事』这种直觉判断,它只能模仿人类的偏见,而非超越。」

当78分成为起点

当78分成为起点

整个实验结束后,Tom把ChatGPT的完整反馈整理成一份5页文档。最有价值的部分不是分数,而是那些被标黄的关键词——「跨文化」「可验证」「反陈词」——这些正是岗位描述里出现、却被他下意识忽略的要求。

「真人面试像开盲盒,」他最后写道,「AI面试像做体检。它不会告诉你能不能拿到offer,但会让你看清自己准备时的盲区。」