打开网易新闻 查看精彩图片

编译 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

最近,纽约大学斯特恩商学院数据科学教授 Panos Ipeirotis 遇到了一种“诡异的幸福”。

在他与 Konstantinos Rizakos 联合授课的全新课程《AI/ML 产品管理》上,学生们的课前作业质量突然整体飙升,好得有点反常:不是“优秀学生”的那种好,而是“像咨询公司报告、被反复精修三轮”的那种好。

于是,Panos 和 Konstantinos 干了一件十分原始的事情:课堂随机点名,让学生现场解释自己写的作业内容。结果非常“魔幻”:很多作业看起来条理清晰、结构完美的学生,在被追问两三个细节后就露馅了——连自己为什么这么做都讲不清楚,还有些学生干脆全程“当机”。

“这种现象不可能只是紧张或运气不好”,Panos 直言:“如果一个人连自己交的作业都讲不明白,那么这份书面作业,就根本没测出我们想要评估的真实能力。”

发现这个问题后,Panos 突然想到了几个月前,芝加哥大学布斯大学商学院 Brian Jabarian 领导的一项研究结果:AI 在做招聘面试时,反而比人类更好,原因很简单:人会累、有偏见、执行标准不一致,而 AI 不会。

而这个结论,让 Panos 他们产生了一个放在两年前听起来像笑话的想法:

既然这样,要不直接让语音 AI 代理来当期末口试的考官?

打开网易新闻 查看精彩图片

有人会问为什么现在口试

这个问题的核心,其实既简单又残酷:现在,学生可以随时调用 LLM来应对传统意义上的大部分考题,过去那种“通过课后作业就能衡量学生理解程度”的旧模式,已经彻底失效了。

那改成课堂闭卷笔试不就行了?确实,Panos 他们在期中考试时就这么干了,但还有一个更棘手的问题:小组项目。

以前,Panos 担心的是“搭便车”,即学生把任务甩给队友;而现在,更可怕的事情出现了:Gemini 3.0 发布,NotebookLM 能直接生成毫无破绽的演示文稿。

一瞬间,哪怕一个学生对项目毫无参与,他也能在台上讲得天花乱坠——而老师根本无从分辨。

基于此,口试成了自然而然的应对方案:

● 它要求学生进行实时推理、对全新问题灵活应用知识、并为自己的每一个决策辩护;

● 没有 LLM 在旁“提示”,更没有“我查一下”的时间让 ChatGPT 生成答案;

● 整个过程,只有你、你的知识储备,以及考官。

但唯一的问题是:口试的规模化落地,简直是一场后勤噩梦。

以 Panos 的这门课为例,有 36 名学生、2位授课老师,勉强还能应付。但不少学生要求协调考试时间:“我 15 号要赶飞机”、“那天我还有三门期末考”、“我要回家参加家庭活动”……Panos 感慨,这些理由全都合情合理:“但试想一下,如果班级规模扩大十倍,协调考试时间就会变成一场旷日持久的拉锯战。”

这就是为什么口试一直难以规模化的原因——除非换个思路,用 AI“走个捷径”。

打开网易新闻 查看精彩图片

语音 AI 代理,搞定口试规模化

Panos 他们选择用 ElevenLabs 的对话式 AI 平台,打造了一个“语音口试智能体”。

据介绍,这个平台把 ASR、TTS、打断处理、轮次控制等脏活全都封装好了。针对低风险场景(比如日常作业)的基础版 AI 考官,甚至几分钟就能搭建好了——只需要写一段提示词,明确 AI 需要向学生提问的方向,整个系统就可以上线运行。

在 Panos 的方案中,有两个功能起到了关键作用:

● 动态变量:将学生姓名、项目细节等个性化信息作为参数传入对话流程,实现真正的 “个性化口试”。

● 工作流设计:用多个子 Agent 构建结构化流程,而不是通用一个“话痨大模型”去乱聊。

打开网易新闻 查看精彩图片

这场 AI 口试长什么样?

具体而言,Panos 他们设计的口试分为两部分:

(1)环节一:“聊聊你的项目”

AI 代理将围绕学生的结课项目展开提问,包括项目目标、数据来源、模型选型依据、评估指标设计、以及项目中遇到的失败与不足。这正是“用 LLM 代写作业”的学生的死穴——你可以让 ChatGPT 帮你写,但你很难即兴编出一套自洽的决策逻辑。

(2)环节二:“现场分析一个案例”

AI 代理将从课程讲过的案例中随机抽取一个,围绕案例涉及的知识点进行提问——本质上是检验学生是真的吸收了知识,还是仅仅来课堂“打个卡”。

为了支撑这套结构化流程,他们把口试工作流拆分成了三个各司其职的子 Agent:

● 身份验证 Agent:要求学生提供学号,只有输入有效学号才能进入考试环节。

● 项目讨论 Agent:通过参数注入学生的项目背景,提示词中包含每个项目的详细信息,确保 AI 能提出有针对性的问题。

● 案例讨论 Agent:负责随机抽取案例并进行结构化提问。

这种“多个小 Agent 协作”的模式,绝非为了追求技术上的“好看”,它不仅能有效防止对话偏离预设轨道,还能让系统调试变得清晰可控。

打开网易新闻 查看精彩图片

成本与效果如何?用数字说话

把这套 AI 口试系统实践之后,Panos 他们初步统计了一下:

● 36 名学生,9 天内完成全部口试

● 平均耗时 25 分钟(最短 9 分钟,最长 64 分钟)

● 每场对话平均交互 65 轮

● 成本:0.42 美元/人,总计 15 美元

● 三个 AI 模型评分一致度:89% 在 1 分以内

● 最短考试时间 9 分钟的学生,反而拿了最高分 19 分(满分 20 分)

对此,Panos 还仔细算了一笔账:36 名学生的口试总成本为 15 美元(约人民币 105 元),具体开销如下:Claude(主评分模型)8 美元、Gemini 2 美元、OpenAI 0.3 美元、ElevenLabs 语音时长费用约 5 美元——平摊下来,每个学生仅需 0.42 美元(约人民币 2.9 元)。

要是换成纯人工的话:36 名学生 × 每人 25 分钟 × 2 名考官 = 30 小时的人工工时。哪怕按助教时薪 25 美元计算,总成本也高达 750 美元,如果按教授时薪计算,成本更是高到 Panos “根本就不会考虑组织口试”的地步。

可如今仅花费15 美元,Panos 就实现了:实时口试评估、Claude + Gemini + ChatGPT 三模型评审委员会、包含原文引用的结构化反馈、完整的考试审计追踪。更重要的是,通过这次尝试,他们还发现了自己教学过程中存在的漏洞。

打开网易新闻 查看精彩图片

踩过的坑,比你想象的多

不过,对于这套 AI 口试系统的打磨,Panos 他们也并非一步到位,在实践中踩了不少坑。

(1)声音太“吓人”

Panos 他们原本选择了 Foster Provost 的声音,结果大多学生反馈:像在被骂。

解决方案:以后 A/B Test 多种声音,优化“理解体验”,而不是一味强调“权威感”。

(2)一次性问四个问题

Agent 会说:请解释你的指标选择,并告诉我你试过哪些基线,为什么没用 X,以及你下一步打算做什么——显然,这一下子问了 4 个问题。口试本身就要求学生实时思考,认知负荷已经很高,叠加多个问题只会让学生不堪重负。

解决:在 Prompt 中加入硬性规则,一次只提一个问题,如果需要进行多维度追问,必须拆分成多个对话轮次。

(3)重复问题时偷偷改写

过程中,学生会问:“能重复一下问题吗?”有时 Agent 会换种问法,结果把原本的题目都变了。

解决:在 Prompt 中明确指令,当学生要求重复问题时,必须逐字复述,严禁改写,一个字都不能变。

(4)不给学生思考时间

学生刚一停顿思考,AI 就立刻插话追问,甚至会把沉默当成“学生没听懂”,直接跳过当前问题。解决:在 Prompt 中要求 AI 留出思考时间,避免过度追问。把 AI 触发“你还在吗?”的超时等待时间,从 5 秒延长到了 10 秒。

(5)LLM 根本不懂什么叫随机

Panos 原本要求 AI “随机抽取” 一个案例进行提问,结果 12 月 12-18 日期间,只要案例列表里有“Zillow”(美国房产平台),AI 选中它的概率就高达 8%。

解决:把随机性从 Prompt 层面转移到代码层面,即生成一个显式的随机数,再将随机数与案例进行确定性映射。随机性由代码来保证,而非依赖 LLM 的选择。

打开网易新闻 查看精彩图片

评分委员会:三模型互相“掰头”真的有效

借鉴 Andrej Karpathy 的思路,Panos 他们采用了“LLM 评分委员会”的模式:

让 Claude、Gemini、ChatGPT 三个模型,分别独立评估每场口试的对话记录;之后,让每个模型看到另外两个模型的评分和理由,并据此修正自己的评分;最后,由 Claude 担任 “主考官”,综合所有模型的意见,生成最终评分和详细依据。

第一轮的结果简直惨不忍睹:三个模型的评分完全一致的情况为 0%,仅有 23% 的评分误差在 2 分以内;在 20 分满分的体系下,评分的最大平均误差接近 4 分。

甚至,不同模型的“打分风格”也不一样:Gemini 堪称“心软的老好人”,平均分高达 17分;而 Claude 的平均分只有 13.4 分——3.6 分的差距,刚好是 B+ 和 B- 的区别。而 Claude 和 OpenAI 的打分尺度在第一轮就已经比较接近:70% 的评分误差不超过 1 分。

打开网易新闻 查看精彩图片

而当模型们进入 “审议环节”(看到彼此的评分和理由)后,评分一致性发生了质的飞跃:Gemini 在参考了 Claude 和 OpenAI 更严格的评分依据后,平均分直接下调了 2 分——因为它无法再为那些“实验讨论存在明显 bug”的答卷,给出 17 分的高分。

打开网易新闻 查看精彩图片

更有意思的是,模型之间的评分分歧并不是随机出现的。

在“问题框架设计”和“评估指标选择”这两个维度上,三大模型在 1 分以内的一致率是 100%;但在“实验设计”上,一致率只有 57%。

打开网易新闻 查看精彩图片

为什么会这样?原因其实很直观: 当学生给出的回答清晰、具体、有结构时,不论是人还是 AI,评分都高度一致;当学生的回答开始变得空泛、含糊、全是套话时,评分者就会在“到底该给多少部分分”上产生巨大分歧。所以,“实验设计”这一项的一致率低,反映的不是模型不靠谱,而是学生的回答本身就存在模糊性。

除此之外,Panos 坦言这套系统给出的评分,比他平时给学生的要严格一些。关于这一点,他认为是好事:“毕竟学生走出校园后,这个世界可不会习惯性给他们打高分。”

打开网易新闻 查看精彩图片

AI反馈质量远超人类水平

Panos 还提到,AI 系统会自动生成“优点 / 不足 / 改进行动”三段式反馈,并直接引用学生原话作为证据。

以最高分学生的反馈为例:

“你对指标权衡与 Goodhart 定律风险的理解非常出色—— 你用‘热水浴缸’的例子,完美阐释了优化单一指标如何导致其他指标失效。”

再以一位 B- 学生的反馈为例:

“请练习完整阐述 A/B 测试方案:明确提出假设、定义随机化单元、指定监控指标阈值、并建立方案上线或回滚的决策标准。”

这些反馈都具体、可落地,还附带实证支撑。Panos 感慨:“说实话,换成人类评分者,根本不可能为每个学生都做到这一步。”

而当 Panos 他们开始按考点拆分学生成绩时,一个短板暴露得淋漓尽致——实验设计。这个考点的平均分仅为 1.94 分(满分 4 分),对比“问题框架设计”考点的 3.39 分,差距一目了然。

具体的分数分布更是触目惊心:

● 3 名学生(8%)得 0 分——完全无法就该考点展开论述

● 7 名学生(19%)得 1 分——仅具备表层理解

● 15 名学生(42%)得 2 分——具备基础理解

● 0 名学生得 4 分——无人达到精通水平

这些数据让 Panos 他们意识到了自己的问题:课程中讲解 A/B 测试方法论的部分太过仓促。而这场由 AI 主导的口试,把这个教学漏洞赤裸裸地摆在了他们面前,想忽视都不行。

另一个令他们颇感意外的发现是:口试时长与最终得分完全不相关(相关系数 r = -0.03)。耗时最短的一场口试(9 分钟),反而拿到了最高分 19 分;而耗时最长的一场(64 分钟),得分只有 12 分。

也就是说,时间长并不代表懂得多,而真正的理解,反而是高效的。

打开网易新闻 查看精彩图片

那么学生怎么说

在公布成绩前,Panos 他们对学生做了问卷调查,收集他们对AI口试的感受,结果很有意思:

● 仅 13% 的学生更喜欢 AI 口试模式,57% 的学生还是倾向于传统笔试

● 83% 的学生认为 AI 口试比笔试更有压力

但与此同时:70% 的学生认同,AI 口试能更准确地检验他们的真实理解水平——这也是所有调查选项中认可度最高的一项。简单来说,大多数学生都认可这种评估方式,但对体验过程并不满意。

打开网易新闻 查看精彩图片

所以,结论很显然:核心思路是可行的,只是执行细节还需迭代优化。

在分享的最后,Panos 提到,课后作业的时代已经落幕,而退回传统的线下纸笔考试,更像是一种技术上的倒退。当今教师需要的,是一种能奖励真正的理解能力、决策能力和实时推理能力的评估方式:

“口试曾经是主流的评估手段,只是受限于规模问题才被淘汰;如今,AI 正在让口试重新变得规模化、可落地。”

Panos 补充道,还可以把整套 AI 口试系统直接开放给学生,让他们反复练习、充分备考。因为与传统考试“考题泄露即灾难”不同,AI 口试的考题是实时生成的——学生练得越多,掌握得就越扎实。

“而这,才是学习本该有的样子”,他表示,“以毒攻毒,方为上策。”

原文链接:https://www.behind-the-enemy-lines.com/2025/12/fighting-fire-with-fire-scalable-oral.html