2026年1月7日下午,香港科技大学计算机实验室的监控画面记录下震撼一幕:戴着乐奇Rokid AI眼镜的孟子立教授仅用30分钟就完成《计算机网络原理》期末考试,系统自动批改显示92.5分的成绩瞬间跃上屏幕——这个分数超过了同期95%的人类考生。这场由张军教授团队主导的实验,正在全球教育界掀起关于AI时代评估体系重构的飓风。
实验采用的乐奇Rokid AI眼镜搭载了ChatGPT-5.2定制模型,其硬件配置堪称“作弊神器”:8000万像素的微型摄像头能以0.3秒/页的速度捕捉试题,骨传导耳机同步接收AI生成的语音提示,而最关键的AR投影模块可将答案直接投射到视网膜成像区域。在模拟真实考场的环境中,系统处理一道选择题的平均耗时仅0.8秒,即便是需要拓扑图推导的复杂网络协议题,AI也能在12秒内完成从图像识别到分步解答的全流程。
考卷分析报告显示,AI在标准化题型上展现出碾压性优势。对于“TCP三次握手过程”这类知识点记忆题,AI的作答与教科书完全一致;而在“计算子网掩码”等流程化问题时,其推导步骤比85%的学生更规范。唯一失分点出现在开放性较强的案例分析题,AI将“区块链应用于校园网络”的方案设计得过于理想化,未能考虑教务系统的实际兼容性问题——这个细微偏差恰恰暴露出当前大模型在落地场景经验上的局限。
实验数据与英国雷丁大学早前的研究形成残酷对照:在匿名混入的1.2万份AI生成答卷中,94%能骗过教授的人工批改,且平均分比人类学生高出6.8分。这种冲击直接动摇了传统考试的底层逻辑。“当机器比人类更擅长‘应试’,我们到底在考核什么?”教授在实验报告中发问。纽约大学教育技术中心主任丽莎·陈的跟踪研究印证了这一焦虑:在计算机、金融等标准化知识密集型领域,AI已能稳定产出前10%水平的答案。
全球高校正展开应对实验。香港中文大学开发的“思维显影”系统要求学生在每个解题步骤后录制30秒的口头解释;麻省理工的“代码演化树”平台则自动记录编程作业中所有调试痕迹。更激进的改革来自北欧,奥斯陆大学将40%的课程评估改为“对抗性测试”——学生需现场修改AI生成的错误答案并论证修正逻辑。这些探索都指向同一个方向:评估重心正从“答案正确性”向“思维可见度”迁徙。
在这场人机博弈中,教育者开始重新定义“核心素养”。上海交通大学试点的“过程性档案袋”收录了学生从文献检索到终稿的全周期数字足迹,其评估维度包括“提问质量”“迭代次数”等17项元能力指标。而东京工业大学开发的“AI协作指数”则量化计算人类在混合任务中的贡献值,其校长松本淳一指出:“未来人才的优势不在于记忆或计算,而在于提出AI想不到的问题。”
商业领域已嗅到变革先机。硅谷初创公司EduMeta推出的“认知增强监考系统”,能通过眼动追踪和压力传感器识别学生是自主思考还是依赖AI提示。国内头部在线教育平台则纷纷上线“AI对抗训练营”,学员需要设计能难倒GPT-5的原创题目。这些尝试暗合了教育家杜威百年前的预言:“真正的考试,应该测量的是面对未知时的创造性混乱。”
热门跟贴