能量君还记得读书时,每次月考结束后,批改文科卷的老师总是抱怨自己要在学生不知所云的答案中找采分点,不像理科批卷老师那么轻松。
如今,随着人工智能的进步,AI开始接手这一工作,学会寻找“采分点”,让老师从繁忙的批卷工作中解放出来。
然而,一个号称服务美国2万所学校的AI教学平台,却在评分工作中翻车了。
一位美国家长有一天发现,她读七年级的儿子一道历史题给的分数只有50%。
这道题问的是:君士坦丁堡的地理位置是如何帮助拜占庭帝国变得富有强大的?
而孩子的回答是基本没有问题的。
孩子表示自己写的答案提交上去后一秒就出成绩了,这么多字数,人类老师不可能这么快给出成绩。
因此这位家长怀疑批卷的不是老师,是AI。她觉得,AI系统很可能是根据关键词来评分。为了验证自己的想法,她把儿子的作业做了一遍。
她尝试在答案里加入“财富、商队、中国、印度”,也就是上图中的最后一句,反正能想到的关键词都一股脑儿填进去。
奇迹出现了,这道题她拿了满分。即使这些关键词之间没有任何串联。
这位家长发的相关声明
家长猜测AI批卷是按照关键词给分。实际上这家在线考试公司在官方的帮助中心里已经承认了:我们就是按照关键词的百分比来评分的。
没有关键词0分,全部命中拿100分。
提供这项AI评分技术的公司叫做Edgenuity。
不过靠罗列关键词来得分,显然不靠谱。
其实,这家公司提供的AI评分系统翻车的案例不止这个七年级学生一个。
一周前,有网友抱怨自己只拿了0分
一位多年前使用过该系统的高中生说,他当年就发现了这个作弊方法。当他完全不知道怎么答题的时候,就在回答框里填入各种单词,而且“经常会奏效”。
还有学生发现,把问题粘贴到答案里也可以得分,因为问题里常常包含了关键词。(这不是当年写政治的时候,不会就抄题干的我?)
于是,针对这个“漏洞百出”的Edgenuity,学生们已经开始对它的评分系统展开“作弊经验分享”。
谷歌上关于“如何在Edgenuity上作弊”成为热搜
Reddit论坛的Edgenuity板块里,学生们公然讨论着如何作弊
为什么美国这么多学校会选用这么一款智障的AI软件来评分呢?
事实上,1998年就成立的Edgenuity,是美国K-12市场的在线课程和教学服务的最大供应商。
2011年,Edgenuity以5000万美元被Weld North收购后,目前已经有超过2万所学校使用这个教学平台,包括全美排名前25的学区中的20个。
也就是说,全美国教育资源最顶尖的地区,80%都能见到Edgenuity的身影。
2016年它收购了一家名为Compass Learning的教育软件提供商,这家公司主要负责做小学和中学阶段的学习评测软件,被收购时,已经有超过200万个美国学生、1万多所美国学校在使用。
现在由于疫情原因,大部分美国学校将目光转向了在线教育课程,其中一些学校更是直接将教学和测验都外包给了像Edgenuity这样的在线教育公司。
面对频频出现的“评分翻车”,Edgenuity做出了回应,称AI打分永远只会提供“算法上的指导”,不能决定学生的课程成绩。
连批卷都做不好,再提供“算法指导”?我有点担忧这帮学生的未来了。
AI评分在我国也不是什么新鲜事,早在2016年,我国教育考试中心就和科大讯飞成立了联合实验室,共同开展人工智能技术在阅卷、命题、考试评价分析等方面的研究,并在2017年湖北襄阳中考评卷工作中引入了该机器评分系统作为评分辅助手段。
图源网络
2017年,阿里也推出了AI批阅中文试卷的系统,产出了“全球第一份机器人批改的作文”。
不过和老师评分要看行文逻辑,中心思想,主题升华不同,AI改作文的主要标准,是集中在“纠正语法”上。
除了阿里和科大讯飞,一些教育软件服务也有自己的评分系统,然而给分标准非常死板。
有微博网友发现,一个奇点学院的APP,在批改数学题的时候,要求答案只能与它的公式“完全一致”,其他步骤即使是对的,也不给满分。
图源微博@安托利娅
哪怕是推导过程无误,答案正确的情况下,10分的题目也只给了7.5分。
这么看来,老师们还要亲自参与评分,毕竟评分标准中,“酌情给分”这一条,对AI来说可太难了。
热门跟贴