您现在的位置:教育 > GRE作文用AI打分,20周年了:AI给中国考生的分数,远超

GRE作文用AI打分,20周年了:AI给中国考生的分数,远超

日期:2019-11-08 21:57:31    阅读次数:1061    保护视力色:       
【字体: 打印

凹非寺栗

量子位报告

gre作文由人工智能评分。

这不应该是新闻。

然而,由于美国媒体副总裁发布的一项调查,此事已成为热烈讨论的焦点。

Vice调查了美国50个州,发现至少有21个州(包括加利福尼亚)采用人工智能作为作文评分的主要/次要工具,并将其用于标准化测试。

δ蓝色=人工智能分数,浅蓝色=飞行员,红色=无人工智能分数,桃子=学区,灰色=无响应

在21个州中,只有3个州表示人类也将参与作文评分。在剩下的18个州,只有5%到20%的作文将被随机选择,并提交给人类,以审查人工智能给出的结果。

问题是标准化测试经常被用作选择的基础,并将影响人类的未来。如果人工智能得分,命运掌握在人工智能手中。

这时,人们不禁想起gre,一位20年前开始使用人工智能来判断作文的伟大长者。

有许多研究表明,包括gre评分机e-rater在内,许多人工智能的文章评判机制都存在明显的缺陷。

然而,这些年来,人工智能并没有被各种成分测试所抛弃,而是变得越来越流行。

结果,黑客新闻网民开始了热烈的讨论,不到一天的时间,热度就达到了330度。

早在1999年,gre的主办方教育考试服务中心(ets)就开始用电子评分员对作文进行评分。

根据官方信息,这种自然语言处理(nlp)模型有以下8个评分标准:

基于词汇测量的内容分析

词汇复杂性/措辞

语法错误的比例

使用错误的比例

力学误差的比例

指拼写、大小写和标点符号错误等技术问题。

风格评论的比例

例如,有太多的短语,太多的短句,太多的长句,等等。

组织和发展分数

事实上,情况并非如此。

当然,这个人工智能不仅服务于gre。至少,托福和gre一样,也是ets考试。

对于该算法的缺陷,ets官员做了大量的研究,从不回避结果。

在1999年、2004年、2007年、2008年、2012年和2018年的作文中,可以发现中国大陆考生的人工智能分数普遍高于人类分数。

相反,在非裔美国人中,人工智能通常低于人类。母语为阿拉伯语、西班牙语和印地语的候选人也存在类似情况。尽管团队一直在改进算法,但并没有消除这个问题。

ets的一名高级研究员说:

如果我们希望算法对某个国家的某个群体友好,它可能会伤害其他群体。

此外,人工智能的评分是在个别项目中观察到的。

在所有考生中,中国大陆考生在语法和机械方面的评分普遍较低。

另一方面,在文章长度和复杂词汇的选择方面,中国大陆考生的人工智能分数超过平均水平。最后,人工智能给了大陆候选人比人类更高的综合分数。gre作文的满分是6分,人工智能比人类的平均分数高1.3分。

相比之下,在非裔美国人中,人工智能比人类的平均评分低0.81个百分点。而且,这只是平均数据,在许多考生中,差异比这更严重。

无论是1.3还是0.81,在6分测试中都不是一个小数字,这可能会严重影响考生的成绩。

不仅如此,麻省理工学院的小伙伴们开发了一种叫做巴别塔的算法,将复杂的单词和短语拼凑在一起。由此产生的文章没有真正的意义,但是现在被评分了,gre的在线评分工具!他得了4分。

然而,ets说人工智能不会单独评判论文。对于人工智能评分的每篇作文,都有一个人同时评分。然后,人机评分之间的差异被移交给第二个人来判断并获得最终分数。

因此,ets认为候选人不会受到人工智能缺陷的不利影响。

然而,相比之下,传统的方法是两个人同时给一篇文章评分。然而,当人工智能得分而不是其中一个得分时,这个人的职责就变成了审查。

成本可能已经下降了很多,很难说它会对结果产生多大影响。至少评分机制不同于人工智能参与之前。

此外,人工智能的存在不仅影响成绩,还直接影响考生的考试策略。这些年来,有越来越多的策略来取悦人工智能:

△来自追逐梦想论坛@竹林人

幸运的是,gre让人类和人工智能一起得分。

但是仍然有许多测试直接交给人工智能来判断组成:

例如,副调查发现犹他州多年来一直将人工智能作为主要的作文评分工具。

该州的一名官员解释了原因:

人工评分不仅耗时,而且对国家来说也是一项重大支出。

因此,当人工智能用于写作评分时,它能公平公正地降低成本吗?

美国研究机构(air)是一个非营利组织,也是犹他州领先的测试提供商。

关于给人工智能打分的问题,air给出了一个模型:

问题是,当你看到一张奶牛的照片时,你必须写一个观察(甲)和一个推理(乙)。

air每年都会做一份报告来评估一些新话题的公平性。

评估的重点之一是女生和少数民族学生在某些测试问题上的表现是否比男生/白人学生差。该指标称为“dif”。

报告显示,2017-2018学年,三至八年级的写作测试中有348次被判定有轻微的差异;女孩和少数民族学生。相比之下,男生和白人学生有40个略有差异的问题。

此外,另外三个问题被认为对女孩和少数民族学生有严重的差别。这些议题将由一个特别委员会审查。

dif有许多可能的原因,算法偏差是最受关注的因素。

犹他州的一位家长(@dahart)占据了黑客新闻讨论板的顶层。

他不喜欢听到那些官员说“成本”。他觉得教育原本是费时费力的,不可能既快又便宜。

他说孩子们的作文是用机器评分的,整个家庭对人工智能给的分数不满意,恋人和孩子会哭。

当然,人工智能句子成分不仅在美国存在。

去年,《南华早报》称,全国已有6万所学校依靠人工智能批改作业,分布在全国各地。

其中,学生提交的英语作业也由机器评分。作文批改系统来自酷酷的句子批改网络。有必要理解文本的一般逻辑和意义,像人一样对作文的整体质量做出合理的判断,并对写作风格、结构、主题等提出建议。

据说在92%的情况下,人工智能和人类教师在作文中得分相同。

然而,从评论来看,学生们也像他们的美国朋友一样遭受了很多痛苦:

这种情感,还是不分国界的。

参考:

http://www . vice . com/en _ us/article/pa7dj 9/defined-algorithms-are-grading-million-million-students-essays

http://www . Washington post . com/news/answer-sheet/WP/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on common-core-tests/

Ets发表了许多nlp论文:

https://www.ets.org/research/topics/as_nlp/writing_quality/

-完毕-

真诚的招聘

量子比特正在北京中关村招聘编辑/记者。期待有才华和热情的学生加入我们!详情请回复qbitai对话界面中的“招聘”一词。

量子位qbitai

跟踪人工智能技术和产品的新发展

北京11选5 万博manbetx官网 11选5购买