上海人工智能实验室公布多名“AI考生”参加今年中国高考的成绩

时间:2024-06-21 09:53   作者:admin  来源:东方广播网       返回首页

  上海人工智能实验室近日公布了多名“AI考生”参加今年中国高考的成绩,阿里Qwen2-72B、GPT-4o和“书生·浦语”2.0文曲星(InternLM2-20BWQX)成为前三名,得分率均超过70%。大多数“AI考生”在语文和英语科目上表现良好,但在数学科目上的表现却不尽如人意。其中,“书生·浦语”2.0文曲星获得数学最高分,超过了包括GPT-4o在内的其他大模型,展现了其在数学领域强大的能力。阿里Qwen2-72B和GPT-4o则在语文和英语科目上取得了不错的成绩,但数学成绩相对较低。“AI考生”的成绩公布,引发了中国各地考生和关注人工智能领域的广泛讨论。

  今年高考结束后,司南评测体系OpenCompass选取了6个开源大模型和GPT-4o,开展了语文、数学、英语全卷能力测试,以评估学生在这三个科目上的综合能力。此次评测采用了全国新课标I卷,旨在为考生提供更加真实和全面的考试体验。为了确保评测的公正性和准确性,评测过程由具有高考评卷经验的教师进行人工评判。这些教师经过多次模拟考试和评卷实践,具备了丰富的评卷经验和技能,能够准确地评估学生的答题水平和能力。

  六个大模型分别是阿里巴巴开源的Qwen2-57B和Qwen2-72B、上海人工智能实验室开源的“书生·浦语”2.0文曲星、智谱AI开源的GLM-4-9B、零一万物开源的Yi-1.5-34B、法国企业Mistral开源的Mixtral 8x22B。由于一些商用闭源模型的更新时间无法确定,为了保持公正,本次评测未纳入这些模型。Qwen2-57B和Qwen2-72B是由阿里巴巴开源的,是一款先进的对话系统,可用于自然语言处理、对话生成、对话分类、情感分析等应用。上海人工智能实验室开源的“书生·浦语”2.0文曲星是一款先进的自然语言处理模型,具有卓越的文本分类和命名实体识别能力。智谱AI开源的GLM-4-9B是一款大型语言模型,可用于各种自然语言处理任务,包括文本分类、命名实体识别、机器翻译等。

  因为受测的开源模型均为大语言模型,在评测过程中,仅输入文字题干(数学包含2道带图试题),英语听力部分(分值30分)不纳入此次评测。结果,阿里Qwen2-72B以总分303分排名第一,其中语文124分(满分150分),数学70分(满分150分),英语109分(满分120分);GPT-4o以总分296分位居第二,其中语文111.5分,数学73分,英语111.5分;“书生·浦语”2.0文曲星以0.5分之差排名第三,其中语文112分,数学75分,英语108.5分。

  可以看到,“AI考生”前三名都擅长文科,语文和英语成绩优良,而数学推理能力有待提升,高考数学成绩都不及格。目前,数学是所有大模型的短板,得益于上海人工智能实验室在数学推理上的投入,“书生·浦语”2.0文曲星在高考中得到75分,在所有受测模型中位居榜首,但仍存在较大提升空间。

  与以往多采用高考客观题评测大模型的方式不同,在此次测试中,研究团队使用了语数外三科的全卷试题,既有选择、填空等“答案唯一性”题目,也包括简答、阅读理解、作文等主观题,在更接近真实高考的环境中测试模型的能力。

  为贴近高考评卷模式,研究团队邀请多位有阅卷经验的高中教师对主观题答案评分,每份考卷至少由3人分别打分。遇到评分悬殊的情况,老师们会进行复核,尽量做到评分公正,为人工智能学术界和产业界提供更有价值的参考指标。与真实的高考一样,所有大模型答卷均进行了匿名处理,避免阅卷教师产生“先入为主”的观念。

  对于这些“AI考生”的语数外水平,老师们给出了中肯的评价——语文评卷显示,大模型的现代文阅读理解能力普遍较强,但不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题,虽有针对性,但缺乏修饰,几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于文章中的一些“潜台词”,大模型也无法完全理解。数学评卷显示,大模型的主观题回答相对凌乱,解题过程有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力很强,但无法在解题过程中灵活运用。大模型的英语整体表现良好,大模型写的英语作文普遍存在因超出字数限制被扣分的情况,而人类考生大多因为字数不够被扣分。虽然AI模型在某些方面表现出色,但它们仍然存在一些明显的局限性。大模型的语文和数学能力还有一定的提升空间,尤其是在理解和应用语言和文学方面。大模型的写作能力也存在一些问题,如缺乏灵活性、无法理解某些抽象概念以及超出字数限制等。因此,老师们建议,AI考生应该继续努力提高自己的语数外水平,尤其是在理解和应用语言和文学方面。

声明:本网站所提供的信息仅供参考之用,并不代表本网赞同其观点,也不代表本网对其真实性负责。您若对该稿件内容有任何疑问或质疑,或内容、图片侵犯了您的合法权益,请尽快与我公司联系,本网将迅速给您回应并做相关处理。联系方式:284598818@qq.com

推荐阅读
| 关于我们 | 联系我们 | 隐私条款 | 广告服务 | 频道合作 | 站点地图 |
 备案:冀ICP备18014129号-10
 东方广播网 
©1996- 涿州市国谕广告有限公司版权所有