上海人工智能实验室公布多名“AI考生”参加今年中国高考的成绩
上海人工智能实验室近日公布了多名“AI考生”参加今年中国高考的成绩,阿里Qwen2-72B、GPT-4o和“书生·浦语”2.0文曲星(InternLM2-20BWQX)成为前三名,得分率均超过70%。大多数“AI考生”在语文和英语科目上表现良好,但在数学科目上的表现却不尽如人意。其中,“书生·浦语”2.0文曲星获得数学最高分,超过了包括GPT-4o在内的其他大模型,展现了其在数学领域强大的能力。阿里Qwen2-72B和GPT-4o则在语文和英语科目上取得了不错的成绩,但数学成绩相对较低。“AI考生”的成绩公布,引发了中国各地考生和关注人工智能领域的广泛讨论。
今年高考结束后,司南评测体系OpenCompass选取了6个开源大模型和GPT-4o,开展了语文、数学、英语全卷能力测试,以评估学生在这三个科目上的综合能力。此次评测采用了全国新课标I卷,旨在为考生提供更加真实和全面的考试体验。为了确保评测的公正性和准确性,评测过程由具有高考评卷经验的教师进行人工评判。这些教师经过多次模拟考试和评卷实践,具备了丰富的评卷经验和技能,能够准确地评估学生的答题水平和能力。
六个大模型分别是阿里巴巴开源的Qwen2-57B和Qwen2-72B、上海人工智能实验室开源的“书生·浦语”2.0文曲星、智谱AI开源的GLM-4-9B、零一万物开源的Yi-1.5-34B、法国企业Mistral开源的Mixtral 8x22B。由于一些商用闭源模型的更新时间无法确定,为了保持公正,本次评测未纳入这些模型。Qwen2-57B和Qwen2-72B是由阿里巴巴开源的,是一款先进的对话系统,可用于自然语言处理、对话生成、对话分类、情感分析等应用。上海人工智能实验室开源的“书生·浦语”2.0文曲星是一款先进的自然语言处理模型,具有卓越的文本分类和命名实体识别能力。智谱AI开源的GLM-4-9B是一款大型语言模型,可用于各种自然语言处理任务,包括文本分类、命名实体识别、机器翻译等。
因为受测的开源模型均为大语言模型,在评测过程中,仅输入文字题干(数学包含2道带图试题),英语听力部分(分值30分)不纳入此次评测。结果,阿里Qwen2-72B以总分303分排名第一,其中语文124分(满分150分),数学70分(满分150分),英语109分(满分120分);GPT-4o以总分296分位居第二,其中语文111.5分,数学73分,英语111.5分;“书生·浦语”2.0文曲星以0.5分之差排名第三,其中语文112分,数学75分,英语108.5分。
可以看到,“AI考生”前三名都擅长文科,语文和英语成绩优良,而数学推理能力有待提升,高考数学成绩都不及格。目前,数学是所有大模型的短板,得益于上海人工智能实验室在数学推理上的投入,“书生·浦语”2.0文曲星在高考中得到75分,在所有受测模型中位居榜首,但仍存在较大提升空间。
与以往多采用高考客观题评测大模型的方式不同,在此次测试中,研究团队使用了语数外三科的全卷试题,既有选择、填空等“答案唯一性”题目,也包括简答、阅读理解、作文等主观题,在更接近真实高考的环境中测试模型的能力。
为贴近高考评卷模式,研究团队邀请多位有阅卷经验的高中教师对主观题答案评分,每份考卷至少由3人分别打分。遇到评分悬殊的情况,老师们会进行复核,尽量做到评分公正,为人工智能学术界和产业界提供更有价值的参考指标。与真实的高考一样,所有大模型答卷均进行了匿名处理,避免阅卷教师产生“先入为主”的观念。
对于这些“AI考生”的语数外水平,老师们给出了中肯的评价——语文评卷显示,大模型的现代文阅读理解能力普遍较强,但不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题,虽有针对性,但缺乏修饰,几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于文章中的一些“潜台词”,大模型也无法完全理解。数学评卷显示,大模型的主观题回答相对凌乱,解题过程有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力很强,但无法在解题过程中灵活运用。大模型的英语整体表现良好,大模型写的英语作文普遍存在因超出字数限制被扣分的情况,而人类考生大多因为字数不够被扣分。虽然AI模型在某些方面表现出色,但它们仍然存在一些明显的局限性。大模型的语文和数学能力还有一定的提升空间,尤其是在理解和应用语言和文学方面。大模型的写作能力也存在一些问题,如缺乏灵活性、无法理解某些抽象概念以及超出字数限制等。因此,老师们建议,AI考生应该继续努力提高自己的语数外水平,尤其是在理解和应用语言和文学方面。
声明:本网站所提供的信息仅供参考之用,并不代表本网赞同其观点,也不代表本网对其真实性负责。您若对该稿件内容有任何疑问或质疑,或内容、图片侵犯了您的合法权益,请尽快与我公司联系,本网将迅速给您回应并做相关处理。联系方式:284598818@qq.com
- 1.打造开放合作的“灯塔”项目 让各方人员包括研发者和资本提供者都参与进来
- 2.打造鼓励创新的生态系统 市场规模与市场接近度等方面协同推进
- 3.来自全球13个国家的34位顶尖国际企业家共谋共促创新发展
- 4.2024年“中国农民丰收节”上海主会场活动在浦东世纪公园举行
- 5.首届“上证杯”上海大学生创新创业大赛颁奖仪式在上海理工大学举行
- 6.秋分早晨上海最低气温在19℃—21℃ 是三个多月来最凉爽的一个早晨
- 7.第二届千年古镇(松江泗泾)龙舟邀请赛在泗泾古镇水域举行
- 8.30余名国际企业家齐聚上海 在上博东馆进行了一场中国文化探索之旅
- 9.第五届普陀人才节在半马苏河国际会议中心开幕
- 10.“大革命洪流与黄埔精神”学术研讨会在上海大学举行
- 11.2024首届上海国际光影节·浦东分会场亮灯仪式在陆家嘴中心绿地举行
- 12.上海市1600余台防空警报(除虹桥、浦东机场地区外)同时鸣响
- 13.2024年版上海轨道交通网络示意图将逐步在全网车站、车厢内更新
- 14.2024感动上海年度人物推选活动”获奖名单日前揭晓
- 15.上海市正加大力度进行旧住房成套改造,践行人民城市重要理念
- 16.去年部分市咨会成员们提出的建议已经逐步实现
- 17.第36次上海市市长国际企业家咨询会议在北外滩世界会客厅拉开帷幕
- 18.“全球智慧聚宝盆伴上海发展”——访铁狮门公司高级顾问夏冠东
- 19.“上海出品”《何以中国》《万桥飞架——山水间的人类奇迹》双双斩获“星光奖”优秀电视纪录片奖
- 20.复旦大学附属华山医院等13家医疗机构被授予“上海市公立医院国际医疗旅游试点单位”牌匾
- 21.上海将做好“1+1+6+X”绿灰设施的建设与完善
- 22.今年第14号台风“普拉桑”已位于江苏省海安市境内 强度等级已降至热带低压
- 23.上海创自1978年有完整小时降水观测资料以来最大的6小时降水量
- 24.第四届全球创新创业峰会之金融支持人才创新创业论坛在上海举办
- 25.2024世界设计之都大会将于9月27日至30日在上海世博城市最佳实践区举行
- 26.上海市公安局海外人才直联平台正式启用 提升强化国际人才集聚效应
- 27.上海首次由五个新城联动举办2024环上海·新城自行车赛
- 28.打造国际化创新创业生态 上海全力优化人才服务体系
- 29.全球创新创业峰会选手们用亲身经历讲述“海聚英才”带来的改变
- 30.第四届“海聚英才”全球创新创业峰会共吸引全球参赛项目约12000个
- 31.第四届“海聚英才”全球创新创业峰会昨天上午在上海市开幕
- 32.环上海·新城自行车赛将作为上海全新的自主品牌自行车赛事在五个新城设赛段举行
- 33.第五届“观澜论坛”在浦东新区规划和公共艺术中心举行
- 34.2024环上海·新城自行车赛启动仪式在世界会客厅举行
- 35.上海各区组织不少于7天的集中役前教育 开展形式多样的欢送新兵活动
- 36.沪皖共建长三角(广德)康养基地签约仪式在安徽举行
- 37.沪苏湖高铁沿线最大新建站——上海松江站进入最后攻坚阶段
- 38.2024上海赛艇公开赛将于9月28日至9月29日在苏州河水域举办
- 39.上海将推动空间信息全面赋能经济、生活、治理数字化转型
- 40.以“穿越光年”为主题的首届上海国际光影节在上海展览中心开幕