上海人工智能实验室19日公布了首个AI高考全卷评测结果,数学成绩不佳。评测使用6个开源模型进行能力测试,数学是各模型的短板。
IT之家 6 月 20 日消息,上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍,2024 年全国高考甫一结束,该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。
评测采用全国新课标 I 卷,参与评测的所有开源模型开源时间均早于高考,确保评测“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。
该机构表示,Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。
具体来看,InternLM2-20B-WQX 取得了数学单科的最高分,超越包括 GPT-4o 在内的所有模型。
IT之家注:此次参与“大模型高考”评测的产品包含 GPT-4o 及其他 6 个模型。为公平起见,此次评测没有纳入商用闭源模型。
Mixtral 8x22B:法国 AI 创业公司 Mistral 于 2024 年 4 月 17 日开源的对话模型。
Yi-1.5-34B:零一万物公司于 2024 年 5 月 12 日开源的 Yi-1.5 系列最大的模型。
GLM-4-9B:智谱 AI 于 2024 年 6 月 4 日推出的最新一代预训练模型 GLM-4 系列的开源版本。
InternLM2-20B-WQX:上海人工智能实验室于 2024 年 6 月 4 日开源的书生・浦语 2.0 系列文曲星大语言模型。
Qwen2-57B:阿里巴巴于 2024 年 6 月 6 日开源的 Qwen2 系列 MoE 对话模型。
Qwen2-72B:阿里巴巴于 2024 年 6 月 6 日开源的 72B 稠密模型。
语数外三科加起来的满分为 420 分,此次高考测试结果显示,阿里通义千问 2-72B 排名第一,为 303 分,OpenAI 的 GPT-4o 排名第二,得分 296 分,上海人工智能实验室的书生・浦语 2.0 排名第三,三个大模型的得分率均超过 70%。来自法国大模型初创公司的 Mistral 排名末尾,仅拿下 185 分。
数学是所有大模型的短板,平均得分率仅有 36%,参与测试的大模型无一及格。
此外,阅卷教师也对大模型表现进行了整体分析,为模型能力提升策略提供参考。
模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。
大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。
多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。
大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。
大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。
英语整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。
大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。
评测结果显示数学成绩普遍不及格,文章分析了语数外三科的表现,为模型能力提升提供了策略参考。甚至出现过程错误但得到正确答案的情况,大模型的公式记忆能力强,但无法在解题过程中灵活引用。
最新发现
相关资讯
上海人工智能实验室首次发布AI高考评测结果,数学成绩惨淡
上海人工智能实验室发布了首个AI高考全卷评测结果,显示数学成绩不及格。评测采用了6个开源模型进行能力测试,数学是各大模型的短板。文章分析了语文、数学和英语三科的表现,为模型能力提升提供参考。
2025-05-28 16:27:38
AI文风测试火了,林夕的词风竟像大冰,网友:悬着的心终于死了
人工智能浪潮下,AI文风测试火了,网友们纷纷尝试通过上传文本测试自己的文风像哪位作家。工具收录了中外作家,用户也用ChatGPT等工具复刻测试。文风像郭敬明、大冰等作家,引发网友热议。
2025-05-28 16:03:38
AI发现冠心病罕见变异基因
美国西奈山伊坎医学院研究人员使用一种先进的人工智能(AI)工具,在17个基因中识别出罕见的编码变异,揭示了冠状动脉疾病(CAD,也称冠心病)的分子基础。近日发表在《自然·遗传学》上的相关研究,揭示了影响心
2025-05-28 15:39:38
AI技术在摄影比赛中的争议引发讨论
一张“以真乱假”的照片在摄影比赛中引发争议,探讨AI技术应用与真实摄影的边界。摄影师通过照片向世界发出信息,AI技术带来虚假图像扩散带来担忧。摄影比赛首次设立AI单元评比,希望引发更多对AI技术的思考。
2025-05-28 15:15:38
普陀区企业斩获全球AI电影大赛双料大奖!
普陀区企业上海浮玉影业斩获全球AI电影马拉松大赛“最佳技术奖”和“最佳IP创意奖”,成为唯一获得两项大奖的团队。作品《汪洋战争》融合百余个AI生成元素,展现未来科幻故事。公司秉承正能量传播理念,得到政府支持
2025-05-28 14:51:38
谷歌人工智能新技术:视频配乐和对白生成工具揭秘
谷歌DeepMind最新AI技术首次实现视频生成配乐,并一举攻破生成视频时同步生成音效难题,为媒体拼图领域带来突破性进展。
2025-05-28 14:27:38
今日热榜
拜登最新签署!事关人工智能
2025-03-20 12:09:47上海推进“人工智能+”行动
2025-03-21 17:17:08英伟达新品发布,这些人工智能企业应声上涨!基金提前布局
2025-03-24 15:27:062025人工智能行业趋势报告|大模型之家年度专题
2025-03-25 11:02:09中泰证券:AI进入推理时代,看好通信板块投资机会
2025-03-26 13:06:37DeepSeek再爆火AI竞赛崛起中国创新势力
2025-03-26 13:46:47为什么说“人工智能”这个词不够准确?
2025-03-27 12:54:47人工智能是必须要拥抱的新方向
2025-04-03 12:04:18月活用户超百万AI类App达11个
2025-04-04 13:12:24360发布全新AI搜索产品“纳米搜索”
2025-04-15 11:53:31热门推荐