央广网北京6月26日消息(记者 徐芳)2024年全国高考结束后,国内外众多AI大模型随之上阵,在考场外参加了一场“高考”。6月24日,极客公园高考新课标Ⅰ卷全科目大模型评测报告出炉,成绩单让广大网友很感兴趣。
据了解,本次“大模型考生”包括GPT-4o(OpenAI)、豆包(字节跳动)、文心4.0(百度)、百小应(百川智能)、通义千问2.5(阿里巴巴)、Kimi智能助手(月之暗面)、元宝(腾讯)、智谱清言(智谱AI)以及海螺AI(MiniMax)等。使用的考卷,是覆盖地域广泛的“新课标Ⅰ卷”,与河南省考生所用的考卷相同。
从考试成绩来看,在文科方面,GPT-4o以562分位列榜首,国产大模型豆包表现优异,斩获542.5分的高分,成功超过河南文科一本线20多分。据悉,2024年河南文科本科一批录取分数线为521分,豆包、文心4.0、百小应三款国产AI大模型成功“冲上一本线”。
真实考题+名师阅卷文科表现出色,理科成绩欠佳
据了解,本次大模型“高考”,语文作文的阅卷人是北京市级骨干教师、怀柔区语文学科带头人夏老师。夏老师多次参与全国高考语文阅卷,经验颇为丰富。记者综合网络资料发现,在文科考试中,大模型们的表现普遍比较出色,特别是在语言类科目上,展现出了一定的逻辑与语言组织能力。然而在写作方面,尽管大模型的文章结构清晰、语言通顺,但普遍存在理性有余而感性不足的情况,缺乏感**彩与感染力。
理科方面,大模型们的成绩则普遍欠佳,多数大模型的理科总分在400分以下,与河南理科511分的一本线存在差距。
理科普遍不及格,大模型更像文科生
资料显示,在由历史、地理、**组成的新课标“文综”考卷评测中,GPT-4o获得237分,平均分79分,优于多数真实考生。
国产大模型产品中,豆包的文综成绩最高,为224.5分。历史科目最高分82.5分,豆包摘得;**科目最高分88分,GPT-4o摘得;地理科目最高分68分,GPT-4o摘得。
理科考试中,9款大模型产品里,数学考试只有GPT-4o、文心一言4.0和豆包获得60分以上的成绩,但面对满分150分的试卷,均未及格。在重点考查实验探究能力的化学和物理试卷中,各模型的平均分分别只有34分(满分100分)和39分(满分110分)。
尽管在理科考试中,各家大模型都有可圈可点之处,例如“豆包”大模型在求导题目和三角函数题上表现较好,展现出了一定的解题能力,但整体而言,在本次“高考”中数理科目全线不及格,大模型的理科最好成绩还无法进入真实考生的前30%。如何让大模型“文理兼修”,像人类一样思考和解决问题,大模型或许还有很长的路要走。
国产AI技术能力显著进步,挑战依然巨大
从这次“高考”结果来看,大模型在文科领域展现出了一定的优势,尤其在语言处理和知识记忆方面表现突出。河南高考分数段统计数据显示,GPT-4o的562分在文科考生中排名8811名,相当于真实考生的前2.45%,国产大模型“豆包”位列约4.27%的位置。在过去一年多的时间里,国产AI技术能力取得了显著进步。
理科领域,面对需要深度逻辑推理和灵活应变的问题时,大模型仍面临巨大挑战。这表明大模型在处理某些特定类型的任务时具备较强能力,但在综合运用知识和解决复杂实际问题方面,与人类的智力水平仍存在差距。
此次通过“高考”检验各家大模型,不仅备受业界及广大网友关注,对于大模型的发展也意义重大。一方面,为评估大模型的学习和知识运用能力提供了全新、客观的标准。同时,也让我们更加清晰地看到了各家大模型的优势和不足。在接下来的一年中,各家大模型将如何进步与发展,值得持续追踪。
最新发现
相关资讯
AI大模型“集体高考”,成绩单揭晓
央广网北京6月26日消息(记者 徐芳)2024年全国高考结束后,国内外众多AI大模型随之上阵,在考场外参加了一场“高考”。6月24日,极客公园高考新课标Ⅰ卷全科目大模型评测报告出炉,成绩单让广大网友很感兴趣。据了
2025-05-23 14:22:12
国内首个人形机器人大模型发布或将助力机器人产业提速
据媒体报道,中国首个基于视觉扩散架构的人形机器人任务生成式R-DDPRM模型正式发布,该模型由坐落于成都科创生态岛的成都人形机器人创新中心研发。其创新之处在于能够让人形机器人跨越多个约束进行泛化,创造真正
2025-05-23 13:58:12
OpenAI“停服”国产大模型争抢“平替”市场
6月25日,国内多家媒体报道“OpenAI将终止对中国提供API(应用程序接口)服务”,不少开发者收到来自OpenAI官方的通知邮件,邮件内容显示,自7月9日始,OpenAI将采取额外措施,阻止来自不在其支持的国家和地区列表
2025-05-23 13:34:12
OpenAI停止对中国大陆提供API服务,国产大模型应抓住机遇
OpenAI停止向中国大陆提供API服务,国产大模型寻求技术变现商机。华为云盘古大模型发布乐聚人形机器人“夸父”,快手推出图生视频功能。大模型不同参数适配不同场景,企业开拓新赛道。市场走向集中,企业面临技术变
2025-05-23 13:10:12
科大讯飞新模型首次上线,超越GPT-4Turbo;OpenAI销售大幅超微软
科大讯飞发布了讯飞星火大模型V4 0,表现超越GPT-4 Turbo;OpenAI人工智能模型销售额超过微软。荣耀辟谣麒麟芯片传闻,中国5G广播有望明年商用、云服务支出增长20%。
2025-05-23 12:46:12
第十五届夏季达沃斯论坛:聚焦中国经济和人工智能
第十五届夏季达沃斯论坛就中国经济发展、人工智能应用等议题展开深入讨论。论坛呼吁加强合作,推动开放型世界经济发展,吸引众多创新企业与会。与会嘉宾纷纷强调科技驱动,释放增长新动能。本文回顾了论坛重点讨
2025-05-23 12:22:12
今日热榜
拜登最新签署!事关人工智能
2025-03-20 12:09:47AI语音厂商思必驰完成5亿元融资
2025-03-20 13:10:08上海推进“人工智能+”行动
2025-03-21 17:17:08英伟达新品发布,这些人工智能企业应声上涨!基金提前布局
2025-03-24 15:27:062025人工智能行业趋势报告|大模型之家年度专题
2025-03-25 11:02:09中泰证券:AI进入推理时代,看好通信板块投资机会
2025-03-26 13:06:37DeepSeek再爆火AI竞赛崛起中国创新势力
2025-03-26 13:46:47为什么说“人工智能”这个词不够准确?
2025-03-27 12:54:47人工智能是必须要拥抱的新方向
2025-04-03 12:04:18月活用户超百万AI类App达11个
2025-04-04 13:12:24热门推荐