谷歌DeepMind的AI系统在最新的国际数学奥林匹克竞赛(IMO)上取得了惊人的成绩。
 609名参赛选手中,拿到金牌的只有58人在正式比赛中,人类选手会分两次提交答案,每次限时4.5小时。有趣的是,AI只用了几分钟便答出了其中一道,但剩下的问题却花了整整三天时间,可以说是严重超时了。
609名参赛选手中,拿到金牌的只有58人在正式比赛中,人类选手会分两次提交答案,每次限时4.5小时。有趣的是,AI只用了几分钟便答出了其中一道,但剩下的问题却花了整整三天时间,可以说是严重超时了。 这次立下大功的,是两款AI系统——AlphaProof和AlphaGeometry 2。划重点:2024 IMO并不在这两个AI的训练数据中。其实,早在今年1月份,谷歌DeepMind的第一代AlphaGeometry就登上了Nature。当时,它做出了IMO 30个几何题中的25道。AI工程师devin背后创始人之一Scott Wu(IOI三枚金牌得主)感慨道,「当我还是个孩子的时候,奥林匹克竞赛就是我的全部。从来没有想过,仅仅10年后,它们就被AI解决了」。
这次立下大功的,是两款AI系统——AlphaProof和AlphaGeometry 2。划重点:2024 IMO并不在这两个AI的训练数据中。其实,早在今年1月份,谷歌DeepMind的第一代AlphaGeometry就登上了Nature。当时,它做出了IMO 30个几何题中的25道。AI工程师devin背后创始人之一Scott Wu(IOI三枚金牌得主)感慨道,「当我还是个孩子的时候,奥林匹克竞赛就是我的全部。从来没有想过,仅仅10年后,它们就被AI解决了」。 今年的IMO竞赛上,共有六道赛题,涉及代数、组合学、几何和数论。六道做出四道,让我们感受一下AI的水平——
今年的IMO竞赛上,共有六道赛题,涉及代数、组合学、几何和数论。六道做出四道,让我们感受一下AI的水平——
 AI的数学推理能力,震惊评分教授我们都知道,以前的AI在解决数学问题上一直捉襟见肘,原因在于推理能力和训练数据的限制。而今天携手登场的两位AI选手,则打破了这种限制。它们分别是——– AlphaProof,基于强化学习的形式数学推理新系统– AlphaGeometry 2,第二代几何解题系统两位AI给出的答案,由著名数学家Timothy Gowers教授(IMO金牌得主和菲尔兹奖得主)和Joseph Myers博士(两次IMO金牌得主、IMO 2024问题选择委员会**),根据规则进行评分。最终,AlphaProof正确做出两个代数题和一个数论题,其中一个最难的问题,在今年IMO中只有5名人类参赛者做了出来;AlphaGeometry 2则做出了一道几何题。没有被攻克的,只有两道组合数学题。Timothy Gowers教授在评分的过程中,也被深深地震撼了——程序能够提出这样一个非显而易见的解法,实在令人印象深刻,远超出我对当前技术水平的预期。
AI的数学推理能力,震惊评分教授我们都知道,以前的AI在解决数学问题上一直捉襟见肘,原因在于推理能力和训练数据的限制。而今天携手登场的两位AI选手,则打破了这种限制。它们分别是——– AlphaProof,基于强化学习的形式数学推理新系统– AlphaGeometry 2,第二代几何解题系统两位AI给出的答案,由著名数学家Timothy Gowers教授(IMO金牌得主和菲尔兹奖得主)和Joseph Myers博士(两次IMO金牌得主、IMO 2024问题选择委员会**),根据规则进行评分。最终,AlphaProof正确做出两个代数题和一个数论题,其中一个最难的问题,在今年IMO中只有5名人类参赛者做了出来;AlphaGeometry 2则做出了一道几何题。没有被攻克的,只有两道组合数学题。Timothy Gowers教授在评分的过程中,也被深深地震撼了——程序能够提出这样一个非显而易见的解法,实在令人印象深刻,远超出我对当前技术水平的预期。 AlphaProofAlphaProof是一个能够在形式化语言Lean中证明数学命题的系统。它结合了预训练的大语言模型和AlphaZero强化学习算法,后者曾自学掌握了国际象棋、将棋和围棋。形式化语言的一个关键优势,就是可以对涉及数学推理的证明进行形式化验证。然而,由于人类编写的相关数据量非常有限,它们在机器学习中的应用一直受到限制。相比之下,基于自然语言的方法尽管可以访问大量数据,但却可能产生似是而非、但不正确的中间推理步骤和解决方案。为了克服这一点,谷歌DeepMind研究者通过微调Gemini模型,将自然语言问题陈述自动翻译成形式化陈述,建立了一个包含不同难度的形式化问题的大型库,从而在两个互补领域之间架起桥梁。解题时,AlphaProof会生成候选的解决方案,并通过在Lean中搜索可能的证明步骤,来证明或反驳它们。
AlphaProofAlphaProof是一个能够在形式化语言Lean中证明数学命题的系统。它结合了预训练的大语言模型和AlphaZero强化学习算法,后者曾自学掌握了国际象棋、将棋和围棋。形式化语言的一个关键优势,就是可以对涉及数学推理的证明进行形式化验证。然而,由于人类编写的相关数据量非常有限,它们在机器学习中的应用一直受到限制。相比之下,基于自然语言的方法尽管可以访问大量数据,但却可能产生似是而非、但不正确的中间推理步骤和解决方案。为了克服这一点,谷歌DeepMind研究者通过微调Gemini模型,将自然语言问题陈述自动翻译成形式化陈述,建立了一个包含不同难度的形式化问题的大型库,从而在两个互补领域之间架起桥梁。解题时,AlphaProof会生成候选的解决方案,并通过在Lean中搜索可能的证明步骤,来证明或反驳它们。 每个被找到并验证的证明,都被用于强化AlphaProof的语言模型,让它可以在后续解决更难的问题。为了训练AlphaProof,研究者证明或反驳了几百万个问题,涵盖了从比赛前几周到比赛期间广泛的难度和数学主题领域。在比赛期间,他们还应用了训练循环,通过强化自生成的比赛问题变体的证明,直到找到完整的解决方案。
每个被找到并验证的证明,都被用于强化AlphaProof的语言模型,让它可以在后续解决更难的问题。为了训练AlphaProof,研究者证明或反驳了几百万个问题,涵盖了从比赛前几周到比赛期间广泛的难度和数学主题领域。在比赛期间,他们还应用了训练循环,通过强化自生成的比赛问题变体的证明,直到找到完整的解决方案。 AlphaProof强化学习训练循环的流程信息图:大约一百万个非正式数学问题由形式化网络翻译成形式化数学语言;接着,求解网络通过搜索这些问题的证明或反驳,并利用AlphaZero算法逐步训练自己,以解决更具挑战性的问题AlphaGeometry 2AlphaGeometry的升级版AlphaGeometry 2,是一个神经符号混合系统,基于Gemini的语言模型从头开始训练。基于比上一代多了一个数量级的合成数据,它能够做出难度更高的几何问题,包括涉及物体运动、角度、比例和距离方程等等。此外,它还采用了比前一代快两个数量级的符号引擎。当遇到新问题时,它会用一种新颖的知识共享机制,使不同搜索树的高级组合能够解决更复杂的问题。在今年参赛IMO之前,AlphaGeometry 2已经战绩累累:它能做出过去25年IMO几何赛题中的83%,而第一代只能做出53%。在这届IMO中,AlphaGeometry 2的神勇速度更是震惊了众人——在接收到形式化问题的19秒内,它就把问题4做出来了!
AlphaProof强化学习训练循环的流程信息图:大约一百万个非正式数学问题由形式化网络翻译成形式化数学语言;接着,求解网络通过搜索这些问题的证明或反驳,并利用AlphaZero算法逐步训练自己,以解决更具挑战性的问题AlphaGeometry 2AlphaGeometry的升级版AlphaGeometry 2,是一个神经符号混合系统,基于Gemini的语言模型从头开始训练。基于比上一代多了一个数量级的合成数据,它能够做出难度更高的几何问题,包括涉及物体运动、角度、比例和距离方程等等。此外,它还采用了比前一代快两个数量级的符号引擎。当遇到新问题时,它会用一种新颖的知识共享机制,使不同搜索树的高级组合能够解决更复杂的问题。在今年参赛IMO之前,AlphaGeometry 2已经战绩累累:它能做出过去25年IMO几何赛题中的83%,而第一代只能做出53%。在这届IMO中,AlphaGeometry 2的神勇速度更是震惊了众人——在接收到形式化问题的19秒内,它就把问题4做出来了! 问题4要求证明∠KIL和∠XPY之和等于180°。AlphaGeometry 2建议在BI线上构造一个点E,使得∠AEB=90°。点E有助于确定AB的中点L,形成了许多类似的三角形对,如ABE ~ YBI和ALE ~ IPC,从而证明结论AI的解题过程
问题4要求证明∠KIL和∠XPY之和等于180°。AlphaGeometry 2建议在BI线上构造一个点E,使得∠AEB=90°。点E有助于确定AB的中点L,形成了许多类似的三角形对,如ABE ~ YBI和ALE ~ IPC,从而证明结论AI的解题过程 IMO 2024第一题主要考察了实数α的性质,并要求找出满足特定条件的实数α。
IMO 2024第一题主要考察了实数α的性质,并要求找出满足特定条件的实数α。 AI给出了正确答案——α是偶整数。那么,它具体是如何解答的呢?
AI给出了正确答案——α是偶整数。那么,它具体是如何解答的呢? 解题第一步,AI先给出了一个定理,左右两边集合相等。左边集合表示,所有满足条件的实数α,对于任何正整数n,n能整除从1到n的⌊i*α⌋;右边集合表示,存在一个整数k,k是偶数,实数α等于k。
解题第一步,AI先给出了一个定理,左右两边集合相等。左边集合表示,所有满足条件的实数α,对于任何正整数n,n能整除从1到n的⌊i*α⌋;右边集合表示,存在一个整数k,k是偶数,实数α等于k。 接下来的证明中,分为两个方向。首先证明右边集合,是左边集合的子集(简单方向)。
接下来的证明中,分为两个方向。首先证明右边集合,是左边集合的子集(简单方向)。 然后,再证明左边集合,是右边集合的子集(困难方向)。
然后,再证明左边集合,是右边集合的子集(困难方向)。 直到代码结束时,AI提出了一个关键等式⌊(n+1)*α⌋ = ⌊α⌋+2n(l-⌊α⌋),使用等式来证明α必须是偶数。
直到代码结束时,AI提出了一个关键等式⌊(n+1)*α⌋ = ⌊α⌋+2n(l-⌊α⌋),使用等式来证明α必须是偶数。 最后,DeepMind总结了AI在解题过程中,依赖的三个公理:propext、Classical.choice,以及Quot.sound。
最后,DeepMind总结了AI在解题过程中,依赖的三个公理:propext、Classical.choice,以及Quot.sound。 以下是P1的完整解题过程:https://storage.Googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P1/index.html
以下是P1的完整解题过程:https://storage.Googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P1/index.html 上下滑动查看
上下滑动查看 AI求解的答案是:
AI求解的答案是: 定理是对于满足特定条件的正整数对(a,b),其集合只能包含(1,1)。
定理是对于满足特定条件的正整数对(a,b),其集合只能包含(1,1)。 AI在如下的解题过程中,采取的证明策略是,首先证明(1,1)满足给定条件,然后再证明这是唯一的解。证明(1,1)是最终解,使用g=2,N=3。
AI在如下的解题过程中,采取的证明策略是,首先证明(1,1)满足给定条件,然后再证明这是唯一的解。证明(1,1)是最终解,使用g=2,N=3。 证明如果(a,b)是解,那么ab+1必须整除g。
证明如果(a,b)是解,那么ab+1必须整除g。 在这一过程中,AI使用了欧拉定理,以及模运算的性质进行推理。
在这一过程中,AI使用了欧拉定理,以及模运算的性质进行推理。 最后,去证明a=b=1是唯一可能的解。
最后,去证明a=b=1是唯一可能的解。 如下是P2的完整解题过程:https://storage.Googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P2/index.html
如下是P2的完整解题过程:https://storage.Googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P2/index.html 上下滑动查看
上下滑动查看 如上所述,这是由AlphaGeometry 2在19秒内完成答题,创新纪录。根据所给的解决方案,与一代AlphaGeometry一样,所有解决方案中的辅助点都是由语言模型自动生成的。证明中,所有的角度追踪都使用了高斯消元法(Gaussian elimination),d(AB)−d(CD)等于从AB到CD的有向角度(以π为模)。解题过程中,AI会手动标注相似三角形和全等三角形对(以红色标注)。接下来,就是AlphaGeometry的解题步骤了,采用了「反证法」去完成。
如上所述,这是由AlphaGeometry 2在19秒内完成答题,创新纪录。根据所给的解决方案,与一代AlphaGeometry一样,所有解决方案中的辅助点都是由语言模型自动生成的。证明中,所有的角度追踪都使用了高斯消元法(Gaussian elimination),d(AB)−d(CD)等于从AB到CD的有向角度(以π为模)。解题过程中,AI会手动标注相似三角形和全等三角形对(以红色标注)。接下来,就是AlphaGeometry的解题步骤了,采用了「反证法」去完成。 先用Lean完成需要证明命题的形式化,以及可视化几何构造。
先用Lean完成需要证明命题的形式化,以及可视化几何构造。 证明中的关键步骤,如下所示。
证明中的关键步骤,如下所示。 完整解题过程参见下图:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P4/index.html
完整解题过程参见下图:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P4/index.html 上下滑动查看
上下滑动查看 AI求解,c=2。
AI求解,c=2。 先来看定理声明是,定义了「Aquaesulian函数」的性质,并声明对于所有这样的函数,f(r)+f(-r)的取值集合最多有2个元素。
先来看定理声明是,定义了「Aquaesulian函数」的性质,并声明对于所有这样的函数,f(r)+f(-r)的取值集合最多有2个元素。 证明策略是,首先证明对于任何Aquaesulian函数,f(r)+f(-r)的取值集合最多有2个元素。然后构造一个具体的Aquaesulian函数,使得f(r)+f(-r)恰好有2个不同的值。
证明策略是,首先证明对于任何Aquaesulian函数,f(r)+f(-r)的取值集合最多有2个元素。然后构造一个具体的Aquaesulian函数,使得f(r)+f(-r)恰好有2个不同的值。 证明当f(0)=0时,f(x)+f(-x)最多取两个不同的值,并证明不可能存在f(0)≠0的Aquaesulian函数。
证明当f(0)=0时,f(x)+f(-x)最多取两个不同的值,并证明不可能存在f(0)≠0的Aquaesulian函数。 构造函数f(x)=-x+2⌈x⌉,并证明它是Aquaesulian函数。
构造函数f(x)=-x+2⌈x⌉,并证明它是Aquaesulian函数。 最后,再去证明对于这个函数,f(-1)+f(1) =0和f(1/2)+f(-1/2)=2是两个不同的值。
最后,再去证明对于这个函数,f(-1)+f(1) =0和f(1/2)+f(-1/2)=2是两个不同的值。 以下是完整解题过程:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P6/index.html
以下是完整解题过程:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P6/index.html 上下滑动查看能做奥数题,但能分清9.11和9.9谁大吗?斯坦福大学和红杉的研究员Andrew Gao肯定了这次AI突破的意义——关键的是,最新IMO试题不包含训练集中。这一点很重要,说明AI能够处理全新的、未见过的问题。而且,被AI成功解出的几何问题,由于涉及空间性质(需要直观思维和空间想象力),历来都被认为是极具挑战性的。
上下滑动查看能做奥数题,但能分清9.11和9.9谁大吗?斯坦福大学和红杉的研究员Andrew Gao肯定了这次AI突破的意义——关键的是,最新IMO试题不包含训练集中。这一点很重要,说明AI能够处理全新的、未见过的问题。而且,被AI成功解出的几何问题,由于涉及空间性质(需要直观思维和空间想象力),历来都被认为是极具挑战性的。 英伟达高级科学家Jim Fan则发长文表示,大模型是神秘的存在——它们既能在数学奥林匹克竞赛中获得银牌,又会在「9.11和9.9哪个数字更大」这样的问题上频频出错。不仅是Gemini,就连GPT-4o、Claude-3.5、Llama-3都无法100%正确回答。
英伟达高级科学家Jim Fan则发长文表示,大模型是神秘的存在——它们既能在数学奥林匹克竞赛中获得银牌,又会在「9.11和9.9哪个数字更大」这样的问题上频频出错。不仅是Gemini,就连GPT-4o、Claude-3.5、Llama-3都无法100%正确回答。 通过训练AI模型,我们正在探索超越自身智能的广阔领域。在这个过程中,我们发现了一个非常奇特的区域——一个看起来像地球,却充满诡异山谷的系外行星这看起来很不合理,但我们可以用训练数据分布来解释:AlphaProof和AlphaGeometry 2,是在形式化证明和特定领域的符号引擎上完成训练。在某种程度上,它们在解决专业的奥林匹克竞赛问题更出色,即使它们基于通用LLM构建的。而GPT-4o的训练集中,混杂了大量的GitHub代码数据,可能远远超过数学数据。在软件版本中,「v9.11 > v9.9」,可能严重扭曲了数据分布。因此,这个错误在某种程度上是可以理解的。谷歌开发者负责人表示,能够解决困难的数学、物理问题的模型,是通向AGI的关键路径,而今天我们在这条道路上又迈出了一步。
通过训练AI模型,我们正在探索超越自身智能的广阔领域。在这个过程中,我们发现了一个非常奇特的区域——一个看起来像地球,却充满诡异山谷的系外行星这看起来很不合理,但我们可以用训练数据分布来解释:AlphaProof和AlphaGeometry 2,是在形式化证明和特定领域的符号引擎上完成训练。在某种程度上,它们在解决专业的奥林匹克竞赛问题更出色,即使它们基于通用LLM构建的。而GPT-4o的训练集中,混杂了大量的GitHub代码数据,可能远远超过数学数据。在软件版本中,「v9.11 > v9.9」,可能严重扭曲了数据分布。因此,这个错误在某种程度上是可以理解的。谷歌开发者负责人表示,能够解决困难的数学、物理问题的模型,是通向AGI的关键路径,而今天我们在这条道路上又迈出了一步。 另有网友表示,这一周信息量太大了。
另有网友表示,这一周信息量太大了。
这一次的竞赛不仅展示了AI在数学推理领域的巨大潜力,还引发了人们对人工智能在未来挑战和机遇的广泛讨论。
最新发现
相关资讯
 
                        谷歌AI一分之差痛失IMO金牌!19秒做一题碾压人类选手
谷歌DeepMind的AI系统在IMO奥林匹克竞赛中表现出色,虽以银牌擒得4道满分题,但仅差1分未获金牌。其中,AI在第4题仅用19秒轻松解答,展示了其惊人的数学推理速度和准确性。
2025-05-06 10:05:07
 
                        北京发布“人工智能+”行动计划,率先建设AI原生城市!
北京市发布《人工智能+行动计划(2024-2025年)》,旨在率先打造AI原生城市,推动人工智能技术与经济社会深度融合,加速大模型应用创新与落地。
2025-05-06 09:45:03
 
                        AI生成数据训练AI可能导致模型崩溃
研究显示,使用AI生成的数据集训练未来几代机器学习模型可能会导致严重的“模型崩溃”,使模型输出变得不相关甚至荒谬。了解生成式AI工具对模型训练的潜在风险与挑战。
2025-05-06 09:24:54
 
                        美媒:中国AI缩小与美国差距
美国《纽约时报》报道称,中国在人工智能领域正迎头赶上美国,通过开源技术和创新策略缩小两国之间的技术差距。本文探讨了中国AI技术的快速发展及其全球影响。
2025-05-06 09:04:49
 
                        AI推动存储行情分化,HBM和SSD竞争激烈
AI技术催化存储行情变化,HBM和SSD产品需求拉升。数据中心需求火爆推动HBM市场,而消费电子市场仍处低迷状态,存储行情表现分化明显。
2025-05-05 22:55:06
 
                        数字化支撑AI加持,中国科技改变百年奥运
中国科技在巴黎奥运会上通过数字化和AI技术的应用,改变了奥林匹克转播的方式和观赛体验,推动奥运迈入全新时代。
2025-05-05 22:34:57
今日热榜
聚焦人工智能“互联网之光”博览会今日开幕
2025-01-15 10:48:35《广东省本科高校人工智能人才培养实施方案》在华工发布
2025-01-16 15:05:31AI造谣乱象“野蛮生长”?专家:可设置敏感关键词禁止生成显著违法信息内容
2025-01-15 10:28:26云南省第十三届“挑战杯”大学生课外学术科技节“大数据与人工智能创新科技作品”专项竞赛暨第四届中国移动“梧桐杯”大数据创新大赛云南赛区决赛顺利落幕
2025-01-16 14:25:24中国大模型助力AI技术更开放更高效
2025-03-17 10:28:27AI端侧爆发,桌面机器人迎量产,产业链上市公司加码“抢鲜”
2024-12-24 14:45:31AI推理时代来了?ASIC被看好
2024-12-25 13:48:15《爱、死亡与机器人》司马华鹏用AI重新定义生命的边界
2024-12-30 17:18:22国网克州供电公司:人工智能赋能输电线路巡视缺陷识别应用
2025-01-15 11:48:49AI眼镜风口来了!剑指千亿级规模、百万台销量,小度狂飙
2025-01-22 10:19:37热门推荐