图片

来源:ScienceAl

编辑:coisini

数学是一门推理严谨、逻辑缜密的学科,这与人工智能(AI)的「黑箱」特性看似背道而驰。然而,这一印象在 2025 年被彻底颠覆。

近日,发表于《Quanta Magazine》的一篇报道,归纳总结了多位数学家对 AI 在数学领域影响的观察与思考。ScienceAI 对《Quanta Magazine》报道核心内容进行了不改变原意的编译、整理,内容如下。

2025 年 7 月,多个人工智能模型在国际数学奥林匹克竞赛中解决了六道题中的五道。数学家们感到震惊 —— 难以预料到 AI 程序能这么快变得如此强大,但这些结果并不一定意味着 AI 将在数学研究领域取得重大突破。毕竟,奥赛题目只是已知答案的难题,而非未解之谜。

但转折点已经出现。

那些曾认为 AI 模型错误百出、难堪大用的数学家们开始尝试将其纳入研究工具。他们惊讶地发现 AI 不仅擅长解谜题,还能帮助开辟真正的新领域。很快,数学家们开始利用 AI 发现并证明新的结果,一天之内就能完成过去需要数周甚至数月的工作。

「2025 年是 AI 真正开始在许多不同任务上发挥作用的一年」,著名数学家陶哲轩表示。

虽然没有任何单一成果能称霸世界,但其中一些已经达到专业数学期刊发表成果的水平。在某些情况下,算法能在极少人工干预下提出猜想、证明它并验证证明过程。此外,与 ChatGPT、Claude 或 Gemini 等大型语言模型的广泛对话催生了全新的证明策略。

「这个人有铲子,那个人有镐头。我们一起就能挖通隧道,很多尝试就像『往墙上扔东西,看哪个能粘住』」,陶哲轩这样比喻。

多伦多大学数学教授 Daniel Litt 表示,即使是解决简单问题,AI「也在改变数学的研究方式」。

陶哲轩认为:数学的研究方式很快就会发生巨大变化。过去数学家一次研究一个问题,「有了这些工具,你可以一次解决成千上万的问题,并开始进行统计研究,我们将不得不进行许多范式上的变革、文化上的变革」,陶哲轩说道。

这些变革必然会面临争议,数学界与其他正在努力应对 AI 影响的学科一样。普林斯顿高等研究院教授、菲尔兹奖得主 Akshay Venkatesh 表示,随着 AI 模型成为强大的新工具,它们可能会导致数学家失去对数学理解的直接体验。与陶哲轩一样,Venkatesh 也认为 AI 的影响将是巨大的,但他更为谨慎:「我们(数学)文化中有一些宝贵的东西应该努力保留。」

一些数学家现在正离开学术界,前往 OpenAI、谷歌等大型科技公司工作,或加入专注于数学的 AI 初创公司,如 Harmonic、Logical Intelligence、Axiom Math 和 Math Inc。

「企业界对 AI 在数学领域如此感兴趣的一个原因是,人们认识到通用智能的关键在于结合从机器学习中获得的洞察与从数学中获得的精确性」,卡内基梅隆大学数学辅助推理研究所所长 Jeremy Avigad 说。

到 2026 年年初,对 AI 能力的震惊已转变为某种近乎惊叹的情绪。2 月份一项名为「First Proof」的挑战赛让参赛者在一周内用他们的 AI 模型解决数学各领域的 10 个研究级问题。数学家们特意选择了那些不太可能出现在算法训练数据中的问题。在不同程度的自主性下,这些模型成功解决了超过一半的问题。如果说奥赛结果代表了 AI 进入雄心勃勃的大学数学项目的时刻,那么 First Proof 的结果可以说标志着它们完成了研究生学业。在一篇分析 First Proof 挑战赛结果的文章中,Litt 写道:「这项技术很可能比计算机本身更重大。」

创造性进化

2025 年夏天是 AI 能力的一个拐点,而这并非凭空而来。谷歌 DeepMind 科学副总裁 Pushmeet Kohli 表示,DeepMind 自 2018 年以来一直在尝试用 AI 解决数学问题。现任职于 Axiom 的 François Charton 早在 2019 年就开始尝试利用机器学习解决数学问题。

但在最初几年,这只是一个冷门领域。起初,Charton 和其他少数人使用 AI 解决已知答案的问题,只是为了看看新技术能否奏效。到 2024 年,他们开始取得进展。他们寻找有丰富数据可供分析的问题,然后用 AI 构建具有可量化属性的数学对象 —— 例如在网格上放置点以避免形成等腰三角形的最佳排列方式。

图片

图片

2025 年 1 月,陶哲轩和布朗大学的 Javier Gómez-Serrano 开始与 DeepMind 的两位数学家 Adam Wagner 和 Bogdan Georgiev 合作开发一个名为 AlphaEvolve 的 AI 系统。AlphaEvolve 的工作原理是使用 Gemini 编写可能长达数百行的 Python 代码程序,然后利用所谓遗传算法「进化」这些程序,以寻找数学问题的最优解。四位数学家每隔一两天就用 AlphaEvolve 研究一个新问题,持续了几个月。

在这个过程中,他们也学会了如何改进给 AlphaEvolve 的提示。一个关键发现:模型似乎能从鼓励中受益 —— 比如「你能做到」。

到 5 月底,该团队已在数学多个领域的 67 个不同问题上测试了 AlphaEvolve。在其中 23 个问题上,AlphaEvolve 对已知最优解做出了小幅改进。在 67 个问题中的 36 个上,它的表现与已有成果相当;而在其余少数问题上,它未能匹配已知最优结果。

数学家们在 2025 年 11 月的一篇论文《大规模数学探索与发现》中分享了他们的发现。Gómez-Serrano 指出,他们的任何一个成果,如果由某个领域的专家投入数月时间,或许也能获得。但他们并非领域专家,却能在短短一两天内得到相当的结果。

正如陶哲轩所说,当前的 AI 模型「非常擅长在大规模问题列表中寻找『容易摘取的成果』」。这些工作繁琐、吃力不讨好,人类研究者并不愿意做。他还提醒说,模型们正在「大量未报告的失败之海中取得零散的成功」,而这些成功值得关注。

Gómez-Serrano 估计,他现在大约三分之二的时间都在使用 AI。他说:「(AI)正变得有用且可用。这是我们未来进行数学研究的新方式的开始。」

错漏百出

前几年,AI 的额外能力似乎源于它能够重新挖掘埋藏在晦涩参考文献中、早已被遗忘的证明。加州大学洛杉矶分校的 Igor Pak 曾指出,ChatGPT 目前「在查找参考文献、学术相关性等方面表现出色」。

然后,在 2025 年,苏黎世联邦理工学院的 Johannes Schmitt 表示,情况发生了变化,他说:「与 LLM 对话开始变得有用,不是因为它们会给你完整的答案,而是因为它们成了很好的对话伙伴。」

Schmitt 指出,AI 模型的有趣之处在于:一个受过任何数学训练的人,几乎不可能在犯下如此多基本错误的同时,还能提出精妙、原创且正确的想法。

加州大学洛杉矶分校的 Ernest Ryu 主要研究应用数学的一个分支 —— 优化理论。他在奥赛结果之后也更加关注 LLM,并开始用它们帮助准备讲义。他说:「有时 AI 模型会发现我推理中的一个错误,可能是重大的,可能是微小的。有时它甚至会找到一个比我讲义中更简单的证明。」

他有一种感觉,AI 模型正在「展现出生命的迹象」。他记得自己当时既怀疑又乐观。为了亲自判断 LLM 能做什么、不能做什么,他决定做一个实验。

他开始着手解决优化理论中一个未解决的问题,这个问题他过去曾尝试过几次。这一次,他使用了 ChatGPT。

Ryu 研究的问题最早于 1983 年由一位名叫 Yurii Nesterov 的俄罗斯数学家提出。Nesterov 试图寻找那些以多变量为输入、输出单个数值且以特定数学方式表现「良好」的函数的最小值。如果把输出想象成一幅高程地图,你要证明最终会收敛到最低点。

这类问题在应用数学中相当常见,尤其是在机器学习中,它是训练神经网络的核心。一种广泛使用的技术叫做梯度下降法,假设你从地图上的某一点开始,它使用微积分的基本工具来判断哪个方向是下坡,以及你所站位置的山坡有多陡。每次都沿着最陡的方向向下走一步,你最终会到达最低点。

尽管梯度下降法能让你得到正确答案,但有时它到达答案的速度非常慢。因此,数学家们长期以来一直在寻找能更快收敛到正确答案的变体。Nesterov 开发了一种技术,其中每一步下坡的大小不仅取决于函数在给定点的陡峭程度,还取决于你到达该点所经过的路径。如果你过去迈的步子更大,你就会继续保持大步幅。

直观上看,这种方法似乎能让你更快到达山底。但如果速度太快冲过头了呢?你可能会面临在真正最小值附近无限振荡、永远无法达到的风险。Nesterov 无法证明他的算法最终会收敛到最优值。42 年来,也没有其他人能做到。

Ryu 说当他询问 ChatGPT 时,它一直给出错误的证明,但过程中有一些有趣的步骤、一些正确且似乎可能有用的部分结果。随着模型逐步推进,Ryu 开始检查它的答案,保留正确的部分,并通过新的提示将其反馈给模型。

Ryu 说:「我不得不扮演验证者的角色,使用 ChatGPT 时,我感觉自己覆盖了非常多的内容,速度比我独自完成要快得多。这就是让我坚持下去的原因。」

在大约 12 个小时的工作之后,他得出了该问题一个简化版本的证明。又过了几天,他终于证明了 Nesterov 的方法是收敛的。Ryu 说:「这是一个可以在顶级优化期刊上发表的成果(不考虑 AI 辅助成分)。」

几个月后,Ryu 从加州大学洛杉矶分校请假,前往 OpenAI 工作。他认为我们终将得到真正令人印象深刻、由 AI 辅助的重大发现。

应用案例

2025 年 9 月,来自世界各地的 100 多名数学家聚集在布朗大学,参加一个关于代数组合学的特别项目。

出于不同的原因,他们都有兴趣计算一个叫做 d-invariant 的量,这个量出现在数学的许多领域。要理解 d-invariant 是什么,首先需要了解其中一个领域中一个被深入研究的对象 —— 置换群。这个对象描述了一组物品(如一副扑克牌中的牌)可以洗出的不同排列方式。

如果你只有一张牌,你无法洗牌。所以置换群 S₁只有一个元素。S₂有两个元素:如果你有两张牌,它们可以有两种排列顺序。S₃变得稍微复杂一些:三张牌有六种不同的排列方式。

图片

这些不同的排列方式可以排列成一个由顶点和边组成的网络,称为图。起始排列 123 放在底部。图的每条边(画成箭头)代表两张牌的交换:

图片

随着牌数 n 的增加,Sₙ增长得非常快 —— 使得 S₄之后的群几乎不可能画出此图。S₆₀的元素数量大约相当于可观测宇宙中的原子数量。

数学家们尝试研究置换群中排列之间的 Bruhat 序及区间。由于大置换群的情况极为复杂,他们借助 AI 系统 AlphaEvolve 分析了数十个置换群。AI 生成了约 50 行 Python 代码,并意外发现当排列数为 2 的幂时,代码可简化为 5 行,且对应的 Bruhat 区间形成了超立方体(hypercube)结构。

图片

这一结构此前 50 年未被注意。AI 并非按指令寻找超立方体,而是自主揭示了这一隐藏模式。这意味着,借助大语言模型,数学家能快速实验,发现意想不到的丰富结构。

类似地,AI 模型在代数几何中也扮演着重要角色。斯坦福大学数学家、美国数学会现任主席 Ravi Vakil 就专攻这个领域。

Ravi Vakil 等数学家着手研究球面嵌入旗簇的方式,每种嵌入对应一个多项式方程。随着多项式次数增加,相关空间应趋近于连续嵌入空间。他们惊讶地发现这种趋近发生得很快,并与 DeepMind 合作,利用 Google Gemini 上的两个专用模块(DeepThink 和 FullProof)进行验证。

这也许是当前 AI 如何发挥作用的一个典型例子。一群数学专家,在一家大型科技公司的帮助下,以比原本更快的速度弄清楚了某件事。

当然,在探讨 AI 对数学研究的影响时,我们不应只关注成功案例。Litt 提醒说:「AI 生成的胡言乱语对公共空间造成了大量污染。」

数学家们寄希望于形式化证明 —— 将证明转换成计算机能理解的语言,然后使用计算机程序来验证证明中的所有逻辑是否成立。

许多数学家还认为,AI 数学能力不断增强带来的另一个主要挑战是,它将如何影响学生的学习方式。有数学家称:「存在一个严重的风险:在加速数学研究进步的同时,AI 可能会阻碍我们培养出更多的数学研究者。」

人们对 AI 最大的期望是,它将帮助数学家发现并证明数学谜题。但眼下这场 AI 变革,或许还有很多可能性。

原文链接:https://www.quantamagazine.org/the-ai-revolution-in-math-has-arrived-20260413/

阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”

未来知识库是“21世纪关键技术研究院”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

  1. 牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》

  2. 麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力

  3. AAAI 2025 关于人工智能研究未来研究报告

  4. 斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)

  5. 壳牌:2025 能源安全远景报告:能源与人工智能(57 页)

  6. 盖洛普 & 牛津幸福研究中心:2025 年世界幸福报告(260 页)

  7. Schwab :2025 未来共生:以集体社会创新破解重大社会挑战研究报告(36 页)

  8. IMD:2024 年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214 页)

  9. DS 系列专题:DeepSeek 技术溯源及前沿探索,50 页 ppt

  10. 联合国人居署:2024 全球城市负责任人工智能评估报告:利用 AI 构建以人为本的智慧城市(86 页)

  11. TechUK:2025 全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52 页)

  12. NAVEX Global:2024 年十大风险与合规趋势报告(42 页)

  13. 《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页

  14. 2025 - 2035 年人形机器人发展趋势报告 53 页

  15. Evaluate Pharma:2024 年全球生物制药行业展望报告:增长驱动力分析(29 页)

  16. 【AAAI2025 教程】基础模型与具身智能体的交汇,350 页 ppt

  17. Tracxn:2025 全球飞行汽车行业市场研究报告(45 页)

  18. 谷歌:2024 人工智能短跑选手(AI Sprinters):捕捉新兴市场 AI 经济机遇报告(39 页)

  19. 【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习

  20. 《基于传感器的机器学习车辆分类》最新 170 页

  21. 美国安全与新兴技术中心:2025 CSET 对美国人工智能行动计划的建议(18 页)

  22. 罗兰贝格:2024 人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11 页)

  23. 兰德公司:2025 从研究到现实:NHS 的研究和创新是实现十年计划的关键报告(209 页)

  24. 康桥汇世(Cambridge Associates):2025 年全球经济展望报告(44 页)

  25. 国际能源署:2025 迈向核能新时代

  26. 麦肯锡:人工智能现状,组织如何重塑自身以获取价值

  27. 威立(Wiley):2025 全球科研人员人工智能研究报告(38 页)

  28. 牛津经济研究院:2025 TikTok 对美国就业的量化影响研究报告:470 万岗位(14 页)

  29. 国际能源署(IEA):能效 2024 研究报告(127 页)

  30. Workday :2025 发挥人类潜能:人工智能(AI)技能革命研究报告(20 页)

  31. CertiK:Hack3D:2024 年 Web3.0 安全报告(28 页)

  32. 世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告

  33. 迈向推理时代:大型语言模型的长链推理研究综述

  34. 波士顿咨询:2025 亚太地区生成式 AI 的崛起研究报告:从技术追赶者到全球领导者的跨越(15 页)

  35. 安联(Allianz):2025 新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33 页)

  36. IMT:2025 具身智能(Embodied AI)概念、核心要素及未来进展:趋势与挑战研究报告(25 页)

  37. IEEE:2025 具身智能(Embodied AI)综述:从模拟器到研究任务的调查分析报告(15 页)

  38. CCAV:2025 当 AI 接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124 页)

  39. 《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页

  40. 《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》

  41. 全国机器人标准化技术委员会:人形机器人标准化白皮书(2024 版)(96 页)

  42. 美国国家科学委员会(NSB):2024 年研究与发展 - 美国趋势及国际比较(51 页)

  43. 艾昆纬(IQVIA):2025 骨科手术机器人技术的崛起白皮书:创新及未来方向(17 页)

  44. NPL&Beauhurst:2025 英国量子产业洞察报告:私人和公共投资的作用(25 页)

  45. IEA PVPS:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)

  46. AGI 智能时代:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)

  47. 2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37 页)

  48. 华为:2025 鸿蒙生态应用开发白皮书(133 页

  49. 《超级智能战略研究报告》

  50. 中美技术差距分析报告 2025

  51. 欧洲量子产业联盟(QuIC):2024 年全球量子技术专利态势分析白皮书(34 页)

  52. 美国能源部:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)

  53. 罗马大学:2025 超级高铁(Hyperloop):第五种新型交通方式 - 技术研发进展、优势及局限性研究报告(72 页)

  54. 兰德公司:2025 灾难性网络风险保险研究报告:市场趋势与政策选择(93 页)

  55. GTI:2024 先进感知技术白皮书(36 页)

  56. AAAI:2025 人工智能研究的未来报告:17 大关键议题(88 页)

  57. 安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告

  58. 威达信:2025 全球洪水风险研究报告:现状、趋势及应对措施(22 页)

  59. 兰德公司:迈向人工智能治理研究报告:2024EqualAI 峰会洞察及建议(19 页)

  60. 哈佛商业评论:2025 人工智能时代下的现代软件开发实践报告(12 页)

  61. 德安华:全球航空航天、国防及政府服务研究报告:2024 年回顾及 2025 年展望(27 页)

  62. 奥雅纳:2024 塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28 页)

  63. HSOAC:2025 美国新兴技术与风险评估报告:太空领域和关键基础设施(24 页)

  64. Dealroom:2025 欧洲经济与科技创新发展态势、挑战及策略研究报告(76 页)

  65. 《无人机辅助的天空地一体化网络:学习算法技术综述》

  66. 谷歌云(Google Cloud):2025 年 AI 商业趋势白皮书(49 页)

  67. 《新兴技术与风险分析:太空领域与关键基础设施》最新报告

  68. 150 页!《DeepSeek 大模型生态报告》

  69. 军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)

  70. 真格基金:2024 美国独角兽观察报告(56 页)

  71. 璞跃(Plug and Play):2025 未来商业研究报告:六大趋势分析(67 页)

  72. 国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)

  73. RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)

  74. 国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)

  75. RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)

  76. 未来今日研究所 2025 年科技趋势报告第 18 版 1000 页

  77. 模拟真实世界:多模态生成模型的统一综述

  78. 中国信息协会低空经济分会:低空经济发展报告(2024 - 2025)(117 页)

  79. 浙江大学:2025 语言解码双生花:人类经验与 AI 算法的镜像之旅(42 页)

  80. 人形机器人行业:由 “外” 到 “内” 智能革命 - 250306(51 页)

  81. 大成:2025 年全球人工智能趋势报告:关键法律问题(28 页)

  82. 北京大学:2025 年 DeepSeek 原理和落地应用报告(57 页)

  83. 欧盟委员会 人工智能与未来工作研究报告

  84. 加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用

  85. 电子行业:从柔性传感到人形机器人触觉革命 - 250226(35 页)

  86. RT 轨道交通:2024 年中国城市轨道交通市场数据报告(188 页)

  87. FastMoss:2024 年度 TikTok 生态发展白皮书(122 页)

  88. Check Point:2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议(57 页)

  89. 【AAAI2025 教程】评估大型语言模型:挑战与方法,199 页 ppt

  90. 《21 世纪美国的主导地位:核聚变》最新报告

  91. 沃尔特基金会(Volta Foundation):2024 年全球电池行业年度报告(518 页)

  92. 斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)

  93. 国际科学理事会:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)

  94. 光子盒:2025 全球量子计算产业发展展望报告(184 页)

  95. 奥纬论坛:2025 塑造未来的城市研究报告:全球 1500 个城市的商业吸引力指数排名(124 页)

  96. Future Matters:2024 新兴技术与经济韧性:日本未来发展路径前瞻报告(17 页)

  97. 《人类与人工智能协作的科学与艺术》284 页博士论文

  98. 《论多智能体决策的复杂性:从博弈学习到部分监控》115 页

  99. 《2025 年技术展望》56 页 slides

  100. 大语言模型在多智能体自动驾驶系统中的应用:近期进展综述

  101. 【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

  102. 皮尤研究中心:2024 美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28 页)

  103. 空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224(33 页)

  104. Gartner:2025 网络安全中的 AI:明确战略方向研究报告(16 页)

  105. 北京大学:2025 年 DeepSeek 系列报告 - 提示词工程和落地场景(86 页)

  106. 北京大学:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)

  107. CIC 工信安全:2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42 页)

  108. 中科闻歌:2025 年人工智能技术发展与应用探索报告(61 页)

  109. AGI 智能时代:2025 年 Grok - 3 大模型:技术突破与未来展望报告(28 页)

上下滑动查看更多

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐