最近更新平面设计影视后期全站导航

您的位置: 首页> 新闻资讯

GPT-5 首次通过「哥德尔测试」，破解三大数学猜想

匿名上传

发布时间:2025-09-25 19:42:01

GPT-5 首次通过「哥德尔测试」，连破三大组合优化猜想！甚至，它能自主推翻原有猜想，给出全新有效解法，当场惊呆 OpenAI 研究科学家。

AI 迎来历史性一刻！

GPT-5 成功破解三大猜想，通过了「哥德尔测试」。

OpenAI 科学家 Sebastien Bubeck 惊叹地表示，这类开放性问题，顶尖博士生往往耗费数日才能解决。

不同以往，这项由海法大学和思科主导的研究，首次让 AI 直面「开放性数学猜想」的挑战。

论文地址：https://arxiv.org/pdf/2509.18383

论文中，团队设计了五项「组合优化」领域的测试任务，每项任务提供 1-2 篇文献作为了解。

在三个相对简单的问题上，GPT-5 给出了近乎完美的解法，证明了其强大的逻辑推理水平。

令人惊喜的是，在猜想二中，它不仅成功求解，还推导出与研究人员预期不同的有效解法，颠覆了原有猜想。

这一突破，标志着顶尖 AI 正从「学习数学」迈向「真正做数学」的关键跨越。

不难看出，AI 正为数学发现做出实质性贡献，提前预演了 2030 年代科研范式的深远变革。

AI 单挑「哥德尔测试」远超陶哲轩想象

此前，陶哲轩曾分享了自己与 OpenAI o1 合作经验，生动地将其比作「指导一名平庸，但并非完全无能的研究生」。

在他看来，LLM 虽能在大量提示后，逐步得出解决方案，但无法独立生成关键概念性想法。

不过，经过一两次迭代，结合工具，AI 就能达到「合格研究生」的水平。

OpenAI 和谷歌均宣称，自家前沿 LLM 无需外部工具，即可拿下 IMO 金牌。

但这个具有挑战性的问题，毕竟是为高中生设计的。

在最新论文中，研究焦点不同：让 AI 处理更高级的数学猜想，即「哥德尔测试」。

这些猜想要求的不只是解题能力，还需要整合背景知识和创新思维。

为此，研究人员从「组合数学」的子领域 —— 子模最大化中挑选问题。这类问题具体、有明确动机，且控制在能展示数学推理范围内。

与陶哲轩实验不同，团队没有提供大量提示或指导。

论文中，他们精心设计了五大猜想。

只给每个问题一个最小化描述，外加上 1-2 篇参考文献。

难度设定为：优秀本科生、研究生，有望在一天内解决所有问题，同时确保大部分问题，存在明确猜想及已知解决路径。

GPT-5 的任务是，基于有限输入，生成完整证明。

这模拟了真实研究场景：数学家往往从少量线索出发，独立探索。

在测试中，GPT-5 表现既有亮点，也有短板，一起看看具体的解题能力。

GPT-5 破解三大猜想

猜想一：「单调 + 非单调」的子模函数在凸多面体上取最大

这个要求好像是，让「两个互相掣肘的收益」加在一起最大化：

一部分收益 G 会越加东西越大（单调），另一部分 H 可能先涨后跌（非单调），而选择必须落在一个「不能超过上限」的凸集合里。

GPT-5 做法是套用连续 Frank-Wolfe 思路，从零开始，每一步朝着「此刻最能涨分」的方向挪一小步，并使用「遮罩」保证不越界。

它把参考论文里「凹函数」的位置换成 H，推了个递推式，最后得到一个拆分保证 ——

至少拿到约 63% 的 G (o)，再加上 37% 的 H (o)（若 H 也单调则也是 63%），外加一个随步长参数 ε 线性衰减的小误差。

猜想二：p-system 约束下的「双指标」算法

这题允许「价值几乎最优（1−ε）」，但在可行性上稍微超一点（放宽倍数 g (ε)），目标是在越广泛的 p-system 约束下把 g (ε) 压到尽量小。

GPT-5 提了个朴素而有效的流程，每一轮都在当前解的基础上，再做一次「在约束里尽可能有价值」的贪心选集（greedy），最后把若干轮的结果并起来。

证明关键是：每一轮都能把「距离最优」的差距按 p/(p+1) 的比例缩小，多滚几轮差距就指数式消退，于是只要做 ℓ≈ln (1/ε)/ln ((p+1)/p) 轮，就能把价值推到 1−ε。

这也意味着，放宽倍数 g_p (ε)=⌈ln (1/ε)/ln ((p+1)/p)⌉。

部分解题过程如下：

令人意想不到的是，猜想二中，GPT-5 甚至推导出不同的近似保证，经核查后推翻原有猜想，并提供了有效解。

猜想三：γ-弱 DR 子模 + 凸约束的最大化

这个猜想把「边际收益递减」的连续版放宽为一个强度参数 γ（γ=1 即标准情形；γ 越小，递减越弱）。

GPT-5 还是用 Frank-Wolfe：步步解一个「沿梯度的线性子问题」，用小步长前进，并靠平滑性控制离散化误差。

核心一步是把经典证明中的关键不等式按 γ 缩放，于是把著名的 1−1 / e 近似比提升为更一般的 1−e^{−γ}，再加上一个可调的 L/(2K) 级别误差项（K 为迭代轮数）。

在研究人员看来，结论与推理主体靠谱。

只是 GPT-5 多假设了「向下封闭」这种其实用不上的条件、以及对「步长总和 = 1」的细节有点不一致。

可以看出，如果题目有明确的、单一的推理路径，GPT-5 表现不错 —— 五道题里有三道能给出几乎正确的证明。

一旦需要把不同证明结合起来，比如 4 和 5，GPT-5 就搞不定了。

猜想五中，GPT-5 倒是识别出了和作者设想一样的算法，但分析得不对。

他们后来复盘发现，这个证明其实有可能做出来，只是难度比预想的高。比起早期模型，GPT-5 在组合优化这种专业领域里，数学能力明显进步，偶尔还会冒出一点小创新。

这恰恰说明了，它现在还缺乏「整合性推理」能力，这是个主要短板。

作者介绍

Moran Feldman

Moran Feldman 是海法大学计算机科学系的教授。

在此之前，他曾担任以色列开放大学的教职，并在洛桑联邦理工学院（EPFL）担任博士后研究员，师从 Ola Svensson 教授。

Amin Karbasi

Amin Karbasi 思科基金会 AI 负责人，曾任 Robust Intelligence 首席科学家，耶鲁大学教授，谷歌工程师。

参考资料：

https://arxiv.org/abs/2509.18383

https://x.com/tunedgradient/status/1970955153361850606

本文来自微信公众号：新智元（ID：AI_era）

相关文章

本站提供的所有下载资源均来自互联网，仅提供学习交流使用，版权归原作者所有。如需商业使用，请联系原作者获得授权。如您发现有涉嫌侵权的内容，请联系我们邮箱:[email protected]

节奏大师修改版2016年最新版

节奏大师修改版2016年最新版

音乐舞蹈游戏节奏大师闯关

立即下载

最新下载

泡泡射手苹果版

泡泡射手苹果版

134.2M · 2025-09-25

糖果苏打传奇苹果版

糖果苏打传奇苹果版

534.9M · 2025-09-25

贪吃蛇大作战2手机游戏

贪吃蛇大作战2手机游戏

724.64MB · 2025-09-25

最新教程

《蒲公英旅记》联系客服方法

《蒲公英旅记》联系客服方法

《追读小说》查看小说分类方法

《追读小说》查看小说分类方法

最新专题

类似瑟拉利姆的游戏推荐

类似瑟拉利姆的游戏推荐

类似暗徒誓约的游戏推荐

类似暗徒誓约的游戏推荐

热门推荐

01

蚂蚁冒险记最新版

我的世界

节奏大师

地铁跑酷

铠甲勇士之英雄传说

全民象棋TV版

本站提供的所有下载资源均来自互联网，仅提供学习交流使用，版权归原作者所有。如需商业使用，请联系原作者获得授权。如您发现有涉嫌侵权的内容，请联系我们邮箱:[email protected]

© 2018 Alixixi.com. 已备案：湘ICP备2023014879号-1