首页 > 科技快讯 > OpenAI“截胡”IMO金牌，奥特曼为GPT-5献上“核弹级”预热

OpenAI“截胡”IMO金牌，奥特曼为GPT-5献上“核弹级”预热

晰数塔互联网快讯
2025-07-20 14:50

谁曾想，OpenAI又抢尽了谷歌的风头！

爆料称，谷歌DeepMind的AI模型早在本周五，也就是两天前，便拿下了IMO金牌。

但由于内部审核慢，需等下周一市场部批准后，DeepMind才能官宣具体情况。

OpenAI瞅中了时机，用全新通用推理模型在IMO刷题后，立即公开了结果。

昨天，全网几乎都被OpenAI拿下IMO金牌刷屏了。自家研究员纷纷现身，宣传OpenAI神秘模型的强大。

如今看来，这一切都是有预谋的。

谷歌DeepMind研究员Archit Sharma调侃道，“恭喜！居然比我们先官宣了——现在P6是新标杆了吗”？

一、OpenAI抢夺IMO金牌，GPT-5即将诞生

为什么通用推理模型拿下IMO金牌，会受到热烈关注？

简而言之，OpenAI这次的通用推理模型在“通用强化学习和测试时计算扩展方面开辟了新天地”。

这次的通用推理模型有啥不同之处？

OpenAI推理研究员Noam Brown指出，这个模型并非专门为国际数学奥林匹克竞赛（IMO）设计。

它是一个融合了全新实验性通用技术的推理LLM，这使其在难以验证的任务上表现得更好。

IMO问题正是这一挑战的完美体现：证明过程长达数页，专家需要花费数小时来评分。

相比之下，AIME的答案只是一个0到999之间的整数。

与过去的基准相比，IMO问题需要更高层次的持续创造性思维。

这次的通用推理模型，在推理时间跨度上实现了逐步进步：从GSM8K（顶尖人类约为 0.1 分钟）→ MATH基准（约1分钟）→ AIME（约10分钟）→ IMO（约100 分钟）。

“重要的是，它的思考效率也更高。而且在测试时的计算能力和效率方面还有很大的提升空间。”

其次，IMO的参赛作品是难以验证的多页证明。

在这方面的进展需要超越明确、可验证奖励的强化学习范式。

通过这样做，就可以获得一个能够像人类数学家一样构建复杂且无懈可击论证的模型。

这项成果到底意味着什么？

Noam Brown给出了答案：

可能是因为这次的IMO事件，奥特曼也出来公开发声。

他称，OpenAI拿下IMO金牌这事，需要强调的是，“这是一个LLM在做数学题，而不是一个特定的形式化数学系统。这是朝着AGI迈进的主要部分。”

奥特曼之所以这么“积极主动”，其实也可能是在为GPT-5的发布提前铺路。

当下这个节点对OpenAI来说非常重要，令人期待的GPT-5即将面世。

他们估计想在这个重要节点上，利用OpenAI拿下IMO金牌这事，为GPT-5来波神助攻。

但奥特曼也稍显谨慎，调低了各位对GPT-5的预期。

他指出，GPT-5是一个实验性模型，用了一些将在未来模型中会使用的新研究技术。

“在数月内，不会发布具备IMO金牌水平能力的模型。”

二、陶哲轩点评IMO

针对IMO金牌得主背后的争议，数学大佬陶哲轩也公开表达了自己的看法。

“不会评论任何未预先公开测试方法的AI竞赛成绩报告。”

陶哲轩简明扼要地表示，在缺乏受控测试环境的情况下，AI的数学能力难以准确评估。

他指出，很多人对AI有个误解，就是把它的能力看成是“行”或“不行”两个极端。

但实际上，它的能力是一个巨大的范围。你给它提供的计算资源的多少、给它的指令有多好，以及你要求它如何输出结果，这些都会导致最终的效果有天壤之别。

以人类竞赛为例，在刚结束的IMO竞赛中，各国派出六名高中生选手组成的团队（由职业数学家担任领队）。

在两天赛程中，每位选手每天用四个半小时独立解答三道难题，仅限纸笔演算。

期间选手之间严禁交流（包括与领队），仅可向监考者询问题目表述问题。领队仅在评分环节向评审委员会申诉，不直接参与解题。

大家都知道，IMO被视为衡量中学生数学能力的金标准：金牌线今年被定为35/42分（即完美解答五题），完整解出一题即可获得“荣誉提名”。

但若改变竞赛形式，难度将发生剧变！

考虑一下，如果我们以其他方式改变奥林匹克竞赛的形式，其难度水平会发生什么变化？

比如，给学生几天时间来完成每道题，而不是三个题目只给四个半小时。

在考试开始前，团队负责人会将问题改写成学生更容易理解的格式。

学生可以无限使用计算器、计算机代数软件包、形式化证明助手、教科书或上网搜索。

领队让六人团队同时处理同一个问题，相互交流各自的部分进展和遇到的死胡同。

在此期间，队长会引导学生采用更有利的方法，并在某个学生花费过多时间在他们知道不太可能成功的方向时进行干预。

提交阶段，每位队员提交解答，但队长只选出“最佳”解答递交竞赛，其余的都弃之不用。

如果团队中的学生都未能获得令人满意的解决方案，团队负责人将不会提交任何解决方案，并且会悄然退出比赛，而他们的参与也永远不会被记录。

在这些情境下，答案仍“技术性”地源自学生之手。

这也说明，竞赛形式的改变能使原本铜牌线下的团队跃升至金牌水平。

“这警示我们，在缺乏统一测试标准的情况下，贸然对比不同AI模型（或AI与人类选手）的IMO表现如同比较苹果与橙子，没有对比意义可言，”陶哲轩指出。

参考资料：

https://mathstodon.xyz/@tao/114881418225852441

https://x.com/zjasper666/status/1946650175063384091

本文来自微信公众号：新智元，作者：新智元，编辑：YHluck

黄仁勋催单AI芯片，台积电开启“疯狂建厂”模式

断层碾压！马斯克资产飙到7519亿美金，领先第二名5000亿

热点科技快讯

人类唯一的出路: 变成人工智能（五）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

报告：抖音海外版下载量突破10亿大关挑战Facebook

新浪科技讯北京时间2月28日早间消息，据美国财经媒体CNBC援...

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，...

人类唯一的出路：变成人工智能（三）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

热门点击排行

问界商标转让释放信号：赛力斯与华为合作持续深入

报告：抖音海外版下载量突破10亿大关挑战Facebook

科技快讯分类导航

互联网创业

人工智能

大数据分析

行业热点

OpenAI“截胡”IMO金牌，奥特曼为GPT-5献上“核弹级”预热

黄仁勋催单AI芯片，台积电开启“疯狂建厂”模式

断层碾压！马斯克资产飙到7519亿美金，领先第二名5000亿

人类唯一的出路: 变成人工智能（五）

报告：抖音海外版下载量突破10亿大关 挑战Facebook

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

报告：抖音海外版下载量突破10亿大关挑战Facebook