全球30名顶尖数学家秘密集会围剿AI当场破防！惊呼已接近数学天才AI翻车记

AI翻车记 2025-06-14

　　【新智元导读】最近，30位世界顶尖数学家亲自出马，在UC伯克利对OpenAIo4-mini展开「围剿」，两天连出教授级难题，结果却当场集体「破防」！有人直言：这个AI，的确已接近数学天才的水平。曾经以为AGI遥遥无期，如今仿佛只剩临门一脚了……　　在连续两天用教...

　　【新智元导读】最近，30位世界顶尖数学家亲自出马，在UC伯克利对OpenAI o4-mini展开「围剿」，两天连出教授级难题，结果却当场集体「破防」！有人直言：这个AI，的确已接近数学天才的水平。曾经以为AGI遥遥无期，如今仿佛只剩临门一脚了……

　　在连续两天用教授级难题轰炸这个AI后，研究者们惊愕地发现，它居然能解除一部分这世界上最难的可解问题！

　　当然，它并不是世界上唯一有此能力的模型，谷歌的Gemini 2.5 Flash也具备相似的能力。

　　这是因为，它是基于专门的数据集训练，并获得了更强的RLHF。这种方法，就能让它比传统的LLM更深入地钻研复杂数学问题。

　　为了追踪o4-mini的进展，OpenAI此前曾委托非营利组织Epoch AI设计300道解法尚未公开的数学题，专门来考验大模型。

　　果然，当Epoch AI用这些与训练数据截然不同的问题去测试几款推理模型时，它们几乎全部翻车了。

　　这个项目的目的，就是收集不同难度登机的全新数学题。其中，T1-T3分别覆盖本科、研究生及研究级别的挑战。

　　不过，o4-mini能够解决的问题，至少被一组数学家团队破解。由此，人类团队总体上解决了约35%的题目。

　　随后，他开始着手进行第四等级的测试——这次，要找出100道即使对专业数学家也极具挑战性的难题。

　　为此，他要求了全球顶尖的数学家，要求他们必须签署保密协议，甚至只能通过加密通讯应用Signal交流。

　　因为他担心，如果用电子邮件这类传统的联络方式，有可能就会被LLM扫描到，无意中成为训练数据，从而污染整个测试数据集。

　　为了加快进度，Glazer推动Epoch AI 在5月17日（周六）和18日（周日）这两天，举办了这场线下会议。

　　在为期两天的会议中，这些顶尖学者需要相互比拼，看谁能设计出自己能解、却又能难倒 AI推理机器人的题目。

　　在周六深夜，全场数学家，都感觉十分挫败——o4-mini出人意料的数学天赋，直接让整个小组的努力付诸东流。

　　Ono出了一道题，是他专业领域内的专家都公认的数论开放性问题，可以说是一道非常不错的考题，已经达到了博士生的水平。

　　它先花了两分钟，检索并吃透了相关领域的文献，然后在屏幕上写道，为了学习，它想先尝试一个简化的「玩具」版本。

　　我完全没料到，要跟这样的LLM交手，也从未在模型中见过如此强大的推理能力。这分明是科学家的工作方式。这太可怕了。

　　最终，团队还是成功找到了10道难倒机器人的题，但AI的惊人能力，仍然让所有研究人员惊叹不已。

　　伦敦数学科学研究所的数学家、AI数学应用先驱之一的Yang Hui He说：「这是一个顶尖优秀的研究生才能做到的事——不，实际上它做得更多。」

　　而且，o4-mini的速度也令人惊异。它远远超越了专业的数学家，人类专家需要数周甚至数月才能完成的工作，它只需要几分钟。

　　「当某人用足够权威的口吻说话时，人们会感到敬畏。我认为o4-mini已经掌握了恐吓式证明的精髓，因为它说每句话时都带着不容置疑的自信。」

　　到那时，数学家或许将转向只负责提出问题，并与推理机器人互动，引导它们发现新的数学真理，就像教授指导研究生一样。

　　「我一直告诉我的同事们，那种认为AGI永远不会到来，认为它不过是台计算机的想法，是大错特错的。」Ono说。

　　陶哲轩认为，这展示了未来的数学研究中，高度计算机辅助、中度计算机辅助与传统「纸笔」方法之间将如何相互作用。

　　例如，当前的AlphaEvolve还极难用上后续论文中使用的渐近构造；但另一方面，若没有AlphaEvolve的暴力搜索，人类方法也很难发现这些改进的切入点。

　　在比较简单的证明，比如函数极限的和定理中，Copilot还能准确预测证明结构和关键步骤，表现得就像个得力助手一样。

　　比如在处理函数极限的差和积定理时，它在复杂的代数推导、寻找合适的数学引理（比如与绝对值相关的引理）等方面显得力不从心。

　　Copilot有时还会出现「幻觉」，生成压根不存在的策略，或者犯一些低级错误，导致证明过程乱成一团。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

本站严格遵守《信息网络传播权保护条例》，仅分享已注明来源的公开信息，不涉及原创内容的复制与转载。若您为相关内容的权利人，认为本站涉及侵权，请于30日内通过邮件与我们联系，我们将在核实后第一时间处理并删除相关内容。

举报邮箱：yuzhibolangzi@gmail.com

创投观察：给浮夸营销“去水分”为AI创业“降虚火”AI翻车记