全球30名顶尖数学家秘密集会围剿AI当场破防!惊呼已接近数学天才AI翻车记
【新智元导读】最近,30位世界顶尖数学家亲自出马,在UC伯克利对OpenAI o4-mini展开「围剿」,两天连出教授级难题,结果却当场集体「破防」!有人直言:这个AI,的确已接近数学天才的水平。曾经以为AGI遥遥无期,如今仿佛只剩临门一脚了……
在连续两天用教授级难题轰炸这个AI后,研究者们惊愕地发现,它居然能解除一部分这世界上最难的可解问题!
当然,它并不是世界上唯一有此能力的模型,谷歌的Gemini 2.5 Flash也具备相似的能力。
这是因为,它是基于专门的数据集训练,并获得了更强的RLHF。这种方法,就能让它比传统的LLM更深入地钻研复杂数学问题。
为了追踪o4-mini的进展,OpenAI此前曾委托非营利组织Epoch AI设计300道解法尚未公开的数学题,专门来考验大模型。
果然,当Epoch AI用这些与训练数据截然不同的问题去测试几款推理模型时,它们几乎全部翻车了。
这个项目的目的,就是收集不同难度登机的全新数学题。其中,T1-T3分别覆盖本科、研究生及研究级别的挑战。
不过,o4-mini能够解决的问题,至少被一组数学家团队破解。由此,人类团队总体上解决了约35%的题目。
随后,他开始着手进行第四等级的测试——这次,要找出100道即使对专业数学家也极具挑战性的难题。
为此,他要求了全球顶尖的数学家,要求他们必须签署保密协议,甚至只能通过加密通讯应用Signal交流。
因为他担心,如果用电子邮件这类传统的联络方式,有可能就会被LLM扫描到,无意中成为训练数据,从而污染整个测试数据集。
为了加快进度,Glazer推动Epoch AI 在5月17日(周六)和18日(周日)这两天,举办了这场线下会议。
在为期两天的会议中,这些顶尖学者需要相互比拼,看谁能设计出自己能解、却又能难倒 AI推理机器人的题目。
在周六深夜,全场数学家,都感觉十分挫败——o4-mini出人意料的数学天赋,直接让整个小组的努力付诸东流。
Ono出了一道题,是他专业领域内的专家都公认的数论开放性问题,可以说是一道非常不错的考题,已经达到了博士生的水平。
它先花了两分钟,检索并吃透了相关领域的文献,然后在屏幕上写道,为了学习,它想先尝试一个简化的「玩具」版本。
我完全没料到,要跟这样的LLM交手,也从未在模型中见过如此强大的推理能力。这分明是科学家的工作方式。这太可怕了。
最终,团队还是成功找到了10道难倒机器人的题,但AI的惊人能力,仍然让所有研究人员惊叹不已。
伦敦数学科学研究所的数学家、AI数学应用先驱之一的Yang Hui He说:「这是一个顶尖优秀的研究生才能做到的事——不,实际上它做得更多。」
而且,o4-mini的速度也令人惊异。它远远超越了专业的数学家,人类专家需要数周甚至数月才能完成的工作,它只需要几分钟。
「当某人用足够权威的口吻说话时,人们会感到敬畏。我认为o4-mini已经掌握了恐吓式证明的精髓,因为它说每句话时都带着不容置疑的自信。」
到那时,数学家或许将转向只负责提出问题,并与推理机器人互动,引导它们发现新的数学真理,就像教授指导研究生一样。
「我一直告诉我的同事们,那种认为AGI永远不会到来,认为它不过是台计算机的想法,是大错特错的。」Ono说。
陶哲轩认为,这展示了未来的数学研究中,高度计算机辅助、中度计算机辅助与传统「纸笔」方法之间将如何相互作用。
例如,当前的AlphaEvolve还极难用上后续论文中使用的渐近构造;但另一方面,若没有AlphaEvolve的暴力搜索,人类方法也很难发现这些改进的切入点。
在比较简单的证明,比如函数极限的和定理中,Copilot还能准确预测证明结构和关键步骤,表现得就像个得力助手一样。
比如在处理函数极限的差和积定理时,它在复杂的代数推导、寻找合适的数学引理(比如与绝对值相关的引理)等方面显得力不从心。
Copilot有时还会出现「幻觉」,生成压根不存在的策略,或者犯一些低级错误,导致证明过程乱成一团。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。
本站严格遵守《信息网络传播权保护条例》,仅分享已注明来源的公开信息,不涉及原创内容的复制与转载。若您为相关内容的权利人,认为本站涉及侵权,请于30日内通过邮件与我们联系,我们将在核实后第一时间处理并删除相关内容。
举报邮箱:yuzhibolangzi@gmail.com
上一篇:金巧巧自曝30年前医美翻车!用这款AI工具5分钟搞定绝美动漫脸AI翻车记
下一篇: 暂无