丘成桐给AI出了多道数学题,上海四大模型现场解答,结果……
昨天(26)举行的“人工智能的数学边界与基础重构”论坛上,一场没有硝烟的挑战赛正在上演:出题方是以首位华人菲尔兹奖获得者丘成桐为首的“数学家天团”,答题方则是上海人工智能的“顶流”——人工智能实验室、商汤科技、阶跃星辰和MiniMax。
逻辑推理是数学的核心。数百年来,数学家仅凭一张纸、一支笔,就能从迷宫中找到通往真理的路径,而如今的大模型已展现出强大的推理能力。这场挑战的结果是:4个本土大模型均通过“最强数学大脑”的命题考验,展现了上海AI的硬核实力。
论坛上还为Hitchin–Ngo 实验室(聚焦代数几何与数学物理)与Fefferman 实验室(深耕流体力学与纳维 - 斯托克斯方程)举行揭牌仪式,标志着全球顶尖数学力量落户上海。
赛题设计直击AI推理核心
一开始,大模型并不擅长数学。它们常常出现“幻觉”,甚至可能被误导相信2+2=5。但新一代大型推理模型展现的能力令数学家眼前一亮。不同于过去“一锤定音”式输出结果,这些模型开始尝试模拟数学家逐步推理的思考过程。
丘成桐对给AI出题表现出巨大兴趣,他不仅指派团队精心遴选多道高质量数学题并亲自审核把关,还邀请英国、日本的院士专门命题。
上海人工智能实验室拿到的是2025国际数学奥林匹克竞赛的一道几何题,但没有提供图片,大模型需要根据文字描述理解题目并给出证明;阶跃星辰拿到的是不等式极值求解题,需要给出复杂分式约束下的最小值证明;MiniMax拿到的是概率递归题,需要给N对袜子配对;商汤科技拿到的是平面几何题,有多种解法。4道题均需完成自然语言推理+形式化验证的双重挑战,难度对标数学博士入门级研究。
顶级数学家为何热衷于给AI出题?在中国科学院院士、数学家徐宗本看来,数学不仅是工具,也是一门技术,一方面它为AI框定能力边界和行为准则,另一方面,人们也能从答题过程中窥见AI的“内心戏”。
差异化答题揭示AI数学潜力
面对博士级难题,大模型们各显神通。因为没有给图片,上海人工智能实验室的书生模型决定“以力破巧”。“模型用超长时间对上下文进行思考后,开始去编写一个严谨的证明,而且整个过程不是以形式化语言(精确的数学或机器可处理的公式定义语言),而是以自然语言形式来完成的。”上海人工智能实验室技术专家张文蔚说。
深思熟虑是大模型推理能力提升的重要标志。一年前,OpenAI发布的推理模型o1,展现出此前模型所不具备的超级推理能力。o1与其他模型的最大差别就是它会深入思考,生成一个较长的内部思维链,包括复述一遍问题的要求、拆解任务、明确最终目标以及查漏补缺,它甚至还会提醒自己其中可能存在陷阱,并列出需要用到的知识点和步骤。完成这些之后,它才开始工作。张文蔚判断,书生的解题思路和o1完全一致。
阶跃星辰的step大模型则是通过一边解题、一边调用工具纠错的方式,实时推演成功。有意思的是,阶跃星辰技术专家万若斯发现,在解题过程中,step涌现出未被预设的全新解题思路。
AI是数学家的对手还是助手?从这两题的解答过程就能窥见一二。西班牙数学科学委员会研究员郑凡认为,AI既可以任劳任怨完成繁琐的推理工作,也具备“灵光一闪”提出新思路的能力,无论成为哪种角色都潜力巨大。
AI与数学“双引擎”加速耦合
上海科技大学数学科学研究所教授蔡明亮已习惯于有AI助手,他发现,有思路是解题的第一步,这道理适用于人,也适用于AI。
作为MiniMax拿到的那道题的出题者,他曾用它“考验”过许多AI,如果没有思路,即便把N设定为10,大模型也答不出来。当询问MiniMax的M1大模型为何能闯关成功时,技术专家周海刚回答里的一个词提醒了蔡明亮,答案正是思路。周海刚提到,MiniMax在让大模型获取高质量数据时,不会直接给答案,而是像教孩子一样,把最优的解答过程“喂”给大模型,这意味着好的知识沉淀往往要从过程中来。
大模型也深受使用者的影响。商汤科技的日日新大模型在解题时会根据不同提示词给出不同解法。这预示了在未来的工作中,人与AI的协同是多么重要。
当前,AI与数学这对“双引擎”正加速耦合,AI展现的强大推理能力,正将数学家从繁复的计算与验证中解放出来,使他们得以聚焦于更本源、更具创造性的问题,以及需要深刻直觉和想象力的领域。尽管大多数专家认为真正的创新和突破仍属人类,但前菲尔兹数学科学研究院院长库马尔·穆尔蒂不忘提醒人们,不要忽视想象的力量,甚至不要轻视大模型的幻觉,要把数学嵌入到AI之中,跳出思维定式,去提出更好的问题。
3、中国驻泰使馆提醒在泰中国公民避免前往泰柬边境有关区域,中国驻泰国大使馆关于回国人员最新规定