发布时间:2026-04-28 来源:不谋同辞网作者:勒布朗23James
![]()
这项由上海交通大学人工智能学院、物理与天文学院、李政道研究所、中国科学院理论物理研究所、浙江实验室及DP Technology等多家机构联合开展的研究,以预印本形式发布于2026年4月,编号为arXiv:2604.15411,感兴趣的读者可通过该编号检索完整论文。
**当AI遇上诺贝尔奖级别的物理难题**
物理学家的日常工作是什么样的?不是坐在黑板前抄公式,也不是把书上的题目做一遍。真正的物理研究更像是在一片陌生的森林里探险——没有地图,没有现成的路,只有一个模糊的目的地。研究者需要自己判断从哪里出发,选什么工具,走哪条路,还要随时准备推翻自己刚走出来的一段路,重新规划方向。
现在的人工智能,尤其是那些能写文章、解数学题、回答各种问题的大型语言模型,已经在很多任务上表现出惊人的能力。但这些AI真的能胜任物理学家的工作吗?不是做做填空题那种,而是真正意义上的科学探索?
为了回答这个问题,来自上交大及多家合作机构的研究团队设计了一套考题,题目直接来源于物理学领域顶尖期刊《物理评论快报》(Physical Review Letters,简称PRL)上刚刚发表的真实论文。这套考题被命名为PRL-BENCH,专门用来测试AI在真实物理研究场景中的能力边界。
**一、为什么现有的AI考题已经不够用了**
在说PRL-BENCH之前,先要理解一个问题:现在已经有很多测试AI能力的考题集,为什么还需要一套新的?
现有的那些顶级AI测试题,大多数走的是"奥林匹克竞赛"路线,比如各种数学和理科竞赛题,甚至还有一套被称为"人类最后考试"(Humanity's Last Exam)的超难题集,把全球各大学科里最难的题目汇集在一起。这些题目确实越来越难,但它们本质上都有一个共同特点:题目有明确的出发点,解题路径基本上是固定的,答案是唯一的,对不对一目了然。
可以用烹饪来类比:竞赛题就像是给你一份食谱,告诉你用什么食材、什么步骤、煮多少分钟,你的任务是严格按照食谱做出菜来,做得越精准越好。而真正的物理研究更像是让你进入一个厨房,告诉你"做一道能让人吃了精神振奋的菜",至于用什么食材、什么方法、什么火候,全靠你自己判断。
这个区别至关重要。真实的科研需要研究者在没有明确指引的情况下,自主选择理论框架,自己规划研究路径,在探索过程中不断调整方向,最终得出可以被验证的结论。现有的AI测试题,即便再难,也只是在考察"按图索骥"的能力,而不是"自主探索"的能力。
物理领域已有的一些专项测试,比如TPBench和PHYBench,虽然专门针对物理学,但同样依赖短小精悍、路径清晰的问题,没有触及真实研究的长链条、多步骤、开放性探索这些核心特征。还有一套叫FrontierScience的测试尝试向真实研究靠拢,但其中涉及物理的题目只有20道,覆盖面太窄,尤其缺少凝聚态物理和高能物理这两个现代物理的核心领域。
PRL-BENCH正是为了填补这个空白而诞生的。
**二、出题来源:直接从顶刊最新论文里取材**
PRL-BENCH的题目来源非常直接:研究团队从《物理评论快报》2025年8月至2026年3月间发表的最新论文中,精心挑选了100篇,作为题目的素材库。
《物理评论快报》在物理学界的地位相当于武侠小说里的"武林盟主"——能在上面发表论文,意味着研究质量经过了顶尖同行的严格评审,代表着当前物理研究的最前沿水平。选择最新期次的论文,还有一个额外的好处:这些内容很可能没有被用来训练现有的AI模型,可以最大程度避免AI"背答案"的情况。
在筛选论文时,研究团队有一条明确的原则:只选理论推导和数值计算为主的工作,排除以实验为主的研究,也排除那些需要海量数据集、大规模计算资源或专门仿真软件才能完成的工作。这样做的原因是,测试AI解决理论和计算问题的能力,需要有一个客观、可验证的标准,而实验性工作的结果往往受到太多外部条件影响,难以公平评判。
100篇论文覆盖了现代物理的五个主要方向:天体物理学、凝聚态物理学、高能物理学、量子信息与基础物理,以及统计物理与复杂系统。这五个方向各有特色,既有依赖严格数学结构的理论框架,也有需要构建物理模型进行近似估算的方法,还有以数值计算和现象描述为主的研究,可以全面检验AI在不同物理思维模式下的表现。
从题目分布来看,量子信息方向占比最大,达到36%,凝聚态物理以31%居次,天体物理占16%,高能物理占10%,统计物理占8%。这个分布大致反映了当前物理前沿研究的热点分布。
**三、题目长什么样:像真实科研任务的极简版**
PRL-BENCH的每道题都有四个组成部分,就像一个精心设计的探险任务说明书。
第一部分是"研究动机",用几句话交代这道题的科学背景和研究目标,让解题者明白为什么要研究这个问题,但不会告诉你应该怎么做。第二部分是"核心任务",给出一个具体的研究目标,但解题路径完全开放,需要自己规划。第三部分是"答案与评分标准",包含可以客观验证的最终答案,比如具体的数值、解析公式或判断结论,以及一套结构化的中间评分标准,用来检查解题过程中的关键推理步骤是否正确。第四部分是"详细解答",提供专家给出的完整解题过程,作为评判的参考基准。
更重要的是,每道大题通常包含若干个相对独立的小问题,这些小问题虽然共享同一个科学背景,但并不形成严格的线性依赖链——也就是说,前一个小问题答错了,不会导致后面所有问题都无法完成。这个设计非常聪明:在真实科研中,一个推导步骤出错不代表整个研究全盘皆输,研究者可以从不同角度切入同一个问题。将这种结构引入测试,既能减少误差传播对评分的影响,也能更准确地反映AI在不同类型子任务上的真实能力。
以题目集中展示的一个典型例子来说明。这道题关于格规范理论的张量网络模拟,背景是一种用来研究格点规范场的计算方法。题目给出了物理系统的基本哈密顿量形式,以及采用了"规范不变的PEPS拟设"这一特定方法框架,然后让解题者完成四个小任务:计算特定参数下基态能量对耦合常数的一阶和二阶导数;在有静态电荷的情况下计算某些可观测量的平方期望值,并判断它们的对称性关系;计算混合系统中哈密顿量在中心格点区域的期望值;以及模拟实时动力学演化,追踪特定激发态在不同时刻的传播。
每个小任务都有精确到小数点后几位的数值答案,比如能量对耦合常数的一阶导数等于29.2609913710,二阶导数等于-179.0345184105。这种精度要求让评判结果具有高度客观性,不存在模糊的"部分正确"灰色地带。
**四、参加考试的选手:六支顶尖AI队伍**
研究团队选择了六个当前最强大的大型语言模型来参加这场测试,分别是GPT-5.4、Gemini-3.1-Pro、Claude-Opus-4.6、豆包Seed-2.0-Pro、Qwen-3.5-Plus和Kimi-K2.5。这些模型代表了目前AI技术的最高水平,来自不同的研究机构,覆盖了全球主要的AI研究团队。
考试规则经过精心设计。每道题,每个模型独立作答五次,取平均分,这样可以减少AI输出随机性带来的干扰。所有模型都可以使用代码解释器这个工具,也就是说AI可以编写代码来完成数值计算任务。但为了防止作弊——确切地说是防止AI直接搜索到原论文的答案——所有与网络检索相关的工具全部被禁用。
评分采用"AI当裁判"的方式,用GPT-5作为评判模型,严格对照标准答案和评分标准,给出每道题的得分。最终分数被标准化到0到100分的范围内进行报告。
**五、成绩单揭晓:最强选手也没能过半**
考试结果可以用一个词来概括:全线告急。
六个模型中表现最好的是Gemini-3.1-Pro,总分44.27分。排在第二的是Qwen-3.5-Plus,得了40.05分。GPT-5.4得了37.38分,Claude-Opus-4.6得了37.40分,豆包Seed-2.0-Pro得了37.83分,这三个模型形成了成绩接近的中间梯队。Kimi-K2.5以33.89分垫底。
换句话说,在这套满分100分的题目面前,最强的AI只拿到了44分出头,连及格线都没过。更值得注意的是,六个模型之间的差距并不大,大约在10分的范围内,这说明它们在面对真实科研任务时遇到的困难具有相当的共性,不是某一个模型的特殊问题,而是当前AI技术普遍面临的瓶颈。
从各物理子领域来看,Gemini-3.1-Pro和GPT-5.4在不同方向的表现相对均衡,而其他模型在不同子领域之间的成绩波动更大。一个规律性的现象是:大多数模型在天体物理和统计物理方向的得分低于凝聚态物理、高能物理和量子信息方向。研究团队推测,天体物理和统计物理的问题往往更加异质化,缺乏标准化的套路,在AI的训练数据中覆盖相对较少,可供直接复用的推理模板也更少。
**六、错误解剖:AI到底在哪里摔跤**
光知道成绩不够,更重要的是搞清楚AI为什么答错。研究团队对所有模型的完整作答过程进行了细致分析,把错误归纳为四种类型。
第一种是"公式或概念错误",指AI选错了理论模型或者用了不适用的公式,本质上反映的是对物理领域知识的掌握不足。第二种是"推导错误",指在推理链条的某个环节出现了问题,比如引入了不真实存在的公式,或者做出了没有依据的假设,这主要反映推理能力的缺陷以及AI的"幻觉"问题。第三种是"计算错误",包括代数运算失误和数值计算错误,反映的是数学运算层面的不可靠性。第四种是"不完整",指AI的回答遗漏了问题、只回答了一部分,或者没能满足题目的完整要求,主要反映AI在处理长时程任务时的上下文管理能力不足。
统计结果显示,"公式或概念错误"是所有模型最主要的失败原因,在大多数模型的错误中占比大约在45%到55%之间。GPT-5.4的这一比例是46.97%,Gemini-3.1-Pro是50.79%,豆包Seed-2.0-Pro更高达55.62%。这意味着,即便是当前最强大的AI,对高级理论物理知识的掌握仍然存在明显的欠缺,经常在选择理论框架的第一步就走错了方向。凝聚态物理领域这个问题尤为突出,AI往往会拿出一个看起来相关但实际上并不适用的理论框架来套用。
"推导错误"和"计算错误"在总体错误中扮演次要但不可忽视的角色。推导错误通常保持在一个中等水平,大约占所有错误的8%到13%,但在理论密集的高能物理方向会明显升高,GPT-5.4在高能物理方向的推导错误率达到17.24%,豆包Seed-2.0-Pro更高达23.33%,反映出AI在进行多步符号推导时容易引入无效的中间步骤。计算错误则相对稳定,大约占20%到30%,说明代数运算和数值计算是有难度的,但不是最根本的瓶颈。
Claude-Opus-4.6的失败模式与其他模型截然不同,格外引人注目。这个模型的"不完整"类错误在全部子领域中都占据主导地位,全局比例高达63.93%。但研究团队特别指出,这并不是Claude-Opus-4.6谨慎保守、不敢作答,而是另一种更深层的问题:这个模型在作答过程中会反复尝试推导,不断自我纠正,在这个过程中引入越来越多没有依据的假设,试图维持表面上的逻辑一致性,最终导致整个推理链条崩溃,给出不完整或无法支撑的答案。这个现象揭示了一种"越挣扎越陷越深"的困境,根本原因在于缺乏对长时程任务的全局规划能力——模型没有能力在解题一开始就制定清晰的总体策略,而是陷入局部的反复修正之中。
**七、这些发现告诉我们什么**
PRL-BENCH揭示的问题可以用一句话概括:当前的AI在应对真实物理研究时,面临的不是单一瓶颈,而是多重能力缺口同时存在的复合性困难。
具体来说,这些能力缺口体现在四个方面。其一是领域知识的深度不足,AI对高级理论物理的掌握尚未达到能够可靠选择正确理论框架的程度。其二是推导的稳定性不够,在进行多步骤的符号推理时,AI容易在中间步骤引入错误,而且往往意识不到自己已经出错。其三是数值计算的可靠性有待提升,虽然可以使用代码工具,但数学运算层面仍然存在明显的错误率。其四是长时程任务的适应能力欠缺,这或许是最核心的问题:AI目前缺乏在面对一个复杂、开放性研究任务时进行全局战略规划的能力,无法像真正的研究者那样,在探索过程中始终保持对整体目标的清醒把握,并根据中间结果动态调整策略。
归根结底,现在的AI更像是一个拥有大量知识储备、能够快速检索和运用已有公式的"超级百科全书",但还不是一个能够在陌生领域自主规划、持续探索、灵活应对未知挑战的"科学家"。这两者之间的差距,不仅仅是知识量的差距,更是思维方式的本质差异。
这并不意味着AI走进死胡同了。PRL-BENCH的价值恰恰在于,它精确地标定了这个差距在哪里、有多大,从而为AI研究者指明了努力的方向。当我们知道AI在"选对理论框架"这个环节上失败率超过一半,就知道下一步需要专门强化这方面的训练和能力;当我们看到长时程任务的全局规划能力是最薄弱的环节,就知道这是未来突破的关键着力点。
说到底,这场测试的意义不在于让AI难堪,而在于诚实地回答"AI现在能做什么、还不能做什么"这个对整个科学界都至关重要的问题。毕竟,如果我们对AI的能力有过高的期待,就可能在错误的时机把关键的科研任务交给它;而如果我们低估了AI,又可能错过真正有价值的应用场景。
PRL-BENCH提供的这份成绩单,是目前为止最接近真实答案的一份。感兴趣深入研究这一课题的读者,可以通过arXiv编号2604.15411查阅完整论文,数据集也已在Hugging Face平台上公开发布。
Q&A
Q1:PRL-BENCH和其他物理AI测试有什么本质区别?
A:PRL-BENCH的题目直接来源于顶级期刊《物理评论快报》的最新论文,要求AI自主规划解题路径,没有现成的解题套路可以套用,并且需要完成多步骤的长链条研究任务。而TPBench、PHYBench等现有测试依赖短小精悍、路径明确的问题,本质上考的是"按图索骥",不涉及真实科研中的自主探索能力,两者的难度和测试目标都有本质区别。
Q2:Gemini-3.1-Pro得了44分算高还是低?
A:在PRL-BENCH的评分体系里,44分是六个参赛模型中的最高分,但这个分数连及格线都没达到。这意味着即便是当前全球最强大的AI模型,在面对真实物理研究任务时,仍有超过一半以上的内容无法正确完成。这个结果明确说明,现有AI距离能够独立开展前沿物理研究还有相当大的差距。
Q3:AI在物理研究里最常犯什么错误?
A:根据PRL-BENCH的错误分析,最主要的失败原因是选错了理论模型或公式,占所有错误的45%到55%。简单来说,AI经常在解题的第一步就走错了方向,用了一个看起来相关但实际上并不适用的物理框架。其次是推导过程中出现失误,在高能物理等理论密集领域尤为明显。此外,部分模型还表现出长时程任务管理能力的不足,在反复自我纠正中越陷越深,最终给出不完整的答案。