上交大等联合团队发布PRL-BENCH：AI能做物理学家吗？

当前位置：首页>合川>上交大等联合团队发布PRL-BENCH：AI能做物理学家吗？

上交大等联合团队发布PRL-BENCH：AI能做物理学家吗？

发布时间：2026-04-28 来源：不谋同辞网作者：勒布朗23James

这项由上海交通大学人工智能学院、物理与天文学院、李政道研究所、中国科学院理论物理研究所、浙江实验室及DP Technology等多家机构联合开展的研究，以预印本形式发布于2026年4月，编号为arXiv:2604.15411，感兴趣的读者可通过该编号检索完整论文。

**当AI遇上诺贝尔奖级别的物理难题**

物理学家的日常工作是什么样的？不是坐在黑板前抄公式，也不是把书上的题目做一遍。真正的物理研究更像是在一片陌生的森林里探险——没有地图，没有现成的路，只有一个模糊的目的地。研究者需要自己判断从哪里出发，选什么工具，走哪条路，还要随时准备推翻自己刚走出来的一段路，重新规划方向。

现在的人工智能，尤其是那些能写文章、解数学题、回答各种问题的大型语言模型，已经在很多任务上表现出惊人的能力。但这些AI真的能胜任物理学家的工作吗？不是做做填空题那种，而是真正意义上的科学探索？

为了回答这个问题，来自上交大及多家合作机构的研究团队设计了一套考题，题目直接来源于物理学领域顶尖期刊《物理评论快报》（Physical Review Letters，简称PRL）上刚刚发表的真实论文。这套考题被命名为PRL-BENCH，专门用来测试AI在真实物理研究场景中的能力边界。

**一、为什么现有的AI考题已经不够用了**

在说PRL-BENCH之前，先要理解一个问题：现在已经有很多测试AI能力的考题集，为什么还需要一套新的？

现有的那些顶级AI测试题，大多数走的是"奥林匹克竞赛"路线，比如各种数学和理科竞赛题，甚至还有一套被称为"人类最后考试"（Humanity's Last Exam）的超难题集，把全球各大学科里最难的题目汇集在一起。这些题目确实越来越难，但它们本质上都有一个共同特点：题目有明确的出发点，解题路径基本上是固定的，答案是唯一的，对不对一目了然。

可以用烹饪来类比：竞赛题就像是给你一份食谱，告诉你用什么食材、什么步骤、煮多少分钟，你的任务是严格按照食谱做出菜来，做得越精准越好。而真正的物理研究更像是让你进入一个厨房，告诉你"做一道能让人吃了精神振奋的菜"，至于用什么食材、什么方法、什么火候，全靠你自己判断。

这个区别至关重要。真实的科研需要研究者在没有明确指引的情况下，自主选择理论框架，自己规划研究路径，在探索过程中不断调整方向，最终得出可以被验证的结论。现有的AI测试题，即便再难，也只是在考察"按图索骥"的能力，而不是"自主探索"的能力。

物理领域已有的一些专项测试，比如TPBench和PHYBench，虽然专门针对物理学，但同样依赖短小精悍、路径清晰的问题，没有触及真实研究的长链条、多步骤、开放性探索这些核心特征。还有一套叫FrontierScience的测试尝试向真实研究靠拢，但其中涉及物理的题目只有20道，覆盖面太窄，尤其缺少凝聚态物理和高能物理这两个现代物理的核心领域。

PRL-BENCH正是为了填补这个空白而诞生的。

**二、出题来源：直接从顶刊最新论文里取材**

PRL-BENCH的题目来源非常直接：研究团队从《物理评论快报》2025年8月至2026年3月间发表的最新论文中，精心挑选了100篇，作为题目的素材库。

《物理评论快报》在物理学界的地位相当于武侠小说里的"武林盟主"——能在上面发表论文，意味着研究质量经过了顶尖同行的严格评审，代表着当前物理研究的最前沿水平。选择最新期次的论文，还有一个额外的好处：这些内容很可能没有被用来训练现有的AI模型，可以最大程度避免AI"背答案"的情况。

在筛选论文时，研究团队有一条明确的原则：只选理论推导和数值计算为主的工作，排除以实验为主的研究，也排除那些需要海量数据集、大规模计算资源或专门仿真软件才能完成的工作。这样做的原因是，测试AI解决理论和计算问题的能力，需要有一个客观、可验证的标准，而实验性工作的结果往往受到太多外部条件影响，难以公平评判。

100篇论文覆盖了现代物理的五个主要方向：天体物理学、凝聚态物理学、高能物理学、量子信息与基础物理，以及统计物理与复杂系统。这五个方向各有特色，既有依赖严格数学结构的理论框架，也有需要构建物理模型进行近似估算的方法，还有以数值计算和现象描述为主的研究，可以全面检验AI在不同物理思维模式下的表现。

从题目分布来看，量子信息方向占比最大，达到36%，凝聚态物理以31%居次，天体物理占16%，高能物理占10%，统计物理占8%。这个分布大致反映了当前物理前沿研究的热点分布。

**三、题目长什么样：像真实科研任务的极简版**

PRL-BENCH的每道题都有四个组成部分，就像一个精心设计的探险任务说明书。

第一部分是"研究动机"，用几句话交代这道题的科学背景和研究目标，让解题者明白为什么要研究这个问题，但不会告诉你应该怎么做。第二部分是"核心任务"，给出一个具体的研究目标，但解题路径完全开放，需要自己规划。第三部分是"答案与评分标准"，包含可以客观验证的最终答案，比如具体的数值、解析公式或判断结论，以及一套结构化的中间评分标准，用来检查解题过程中的关键推理步骤是否正确。第四部分是"详细解答"，提供专家给出的完整解题过程，作为评判的参考基准。

更重要的是，每道大题通常包含若干个相对独立的小问题，这些小问题虽然共享同一个科学背景，但并不形成严格的线性依赖链——也就是说，前一个小问题答错了，不会导致后面所有问题都无法完成。这个设计非常聪明：在真实科研中，一个推导步骤出错不代表整个研究全盘皆输，研究者可以从不同角度切入同一个问题。将这种结构引入测试，既能减少误差传播对评分的影响，也能更准确地反映AI在不同类型子任务上的真实能力。

以题目集中展示的一个典型例子来说明。这道题关于格规范理论的张量网络模拟，背景是一种用来研究格点规范场的计算方法。题目给出了物理系统的基本哈密顿量形式，以及采用了"规范不变的PEPS拟设"这一特定方法框架，然后让解题者完成四个小任务：计算特定参数下基态能量对耦合常数的一阶和二阶导数；在有静态电荷的情况下计算某些可观测量的平方期望值，并判断它们的对称性关系；计算混合系统中哈密顿量在中心格点区域的期望值；以及模拟实时动力学演化，追踪特定激发态在不同时刻的传播。

每个小任务都有精确到小数点后几位的数值答案，比如能量对耦合常数的一阶导数等于29.2609913710，二阶导数等于-179.0345184105。这种精度要求让评判结果具有高度客观性，不存在模糊的"部分正确"灰色地带。

**四、参加考试的选手：六支顶尖AI队伍**

研究团队选择了六个当前最强大的大型语言模型来参加这场测试，分别是GPT-5.4、Gemini-3.1-Pro、Claude-Opus-4.6、豆包Seed-2.0-Pro、Qwen-3.5-Plus和Kimi-K2.5。这些模型代表了目前AI技术的最高水平，来自不同的研究机构，覆盖了全球主要的AI研究团队。

考试规则经过精心设计。每道题，每个模型独立作答五次，取平均分，这样可以减少AI输出随机性带来的干扰。所有模型都可以使用代码解释器这个工具，也就是说AI可以编写代码来完成数值计算任务。但为了防止作弊——确切地说是防止AI直接搜索到原论文的答案——所有与网络检索相关的工具全部被禁用。

评分采用"AI当裁判"的方式，用GPT-5作为评判模型，严格对照标准答案和评分标准，给出每道题的得分。最终分数被标准化到0到100分的范围内进行报告。

**五、成绩单揭晓：最强选手也没能过半**

考试结果可以用一个词来概括：全线告急。

六个模型中表现最好的是Gemini-3.1-Pro，总分44.27分。排在第二的是Qwen-3.5-Plus，得了40.05分。GPT-5.4得了37.38分，Claude-Opus-4.6得了37.40分，豆包Seed-2.0-Pro得了37.83分，这三个模型形成了成绩接近的中间梯队。Kimi-K2.5以33.89分垫底。

换句话说，在这套满分100分的题目面前，最强的AI只拿到了44分出头，连及格线都没过。更值得注意的是，六个模型之间的差距并不大，大约在10分的范围内，这说明它们在面对真实科研任务时遇到的困难具有相当的共性，不是某一个模型的特殊问题，而是当前AI技术普遍面临的瓶颈。

从各物理子领域来看，Gemini-3.1-Pro和GPT-5.4在不同方向的表现相对均衡，而其他模型在不同子领域之间的成绩波动更大。一个规律性的现象是：大多数模型在天体物理和统计物理方向的得分低于凝聚态物理、高能物理和量子信息方向。研究团队推测，天体物理和统计物理的问题往往更加异质化，缺乏标准化的套路，在AI的训练数据中覆盖相对较少，可供直接复用的推理模板也更少。

**六、错误解剖：AI到底在哪里摔跤**

光知道成绩不够，更重要的是搞清楚AI为什么答错。研究团队对所有模型的完整作答过程进行了细致分析，把错误归纳为四种类型。

第一种是"公式或概念错误"，指AI选错了理论模型或者用了不适用的公式，本质上反映的是对物理领域知识的掌握不足。第二种是"推导错误"，指在推理链条的某个环节出现了问题，比如引入了不真实存在的公式，或者做出了没有依据的假设，这主要反映推理能力的缺陷以及AI的"幻觉"问题。第三种是"计算错误"，包括代数运算失误和数值计算错误，反映的是数学运算层面的不可靠性。第四种是"不完整"，指AI的回答遗漏了问题、只回答了一部分，或者没能满足题目的完整要求，主要反映AI在处理长时程任务时的上下文管理能力不足。

统计结果显示，"公式或概念错误"是所有模型最主要的失败原因，在大多数模型的错误中占比大约在45%到55%之间。GPT-5.4的这一比例是46.97%，Gemini-3.1-Pro是50.79%，豆包Seed-2.0-Pro更高达55.62%。这意味着，即便是当前最强大的AI，对高级理论物理知识的掌握仍然存在明显的欠缺，经常在选择理论框架的第一步就走错了方向。凝聚态物理领域这个问题尤为突出，AI往往会拿出一个看起来相关但实际上并不适用的理论框架来套用。

"推导错误"和"计算错误"在总体错误中扮演次要但不可忽视的角色。推导错误通常保持在一个中等水平，大约占所有错误的8%到13%，但在理论密集的高能物理方向会明显升高，GPT-5.4在高能物理方向的推导错误率达到17.24%，豆包Seed-2.0-Pro更高达23.33%，反映出AI在进行多步符号推导时容易引入无效的中间步骤。计算错误则相对稳定，大约占20%到30%，说明代数运算和数值计算是有难度的，但不是最根本的瓶颈。

Claude-Opus-4.6的失败模式与其他模型截然不同，格外引人注目。这个模型的"不完整"类错误在全部子领域中都占据主导地位，全局比例高达63.93%。但研究团队特别指出，这并不是Claude-Opus-4.6谨慎保守、不敢作答，而是另一种更深层的问题：这个模型在作答过程中会反复尝试推导，不断自我纠正，在这个过程中引入越来越多没有依据的假设，试图维持表面上的逻辑一致性，最终导致整个推理链条崩溃，给出不完整或无法支撑的答案。这个现象揭示了一种"越挣扎越陷越深"的困境，根本原因在于缺乏对长时程任务的全局规划能力——模型没有能力在解题一开始就制定清晰的总体策略，而是陷入局部的反复修正之中。

**七、这些发现告诉我们什么**

PRL-BENCH揭示的问题可以用一句话概括：当前的AI在应对真实物理研究时，面临的不是单一瓶颈，而是多重能力缺口同时存在的复合性困难。

具体来说，这些能力缺口体现在四个方面。其一是领域知识的深度不足，AI对高级理论物理的掌握尚未达到能够可靠选择正确理论框架的程度。其二是推导的稳定性不够，在进行多步骤的符号推理时，AI容易在中间步骤引入错误，而且往往意识不到自己已经出错。其三是数值计算的可靠性有待提升，虽然可以使用代码工具，但数学运算层面仍然存在明显的错误率。其四是长时程任务的适应能力欠缺，这或许是最核心的问题：AI目前缺乏在面对一个复杂、开放性研究任务时进行全局战略规划的能力，无法像真正的研究者那样，在探索过程中始终保持对整体目标的清醒把握，并根据中间结果动态调整策略。

归根结底，现在的AI更像是一个拥有大量知识储备、能够快速检索和运用已有公式的"超级百科全书"，但还不是一个能够在陌生领域自主规划、持续探索、灵活应对未知挑战的"科学家"。这两者之间的差距，不仅仅是知识量的差距，更是思维方式的本质差异。

这并不意味着AI走进死胡同了。PRL-BENCH的价值恰恰在于，它精确地标定了这个差距在哪里、有多大，从而为AI研究者指明了努力的方向。当我们知道AI在"选对理论框架"这个环节上失败率超过一半，就知道下一步需要专门强化这方面的训练和能力；当我们看到长时程任务的全局规划能力是最薄弱的环节，就知道这是未来突破的关键着力点。

说到底，这场测试的意义不在于让AI难堪，而在于诚实地回答"AI现在能做什么、还不能做什么"这个对整个科学界都至关重要的问题。毕竟，如果我们对AI的能力有过高的期待，就可能在错误的时机把关键的科研任务交给它；而如果我们低估了AI，又可能错过真正有价值的应用场景。

PRL-BENCH提供的这份成绩单，是目前为止最接近真实答案的一份。感兴趣深入研究这一课题的读者，可以通过arXiv编号2604.15411查阅完整论文，数据集也已在Hugging Face平台上公开发布。

Q&A

Q1：PRL-BENCH和其他物理AI测试有什么本质区别？

A：PRL-BENCH的题目直接来源于顶级期刊《物理评论快报》的最新论文，要求AI自主规划解题路径，没有现成的解题套路可以套用，并且需要完成多步骤的长链条研究任务。而TPBench、PHYBench等现有测试依赖短小精悍、路径明确的问题，本质上考的是"按图索骥"，不涉及真实科研中的自主探索能力，两者的难度和测试目标都有本质区别。

Q2：Gemini-3.1-Pro得了44分算高还是低？

A：在PRL-BENCH的评分体系里，44分是六个参赛模型中的最高分，但这个分数连及格线都没达到。这意味着即便是当前全球最强大的AI模型，在面对真实物理研究任务时，仍有超过一半以上的内容无法正确完成。这个结果明确说明，现有AI距离能够独立开展前沿物理研究还有相当大的差距。

Q3：AI在物理研究里最常犯什么错误？

A：根据PRL-BENCH的错误分析，最主要的失败原因是选错了理论模型或公式，占所有错误的45%到55%。简单来说，AI经常在解题的第一步就走错了方向，用了一个看起来相关但实际上并不适用的物理框架。其次是推导过程中出现失误，在高能物理等理论密集领域尤为明显。此外，部分模型还表现出长时程任务管理能力的不足，在反复自我纠正中越陷越深，最终给出不完整的答案。

上一篇：{loop type="arclist" row=1 }{$vo.title}