時(shí)間:所屬分類:學(xué)術(shù)成果常識(shí)瀏覽:1次
近期,北京大學(xué)物理學(xué)院傳來喜訊,一支以本科生為核心的研究團(tuán)隊(duì)所發(fā)表的大模型物理學(xué)基準(zhǔn)測(cè)試 PHYBench 論文,成功被人工智能頂級(jí)會(huì)議 NeurlPS2025 接收。NeurIPS 作為全球人工智能領(lǐng)域最具影響力的三大頂級(jí)會(huì)議之一,2025 年度論文投稿數(shù)量接近 30,000 篇,然而近年來其錄取率不足 25%,競(jìng)爭(zhēng)態(tài)勢(shì)極為激烈,在此背景下,北大團(tuán)隊(duì)的入選顯得尤為難得。
在人工智能技術(shù)日新月異的當(dāng)下,大模型在專業(yè)領(lǐng)域的能力逐漸向人類水平靠攏。在此情形下,如何全面且精準(zhǔn)地評(píng)估 AI 模型的科學(xué)能力與推理能力,成為了亟待解決的關(guān)鍵問題。基于此,北京大學(xué)物理學(xué)院的團(tuán)隊(duì)勇?lián)鷮W(xué)科責(zé)任,構(gòu)建了專門用于測(cè)試物理推理能力的基準(zhǔn)測(cè)試 ——PHYBench。
PHYBench 覆蓋了力學(xué)、熱學(xué)、光學(xué)、電磁學(xué)以及近代物理這五大物理領(lǐng)域,精心挑選了 500 余道題目,這些題目均要求模型進(jìn)行多步推理解答。為保障每一道題評(píng)測(cè)的公平性與科學(xué)性,團(tuán)隊(duì)采用了模型閉環(huán)測(cè)試與人類解題驗(yàn)證相結(jié)合的方式。測(cè)試結(jié)果顯示,在物理基準(zhǔn)測(cè)試中,模型的得分與模型綜合能力緊密相關(guān),而當(dāng)前的大模型在物理推理方面存在明顯短板。在眾多模型中,表現(xiàn)最佳的模型準(zhǔn)確率僅為 45.8%,與之形成鮮明對(duì)比的是,人類專家的準(zhǔn)確率達(dá)到了 61.9%,這清晰地表明 AI 在物理學(xué)深度推理方面與人類專家仍存在顯著差距。
圖例中的 New Models 表示論文發(fā)表(5 月 18 日)之后推出的模型
PHYBench 論文一經(jīng)發(fā)表便備受關(guān)注,在 alphaXiv 上連續(xù)兩周位居熱門論文榜單榜首,閱讀量累計(jì)超過 15 萬次;在 Hugging Face 上,該論文月下載量超過 4000 次,榮登新興數(shù)據(jù)集榜單第三名,并且多次被同賽道的其他研究引用。目前,團(tuán)隊(duì)已將部分試題和評(píng)測(cè)代碼開源,為相關(guān)社區(qū)的進(jìn)一步研究筑牢基礎(chǔ)。團(tuán)隊(duì)開發(fā)的 “表達(dá)式編輯距離 (EED)” 算法,已被上海人工智能實(shí)驗(yàn)室的工作 CMPhysBench 復(fù)用。可以說,PHYBench 為 AI 模型的物理推理能力提供了系統(tǒng)的評(píng)估基準(zhǔn),為 AI 與基礎(chǔ)科學(xué)的深度融合明確了發(fā)展方向。
PHYBench 論文的作者陣容強(qiáng)大,包括仇是、郭紹陽、宋卓洋、孫韞博、蔡則宇、衛(wèi)家燊、羅天宇等 49 位同學(xué),其中部分同學(xué)憑借此成果獲得了進(jìn)入人工智能頭部企業(yè)實(shí)習(xí)的寶貴機(jī)會(huì)。論文的指導(dǎo)老師匯聚了北京大學(xué)物理學(xué)院理論物理研究所的朱華星教授和曹慶宏教授,北京大學(xué)智能學(xué)院的張牧涵助理教授、楊耀東助理教授,以及北京計(jì)算科學(xué)研究中心的羅民興院士。
此次研究成果,是北京大學(xué)物理學(xué)院在人工智能時(shí)代高層次人才培養(yǎng)改革的一次重要嘗試,也是教育部《物理學(xué)人工智能教育專用大模型》建設(shè)項(xiàng)目的首個(gè)重要成果。此外,本項(xiàng)目還得到了北京大學(xué)物理學(xué)院學(xué)生會(huì)的大力協(xié)助,以及北京大學(xué)教務(wù)部本科教改項(xiàng)目、國(guó)家自然科學(xué)基金、教育部物理學(xué) 101 計(jì)劃和亞洲青年科學(xué)家基金的支持。