繁中

DeepMind的「超人數學系統」項目是開源的

谷歌DeepMind的「超人推理團隊」披露了多個研究項目:

  • AlphaCurve:自動完成幾何證明題
  • AlphaGeometry 2:獲得國際數學奧林匹克會(IMO)銀牌級別
  • IMO Bench:2025年榮獲IMO金獎後推出的數學評估基準,包含400多個人工智慧測試問題
  • Aletheia:一個能夠驗證和優化數學問題解決流程的人工智慧代理

所有項目都使用Apache 2.0和CC-BY開源協議開放。

有一件事許多人實際上沒有意識到:谷歌DeepMind最近披露的這些項目並不是「製造可以解決更好問題的人工智慧」,而是在悄悄重寫一些更基本的東西--機器如何推理

當人們第一次看到AlphaCurve時,很容易將其視為「數學問題解決者」。「它確實可以完成幾何證明,甚至在某些問題上接近甚至超越人類玩家。但如果你只是停在這裡,你就會誤解它的含義。這個系統不僅僅是「學習解決問題的例行程式」。這更像是試圖將人類數百年來開發的幾何推理過程轉化為機器可以穩定執行的語言。不是模仿,而是重建。

這種重建在AlphaCurve 2中變得更加明顯。當據說它已經達到國際海事組織銀級時,真正值得關注的不是「分數」,而是它處理更長、更複雜、更接近人類思維極限的推理鏈的能力。這裡的變化不是量的積累,而是質的飛躍:推理不再機械地一步步發展,而是開始呈現類似於「戰略選擇」的結構--何時建立輔助路線,何時改造問題,何時放棄道路重新開始。這些最初被認為是高度直觀的行為,開始被機器系統性地捕捉。

但如果你只會「做題」,這個系統其實是危險的。因為任何複雜的推理,一旦無法驗證,就不可信。這就是為什麼DeepMind還推出了IMO Bench。它不是簡單的題庫,而是一個「壓力測試環境」。400多個問題的意義不在於數量,而在於覆蓋範圍:不同的難度水平、不同的結構、不同的推理模型。不是問「你能解決某些問題嗎」,而是「你的推理能力穩定嗎?"

然後輪到阿萊西婭出現了。這一步是整個系統中最接近「未來」的部分。它不會解決問題,而是做另一件更關鍵的事情:檢查推理是否成立,必要時予以糾正。這聽起來像是一個輔助工具,但事實上,它改變的是推理的閉環結構。過去,大多數人工智慧停留在「生成答案」上;現在,這個系統已經開始具備「生成-驗證-正確」循環的能力。一旦這個循環穩定,就意味著機器不僅可以推理,而且還可以負責自己的推理。

將這些東西放在一起,一個更清晰的輪廓正在浮現:AlphaCurve正在建立「解決問題的能力」,AlphaCurve 2正在接近「人類極限」,IMO Bench正在定義「指標」,Aletheia正在建立「值得信賴的機制」。「它們不是離散的項目,而是一個逐漸封閉的系統。

這也解釋了為什麼DeepMind使用「超人」一詞來描述這個方向。關鍵不在於機器「比人類快」或「比人類更準確」,而是機器開始擁有可以驗證、重複和擴展的推理能力。一旦這種能力穩定,它就不再依賴個人天賦,也不再受疲勞、情緒或經驗的限制。

這個問題真正變得有趣的地方是:當推理本身能夠被工業化生產和驗證時,人類長期依賴「少數天才」的領域會發生結構性變化嗎?數學只是一個起點。物理、工程,甚至複雜的系統設計都可能進入相同的軌跡。

從這個角度來看,這些項目的意義並不在於「人工智慧可以做幾何問題」,而在於另一件更直接的事情:

推理首次被視為一種可工程化的能力。

Github:https://github.com/google-deepmind/superhuman
輸油管:

返回頂端