碾壓凍結模型!TTT-Discover 實測:讓 LLM 在解題時自我修正才是科學發現的未來

[TL;DR] 重點快讀

  • 凍結模型(Frozen LLM)已達瓶頸,靜態權重無法應對需要深度邏輯與即時適應的科學難題。
  • TTT-Discover 引入「測試時訓練」,讓模型在面對單一問題時動態調整權重,實現真正的自我進化。
  • 開源模型的逆襲:基於 gpt-oss-120b 搭配 TTT 策略,其表現遠超依賴「鈔能力」的封閉式大模型。
  • 算力民主化:透過 Tinker API,科學發現的成本從數百萬美元降至數百美元,打破技術壟斷。
  • 推理本質的轉變:未來的競爭不在於預訓練數據量,而在於模型在陌生環境中的「即時學習」速度。

歷史總是驚人的相似。

回想當年 AlphaGo 擊敗李世石,很多人以為那是「搜索 (Search)」的勝利,但我看過數據,那是「學習 (Learning)」的勝利。如今,在 LLM 領域,我們正面臨同樣的轉折點。大多數人還在對著一個已經「腦死」的凍結模型(Frozen LLM)瘋狂下 Prompt,試圖榨乾它的最後一滴汁液。

TTT-Discover (Test-Time Training for Discovery) 的出現,就像是一記響亮的耳光,打在那些認為「預訓練決定一切」的人臉上。

這不是另一篇無聊的論文摘要。這是一場關於 AI 如何在「考試期間」作弊般地自我進化的革命。

凍結模型的悲劇:為什麼 AlphaEvolve 落伍了?

我們必須先誠實面對現狀。過去像 AlphaEvolve 這樣的方法,本質上是在「引導」一個不會改變的模型。這就像你試圖教一個已經停止發育的學生解微積分,你只能不斷換說法(Prompting),但他腦子裡的迴路已經固定了。

TTT-Discover 採取的策略完全不同。它允許模型在測試階段 (Test Time) 進行強化學習 (Reinforcement Learning)。

這意味著什麼?這意味著模型在面對一個單一的難題(例如 Erdős 的極小重疊問題)時,它不是在「回憶」答案,而是在「適應」問題。它在解題的過程中,權重是動態調整的,針對當下這個特定的環境進行優化。這才是人類解決問題的方式——我們在困難中學習,而不是只靠死記硬背。

數據不會說謊:開源模型逆襲的血淋淋教訓

我最看不起那些必須依賴封閉式 Frontier Models(如 GPT-4, Claude 3 Opus)才能跑出成績的研究。那種「鈔能力」不代表技術突破。

TTT-Discover 最讓我興奮的點在於,它的所有 SOTA (State-of-the-Art) 成績,全部是基於 OpenAI gpt-oss-120b 這個開源模型跑出來的。

看看這些屠榜的數據:

  • Erdős 極小重疊問題 (Erdős’ minimum overlap problem):刷新紀錄。
  • GPUMode 核心競賽:速度比現有技術快 2 倍。
  • 生物學單細胞去噪 (Single-cell denoising):跨領域的精準打擊。
  • AtCoder 演算法競賽:實打實的 Coding 能力提升。

這證明了一件事:演算法的優越性可以彌補原始模型的差距。 一個懂得在戰場上即時學習的中等士兵,絕對強過一個只會照本宣科的精英特種兵。

幾百美金的科學革命:Tinker API 與算力民主化

談錢很俗氣,但對於科研實驗室來說,預算就是命脈。

過去我們認為「科學發現」是 Google DeepMind 或 OpenAI 這種巨頭的遊戲,因為動輒需要數百萬美元的算力。TTT-Discover 給出了一個極具挑釁意味的數字:幾百美元 (A few hundred dollars)

透過 Tinker API 進行 Test-time training,解決一個世界級難題的成本竟然如此低廉。這打破了算力的階級壁壘。如果你是一個小實驗室的 PI,或者一個獨立開發者,這就是你的機會。你不需要幾千張 H100,你只需要正確的 TTT 策略。

「學習」終將吞噬「搜索」

在 AI 發展史上,有一個長期的辯論:到底是 Search (如 Monte Carlo Tree Search) 重要,還是 Learning 重要?

TTT-Discover 的作者提出了一個我很認同的觀點:對於困難問題,學習歷史上總是取代了搜索。 在圍棋是這樣,在蛋白質折疊 (Protein Folding) 是這樣。

現在,這個規律延伸到了 Test-time compute。簡單地擴大搜索空間(讓模型生成更多答案然後挑選)是線性的、低效的。讓模型在搜索過程中「學會」如何更好地搜索,才是指數級的增長。TTT-Discover 的核心就是設計了一個學習目標 (Learning Objective) 和搜索子程序,它不追求平均獎勵最大化,而是專注於最有希望的解決方案

總編輯的戰略建議

如果你正在做 AI 應用,特別是涉及複雜推理、數學證明或程式碼生成的領域,請立刻停止對 Frozen LLM 的盲目優化。

  1. 擁抱 Test-Time Training: 研究如何在你的推理管道中加入微型的 RL loop。
  2. 關注開源架構: 不要迷信閉源大模型,gpt-oss-120b 配合 TTT 已經證明了可行性。
  3. 重新定義「推理」: 推理不是靜態的輸出,推理是一個動態的、自我修正的學習過程。

未來的 AI 競爭,不在於誰的模型預訓練了更多數據,而在於誰的模型能在面對陌生問題時,學得更快。TTT-Discover 已經開了第一槍,聽不聽得見槍聲,就看你的造化了。


探索更多來自 YOLO LAB|解構科技邊際與媒體娛樂的數據實驗室 的內容

訂閱即可透過電子郵件收到最新文章。