Gavin Baker最近接受了一場訪談,訪談的信息密度非常高,覆蓋面極廣。
Gavin Baker是誰?他是 Atreides Management 的創始人,也是科技投資圈裡對半導體和 AI 基礎設施理解最深刻的投資人之一。他的觀點往往能跳過表面的炒作,直擊商業模式的本質。
在這篇文章中,我只討論其中一個他談及的主題,照常也是部份夾雜着我的一些想法,所以強烈建議大家去聽完整的內容。
這次訪談中,他提出了一個很重要的論點:在「推理模型(Reasoning Models)」出現之前,AI 公司其實並沒有真正的「數據飛輪」。但現在,一切都變了。
但在我們談論飛輪之前,必須先了解當時 AI 行業面臨的一場隱秘危機。
▋ 危機:Blackwell 的工程噩夢
我們都知道 AI 進步依賴於更強的芯片。
市場原本預期從 Nvidia H100 到新一代 Blackwell (GB200) 的過渡會像換 iPhone 一樣順滑。
但大家可能還有印象,Blackwell在2024年年中到2025年年初經歷了不少的生產延後。
這導致了嚴重的後果:用於訓練下一代模型(如 GPT-5 或 Gemini 3)的超級集群無法按時就位。
按照舊的縮放定律(Old Scaling Laws),模型變強必須依賴更大的數據和更強的算力。
如果硬件跟不上,AI 的進步就會停滯。如果 AI 在一整年裡都沒有變聰明,那麼數千億美元的 CapEx 泡沫可能就會破裂。
就在這個危急時刻,「推理」 出現了。
▋ 救世主:從「預測」到「推理」
Baker 直言:「如果推理模型沒有出現,從 2024 年中期到 Gemini 3 發布前,AI 的進步將是零。」
OpenAI 的 o1(Strawberry)等模型的出現,將行業焦點從 「預訓練(Pre-Training)」 強行拉到了 「推理(Inference)」。
這代表了 AI 向 「系統 2(System 2)」思維的跨越。
早期的 AI(如 GPT-4)使用的是「系統 1」思維——快思考、直覺。當你問它問題,它不是在思考,而是在基於概率「預測」下一個字。
它就像一個反應極快但不動腦子的學生,雖然擅長創意寫作,但在邏輯上很容易產生幻覺,因為它無法停下來檢查自己的錯誤。
這就導致了一個尷尬的境地:一個模型在經歷了耗資巨大的「預訓練」後被釋放出來,它的能力基本上就固定了。
它就像一本已經出版的書,無論多少人閱讀,書的內容本身不會自動變得更好。
雖然 OpenAI 試圖通過 RLHF(人類反饋強化學習)來改進模型——比如讓人類標註員對回答點讚或點踩——但這種反饋非常笨重、昂貴且難以規模化。
而推理模型引入了「慢思考」。它不會馬上回答,而是會先在內部生成一段隱藏的獨白(Chain of Thought),把問題拆解、規劃步驟,甚至在中途發現錯誤時進行「回溯(Backtracking)」。
這就是為什麼推理是「救世主」: 它允許我們在不依賴下一代硬件(Blackwell)的情況下,利用現有的 H100 芯片,通過讓 AI 「多想一會兒」來獲得 GPT-5 級別的智能。
這是一種「用時間換智能」的全新路徑。
▋ 遊戲規則的改變:已驗證獎勵 (Verified Rewards)
推理模型不僅解決了算力瓶頸,更修復了此前斷裂的「數據飛輪」。
在 Web 2.0 時代,巨頭們(如Google, Netflix等)擁有完美的飛輪:用戶越多 -> 數據越多 -> 產品越好。
但在 ChatGPT 早期,這個飛輪是斷裂的。單純的用戶聊天記錄並不能自動讓基座模型變聰明,因為模型無法判斷這些聊天的質量。
但推理模型引入了 「已驗證獎勵(Verified Rewards)」。
它特別擅長那些有「客觀對錯」的任務:
• 編程: 代碼能不能跑通?有沒有報錯?計算機可以自動驗證。
• 會計: 資產負債表平不平?
• 數學: 答案是否正確?
•
當 AI 能夠自我驗證答案的對錯時,它就不再需要人類去給它打分了。它可以在內部進行無數次的自我博弈和訓練,每一次「正確」的驗證,就是一次自動的強化學習。
▋新的縮放定律與護城河的回歸
這引出了 Baker 提到的兩條新路徑,徹底改變了商業邏輯:
1. 後訓練縮放 (Post-training Scaling): 利用「已驗證獎勵」,讓模型在訓練完之後,通過不斷解決難題來自我進化。
2. 測試時算力 (Test-time Compute): 這是新的範式。以前我們只在訓練時燒算力,現在我們可以在推理階段燒算力。
這才是最重要的商業含義:
如果模型可以通過「已驗證的結果」來自我學習,並且通過消耗更多推理算力來提升智商,那麼誰擁有最多的用戶使用場景,誰的模型就會以指數級速度變聰明。
想像一下,如果全世界的程序員都在用 Cursor 或 Copilot,AI 寫出的代碼被採納(Verified)還是被修改(Rejected),這些數據會源源不斷地餵回模型。
這意味著,「贏家通吃(Winner-take-most)」的邏輯回歸了。
Baker 認為,這打破了「模型將商品化(Commoditized)」的論調。
相反,頭部的實驗室(OpenAI, Google, Anthropic)因為擁有最大的用戶基數和內部數據飛輪,它們內部的模型版本(Checkpoints)將遠遠領先於開源模型或小型競爭對手。
▋ CapEx 的真相:不只是買算力,是在築牆
這讓我們看清了當下這場瘋狂軍備競賽(CapEx)的真相。
現在市場上有一種普遍的擔憂:Microsoft、Google、Meta、Amazon 每個季度砸幾百億美元買 GPU,這筆賬到底算不算得過來?ROI(投資回報率)在哪裡?
但如果結合「已驗證獎勵」來看,這不僅是買算力,更是在買一張通往未來的單程票。
1. 擁有生態的巨頭(Microsoft, Google, Meta,Amazon):以「存量」築牆
他們不只是在燒錢,而是在利用獨有的私有數據(Office 文檔、Instagram 互動、搜索記錄,網購習慣)構建物理上無法被複製的壁壘。
當這些獨家數據結合推理算力,他們內部的模型版本將始終比外部世界領先一代。這是一筆昂貴的「封鎖費」,將後來者徹底擋在門外。
2. 純模型實驗室(OpenAI, Anthropic):以「流量」求生
對於沒有存量生態的 OpenAI 來說,爭奪市場份額不是為了營收,而是為了進化。
在「後訓練縮放」的新範式下,用戶就是免費的高級標註員。
誰失去了用戶基數,誰就切斷了「已驗證獎勵」的來源。
這就是為什麼 OpenAI 輸不起市場份額。因為一旦沒有了用戶實時的反饋輸入,模型的大腦就會停止發育。
在這場遊戲裡,規模就是智能,而用戶就是燃料。
- KP
p.s. 最新一期深入分析已經發出,主角是「美股七巨頭」中今年表現最差的亞馬遜。亞馬遜上週剛剛舉行了re:Invent大會,宣佈了一系列方向改變。究竟他們打算如何在AI世代扳回一城?歡迎到我的電子報了解更多。