KP@FOMOSoc (@fomosoc): "Gavin Baker最近接受了一場訪談，訪談的信息密度非常高，覆蓋面極廣。 Gavin Baker是誰？他是 Atreides Management 的創始人，也是科技投資圈裡對半導體和 AI 基礎設施理解最深刻的投資人之一。他的觀點往往能跳過表面的炒作，直擊商業模式的本質。在這篇文章中，我只討論其中一個他談及的主題，照常也是部份夾雜着我的一些想法，所以強烈建議大家去聽完整的內容。這次訪談中，他提出了一個很重要的論點：在「推理模型（Reasoning Models）」出現之前，AI 公司其實並沒有真正的「數據飛輪」。但現在…"

The app for independent voices

KP@FOMOSoc

Dec 12

FOMO研究院電子報

Gavin Baker最近接受了一場訪談，訪談的信息密度非常高，覆蓋面極廣。

Gavin Baker是誰？他是 Atreides Management 的創始人，也是科技投資圈裡對半導體和 AI 基礎設施理解最深刻的投資人之一。他的觀點往往能跳過表面的炒作，直擊商業模式的本質。

在這篇文章中，我只討論其中一個他談及的主題，照常也是部份夾雜着我的一些想法，所以強烈建議大家去聽完整的內容。

這次訪談中，他提出了一個很重要的論點：在「推理模型（Reasoning Models）」出現之前，AI 公司其實並沒有真正的「數據飛輪」。但現在，一切都變了。

但在我們談論飛輪之前，必須先了解當時 AI 行業面臨的一場隱秘危機。

▋ 危機：Blackwell 的工程噩夢

我們都知道 AI 進步依賴於更強的芯片。

市場原本預期從 Nvidia H100 到新一代 Blackwell (GB200) 的過渡會像換 iPhone 一樣順滑。

但大家可能還有印象，Blackwell在2024年年中到2025年年初經歷了不少的生產延後。

這導致了嚴重的後果：用於訓練下一代模型（如 GPT-5 或 Gemini 3）的超級集群無法按時就位。

按照舊的縮放定律（Old Scaling Laws），模型變強必須依賴更大的數據和更強的算力。

如果硬件跟不上，AI 的進步就會停滯。如果 AI 在一整年裡都沒有變聰明，那麼數千億美元的 CapEx 泡沫可能就會破裂。

就在這個危急時刻，「推理」出現了。

▋ 救世主：從「預測」到「推理」

Baker 直言：「如果推理模型沒有出現，從 2024 年中期到 Gemini 3 發布前，AI 的進步將是零。」

OpenAI 的 o1（Strawberry）等模型的出現，將行業焦點從「預訓練（Pre-Training）」強行拉到了「推理（Inference）」。

這代表了 AI 向「系統 2（System 2）」思維的跨越。

早期的 AI（如 GPT-4）使用的是「系統 1」思維——快思考、直覺。當你問它問題，它不是在思考，而是在基於概率「預測」下一個字。

它就像一個反應極快但不動腦子的學生，雖然擅長創意寫作，但在邏輯上很容易產生幻覺，因為它無法停下來檢查自己的錯誤。

這就導致了一個尷尬的境地：一個模型在經歷了耗資巨大的「預訓練」後被釋放出來，它的能力基本上就固定了。

它就像一本已經出版的書，無論多少人閱讀，書的內容本身不會自動變得更好。

雖然 OpenAI 試圖通過 RLHF（人類反饋強化學習）來改進模型——比如讓人類標註員對回答點讚或點踩——但這種反饋非常笨重、昂貴且難以規模化。

而推理模型引入了「慢思考」。它不會馬上回答，而是會先在內部生成一段隱藏的獨白（Chain of Thought），把問題拆解、規劃步驟，甚至在中途發現錯誤時進行「回溯（Backtracking）」。

這就是為什麼推理是「救世主」：它允許我們在不依賴下一代硬件（Blackwell）的情況下，利用現有的 H100 芯片，通過讓 AI 「多想一會兒」來獲得 GPT-5 級別的智能。

這是一種「用時間換智能」的全新路徑。

▋ 遊戲規則的改變：已驗證獎勵 (Verified Rewards)

推理模型不僅解決了算力瓶頸，更修復了此前斷裂的「數據飛輪」。

在 Web 2.0 時代，巨頭們(如Google, Netflix等)擁有完美的飛輪：用戶越多 -> 數據越多 -> 產品越好。

但在 ChatGPT 早期，這個飛輪是斷裂的。單純的用戶聊天記錄並不能自動讓基座模型變聰明，因為模型無法判斷這些聊天的質量。

但推理模型引入了「已驗證獎勵（Verified Rewards）」。

它特別擅長那些有「客觀對錯」的任務：

• 編程：代碼能不能跑通？有沒有報錯？計算機可以自動驗證。

• 會計：資產負債表平不平？

• 數學：答案是否正確？

•

當 AI 能夠自我驗證答案的對錯時，它就不再需要人類去給它打分了。它可以在內部進行無數次的自我博弈和訓練，每一次「正確」的驗證，就是一次自動的強化學習。

▋新的縮放定律與護城河的回歸

這引出了 Baker 提到的兩條新路徑，徹底改變了商業邏輯：

1. 後訓練縮放 (Post-training Scaling)：利用「已驗證獎勵」，讓模型在訓練完之後，通過不斷解決難題來自我進化。

2. 測試時算力 (Test-time Compute)：這是新的範式。以前我們只在訓練時燒算力，現在我們可以在推理階段燒算力。

這才是最重要的商業含義：

如果模型可以通過「已驗證的結果」來自我學習，並且通過消耗更多推理算力來提升智商，那麼誰擁有最多的用戶使用場景，誰的模型就會以指數級速度變聰明。

想像一下，如果全世界的程序員都在用 Cursor 或 Copilot，AI 寫出的代碼被採納（Verified）還是被修改（Rejected），這些數據會源源不斷地餵回模型。

這意味著，「贏家通吃（Winner-take-most）」的邏輯回歸了。

Baker 認為，這打破了「模型將商品化（Commoditized）」的論調。

相反，頭部的實驗室（OpenAI, Google, Anthropic）因為擁有最大的用戶基數和內部數據飛輪，它們內部的模型版本（Checkpoints）將遠遠領先於開源模型或小型競爭對手。

▋ CapEx 的真相：不只是買算力，是在築牆

這讓我們看清了當下這場瘋狂軍備競賽（CapEx）的真相。

現在市場上有一種普遍的擔憂：Microsoft、Google、Meta、Amazon 每個季度砸幾百億美元買 GPU，這筆賬到底算不算得過來？ROI（投資回報率）在哪裡？

但如果結合「已驗證獎勵」來看，這不僅是買算力，更是在買一張通往未來的單程票。

1. 擁有生態的巨頭（Microsoft, Google, Meta，Amazon）：以「存量」築牆

他們不只是在燒錢，而是在利用獨有的私有數據（Office 文檔、Instagram 互動、搜索記錄，網購習慣）構建物理上無法被複製的壁壘。

當這些獨家數據結合推理算力，他們內部的模型版本將始終比外部世界領先一代。這是一筆昂貴的「封鎖費」，將後來者徹底擋在門外。

2. 純模型實驗室（OpenAI, Anthropic）：以「流量」求生

對於沒有存量生態的 OpenAI 來說，爭奪市場份額不是為了營收，而是為了進化。

在「後訓練縮放」的新範式下，用戶就是免費的高級標註員。

誰失去了用戶基數，誰就切斷了「已驗證獎勵」的來源。

這就是為什麼 OpenAI 輸不起市場份額。因為一旦沒有了用戶實時的反饋輸入，模型的大腦就會停止發育。

在這場遊戲裡，規模就是智能，而用戶就是燃料。

- KP

p.s. 最新一期深入分析已經發出，主角是「美股七巨頭」中今年表現最差的亞馬遜。亞馬遜上週剛剛舉行了re:Invent大會，宣佈了一系列方向改變。究竟他們打算如何在AI世代扳回一城？歡迎到我的電子報了解更多。

Dec 12

10:08 AM

The app for independent voices

Log in or sign up