Make money doing the work you believe in

「機會成本」往往比昂貴的硬體成本更具決定性!

*

這段訪問帶你走進最頂級華爾街賺錢之神,位於德州的 Jane Street 最新AI資料中心,展示了當今頂尖金融機構在高效能運算、基礎設施與冷卻技術上的精密配置與演進。以下為該資料中心的詳細介紹:

*

該設施配置了56個機架,總計高達4,032張GPU。主要運算叢集採用了GP300與VL72設備。

這些強大的算力被用於訓練大型語言模型(LLMs),以及專為適應交易問題與交易資料集所設計的客製化模型架構。

*

功耗巨幅增長:每個GB300機櫃在峰值時的功耗高達140千瓦(kW),相比之下,傳統的氣冷機櫃功耗僅約為10到40千瓦。

*

運算設備變得更加密集,這使得系統所佔用的物理空間變小,同時也大幅簡化了高度複雜的網路佈線工作。在資料中心內部,最核心且追求極致速度的連線採用「銅線」,因為電子在銅線中的移動速度快於光纖中的光速;而在整體部署中,光纖的總長度仍高達8,000公里。

*

隨著運算設備體積縮小、密度變高,用於支援這些設備的基礎設施(如變壓器和冷卻水塔)體積反而變得越來越龐大。

*

該建築最初是為低功耗的氣冷所設計,經過工程改造後引入了液冷系統,展現了極高的設計彈性。目前僅有約15%的機櫃維持氣冷,高達85%至90%的熱負荷是透過直接安裝在GPU上的冷板(cold plates)進行液冷散熱。

*

冷卻液體來自屋頂冷卻水塔(約18°C),並且與氣冷系統共用。技術水循環系統要求極度乾淨,需過濾至25微米以防止堵塞冷板,液體成分為去離子水(或蒸餾水)混合25%的丙二醇(propylene glycol),藉此抑制細菌或藻類生長。

*

為求部署速度,目前業界許多系統改走頂部管線,但Jane Street選擇將管線配置於高架地板下方。他們在地板下鋪設了感測繩,一旦發生漏水,系統能立刻偵測並自動關閉閥門,避免液體直接滴入或破壞伺服器。

*

現場設有大型緩衝槽,當電力中斷、屋頂冷卻塔需要時間重新啟動時,這些儲存著冷卻液的緩衝槽能作為「熱電池」維持GPU冷卻,同時也能平抑運算負載起伏所帶來的溫度波動。

*

冷卻系統具備較大的彈性,但電力的分配受到斷路器與電流的嚴格限制。如果過度超額訂閱或單一匯流排負載過高,將導致斷路器跳脫,進而中斷正在進行的訓練任務。為此,他們超額建置了配電設施,以保留未來轉移或擴充算力的空間。

*

結合了 NVIDIA 的硬體負載管理系統與Jane Street投入大量資源自建的監控工具,工程師能透過單一介面監控系統的每個環節。該軟體系統具備拓撲感知(topology-aware)能力,當偵測到耗電量過高時,會自動且受控地關閉部分運算節點,以防止斷路器跳脫並保護極具價值的硬體。

*

由於運算資源在內部競爭激烈且缺乏彈性,算力產出的結果對公司業務價值極高,因此在評估投入時,「機會成本」往往比昂貴的硬體成本更具決定性。

*

對比二十年前,該公司第一個被稱為「Hive」的運算叢集,僅是堆疊在辦公桌旁的六台 Dell Technologies 電腦,甚至曾被清潔人員在吸塵時不慎拔掉電源。早期的交易系統延遲可容許到秒或毫秒等級,但如今最頂尖的系統,已被要求必須在100奈秒以內完成封包處理。

*

May 16
at
1:00 AM
Relevant people

Log in or sign up

Join the most interesting and insightful discussions.