來源:CDCC
01 引言
數字經濟時代,算力如同 “新引擎” 對各行業的關鍵驅動作用,從互聯網到制造業,從醫療到科研等領域,算力需求的增長推動了技術的革新與產業的升級。作為算力時代的核心資產,算力中心的發展也日新月異,近期WAIC上多家國產GPU廠商發布了他們的超節點產品,掀起了有關超節點這一技術的討論熱潮。
超節點(SuperPod)并非傳統意義上的單一硬件設備,而是指具備集中化管理、大規模資源整合、高性能調度能力的“邏輯節點”或“物理節點集群”。它是數據中心為應對海量數據處理、高并發業務、復雜集群管理需求而演化出的核心組件,本質是通過“資源聚合”和“功能升級”,解決普通節點(如單一服務器)在規模、效率、可靠性上的瓶頸。
本文嘗試從超節點的視角探討未來算力中心發展趨勢,借助分析這一行業走向來看未來算力中心的建設可能會出現哪些方面的技術創新。
02 超節點技術剖析
訓練側,大模型在Scaling Law的飛輪下,參數量已經突破萬億級別,海量參數的訓練過程中對于顯存的容量和帶寬都提出了更高的要求。此外,TP、EP等多種并行計算方式的引入帶來了大量All-to-All 通信,訓練所需的大集群面臨如何動態地將模型工作中的負載分配給整個GPU系統,實現更高的GPU利用率的考驗。
而推理側,隨著我們從生成式AI(Generative AI)向代理AI(Agentic AI)時代演進,推理產生的token量正以更陡峭的斜率在成倍增加。為了使數據中心這個AI工廠在更大的吞吐量下有更低的時延,需要從計算、通信、軟件架構等多個層面共同進行優化,以追求極致的經濟效益。

傳統數據中心以服務器為基本單元,通過算力設備的增加來實現算力的增長,其通信帶寬及計算資源協同發展面臨瓶頸,已經無法滿足這種大規模、高并發算力需求,算力的有效利用率較低。 為了在有限的資源下實現更高效的計算,超節點應運而生,通過對計算、存儲、通信等要素進行系統性的重構,使得單節點內的算力密度出現成倍的提升,打造出機架級的超級計算單元,整個系統的能耗比得到顯著優化。
03 典型的超節點及其構成
1、英偉達NVL72:高密度柜集大成者
NVL72 在單個機柜內通過 NVLink 技術將36個Grace CPU和72個 Blackwell GPU整合在一起,形成一個高帶寬、低延遲的統一計算單元。每顆 B200 GPU支持18條NVLink 5鏈路,每條鏈路雙向帶寬100 GB/s,72顆這樣的GPU通過9個NVLink Switch Tray形成總帶寬為130TB/s的全mesh網絡,在這個網絡里,所有GPU之間實現了點對點的全互聯,可以任意訪問其他GPU的內存空間。
NVLink解決了傳統分布式訓練中計算與通信失衡的根本矛盾,這種全互聯無阻塞架構,極大減少大模型訓練中的通信瓶頸,消除因通信延遲導致的計算單元空轉,使得單機柜的算力密度極大提升。NVL72是一次AI算力范式的革新,一個機柜相當于一個濃縮的傳統集群,將大模型訓練從分布式協作升級為超級單體計算。

2、華為CM384:系統級的重構 昇騰384采用對等計算架構,打破傳統以CPU為中心的層級架構。CPU和NPU在邏輯上地位平等,均可直接通信,無需通過CPU中轉。這種設計降低了通信延遲,提供了系統整體性能,尤其適用于大規模分布式計算場景。
CloudMatrix 384由384顆昇騰910C芯片通過全連接拓撲結構互聯而成。CloudMatrix 384超級節點橫跨16個機架,其中12個計算柜共承載48個昇騰910C服務器節點(總計384個NPU),以及4個通信設備柜(靈衢總線設備柜);每個計算柜包含4個Atlas 900 A3 SuperPoD計算節點,每個節點包括8個昇騰910C神經網絡處理單元和4個鯤鵬中央處理器。
這種設計通過規模效應實現性能躍升,盡管單顆昇騰芯片的性能僅為英偉達Blackwell GPU的三分之一,但五倍于后者芯片的數量足以彌補這一差距。完整的CloudMatrix系統現在可以提供300PFLOPs的密集型BF16計算能力,幾乎是GB200 NVL72的兩倍。其總內存容量超過后者的3.6倍,內存帶寬提升2.1倍,標志著華為及中國AI系統能力已全面躋身國際領先行列。
04 發展超節點面臨的挑戰與機會
超節點作為系統級的重構,涉及到諸多硬件層面的挑戰,在算力密度指數級增加的情況下,電力供應及散熱等配套硬件均面臨極限挑戰,未來如何在規模化的部署中去平衡性能與成本并實現穩定的運行,將成為下一步行業實踐中的主要優化方向。 首先,因為冷板式的冷卻的效率主要取決于冷卻工質的溫度及流速,冷卻工質如果降到較低溫度,容易在實際使用的過程中在冷板表面形成結露的現象,未來仍需要探索不同方式對這一現象進行改善;其次,液冷設備的可靠性要求極高,需支持上千次插拔零泄漏,一旦冷卻工質泄漏可能會導致設備短路燒毀,為了追求更高的可靠性,未來在材料科學(冷卻液等)和精密制造(冷板結構、機架結構)等方面都有可能持續的進行技術演進。 2、更高功率帶來電能儲備挑戰 同時,機柜級電池備份單元(BBU)也采用鋰電池替代鉛酸電池,能量密度提升 3 倍,響應時間縮短至微秒級,形成超級電毫秒級瞬態加鋰電池秒級穩態的雙時間尺度補償機制。
1、芯片集成密度帶來散熱挑戰
算力芯片的性能提升帶來的功耗增長明顯,以英偉達為例,H100單芯片功耗約為700W,而至B200時期單芯片的功耗增長至1200W,機架內的高功率密度使得風冷幾乎失效,未來服務器內液冷成為標配,目前各家廠商發布的超節點產品均搭配液冷作為冷卻方案。
液冷作為一種新興的冷卻技術,通過液態冷卻工質流動方式替代風冷的空氣換熱模式,可以更好地降低芯片核心溫度,延長芯片的使用壽命。目前主流的液冷方式包括冷板式和浸沒式,冷板式液冷通過金屬冷板內部冷卻工質的流動對接觸面進行冷卻,浸沒式液冷通過將電子元器件直接浸入冷卻工質中進行接觸式的散熱。
但是如今液冷在實際使用中仍面臨諸多工程上的問題,以浸沒式為例,因為冷卻工質直接接觸芯片和服務器內其他部件,容易對于高速信號的完整性造成影響,對于材料兼容性也提出較大要求;此外,機架使用過程中產生的熱點分布較為不均,主要集中在GPU、交換機芯片等地方,浸沒式液冷在使用中容易因為熱點表面的氣泡而導致冷卻效果受到影響,嚴重的情況下甚至導致芯片失效。
冷板式液冷憑借其相對低的改造成本以及較為完善的生態率先在多個行業有了典型部署,相比于浸沒式,冷板式在應用上更為簡單,用戶的使用習慣及運維模式與風冷也基本相同。但是盡管冷板式技術已取得顯著進展,未來其在超節點中的工程落地仍有較多亟待改進的空間。
超節點單機柜功耗普遍突破 100kW(如華為 CM384 達 172.8kW,英偉達 GB200 NVL72 約 120-140kW),而且計算密集型任務的脈沖式負載可能導致峰值功耗飆升,如何在電力方案上設置一定冗余以保障機架內硬件的安全成了超節點發展必須面臨的挑戰。
機器學習的訓練任務具有強同步性的特點,在執行矩陣運算等計算密集型任務時,功率需求瞬間攀升到峰值,而在同步通信或數據加載階段,功率則會驟降,這種瞬時功率的波動幅度極大且頻率高,對于供電網絡可能會造成損害,目前為了解決這類的電壓瞬變的問題,各家廠商主要從軟件和硬件層面進行優化。
硬件層面,傳統 UPS 無法快速響應,需集成超級電容模組(如 Meta 的 Power Capacitance Shelf)平抑波動。超級電容憑借微秒級響應速度和10 萬次以上循環壽命,可吸收 Iteration 切換時的瞬時功率尖峰。
軟件層面,數據中心的供電需要針對性地進行優化,主要是基于歷史訓練時產生的數據去預測未來的功率曲線,靈活對系統進行預調度。優化后既可以提升能效比,在同樣的能耗下提升系統吞吐量,也能夠提升系統穩定性,通過軟硬件協同的機制平滑抖動。
超節點技術推動算力中心架構從分散走向集成,以高密度設計革新布局,未來在超節點的工程實現上仍有眾多環節的技術演進存在多種可能,如何能夠通過液冷、供電系統等方面的優化去提升系統穩定性成了推動下一代算力中心的核心引擎。
標簽: 點擊: 評論: