技術盛宴 | 端側鏈路故障逃生技術,破解萬億級大模型訓練中斷難題
針對萬億級大模型分布式訓練中的端側鏈路故障導致的訓練中斷與算力損失難題,銳捷網絡推出基于NCCL的端側鏈路故障逃生方案。該方案采用備份鏈路與非侵入式設計,實現毫秒級故障識別與秒級切換,保障訓練連續不中斷,有效降低AI訓練集群的硬件故障成本與算力浪費。

背景
近年來,隨著人工智能技術的迅猛發展,機器學習模型的規模呈現出爆發式增長態勢。尤其在深度學習領域,模型規模的顯著提高成為推動諸多技術突破與性能提升的關鍵要素。當模型參數數量達到萬億級別時,受限于單臺設備的物理資源而無法實現單機訓練。為此,分布式訓練技術應運而生,并迅速成為訓練超大規模模型的核心手段。分布式訓練能夠顯著提高訓練效率,突破單機內存和計算能力的瓶頸。融合模型并行與數據并行等技術的分布式混合并行訓練策略成為訓練超大規模大語言模型的主要技術途徑,該方法不僅能有效利用大規模硬件資源,還能在確保訓練穩定性和模型性能的前提下,實現大語言模型的高效訓練與部署。
一、網絡故障
分布式訓練是指在多個計算節點上協同作業,共同完成機器學習模型的訓練過程。通過將訓練任務拆分至多個設備上并行執行,不僅能合理分配計算和存儲資源,也能顯著提升訓練速度,并且能夠處理更大規模的數據和模型。
然而,訓練過程中出現故障的可能性會隨著訓練規模和持續時間的增加而升高。一旦發生故障,將使所有參與的設備處于閑置狀態,直至故障設備恢復正常,導致大量算力無法得到充分利用。來自Meta、HuggingFace和LAION的團隊均報告了在訓練大型模型時因失敗導致利用率嚴重下降的情況。
根據Meta團隊訓練Llama3.1的報告,在訓練期間平均每三個小時就會發生一次故障,其中約8.4%的故障是由網絡設備故障導致的。不同于其他由軟件引發的故障,網絡設備故障大多為硬件故障,例如網絡線纜或是網卡光模塊等硬件設備出現故障。相較于軟件故障,硬件故障的處理難度大、恢復時間長,可能造成更大的算力損失。

交換機設備間鏈路故障目前已能夠實現毫秒級處理與收斂,但端側網絡設備故障目前尚無較為高效的處理方案。端側設備故障主要包括服務器網卡故障、服務器與交換機的連接線纜損壞以及線纜光模塊故障等。隨著計算集群規模持續擴大,端側網絡設備故障已成為亟待解決的問題。
二、故障處理
目前,除軟件故障外,硬件故障的處理策略通常不區分具體的故障類型,發生硬件故障時,通常采用相同的方案進行處理。
檢查點(Checkpoint)是一種常見的持久化機制,用于保存訓練進度。在故障發生后,系統會立即對故障設備進行修復,或者將故障設備從集群中剔除,然后從最近的檢查點加載模型并繼續訓練。目前,許多優化策略圍繞檢查點機制展開:
1.EasyCkpt 采用異步化、層次化的保存方式,結合重疊模型拷貝與計算、網絡感知的異步存儲策略,實現了近乎零開銷的模型保存機制,并保證了大模型訓練過程中模型保存與恢復的精度無損。
2.Gemini 能夠將 Checkpoint 保存在具有更大聚合帶寬的 CPU 內存中,并通過一系列方案實現了大型模型訓練的快速故障恢復。
盡管如此,仍無法完全避免因故障定位和模型訓練重啟所帶來的算力損失。
冗余計算(Redundant computation)可以避免重新配置和重新啟動的開銷,在進行模型訓練時使用不同的節點進行冗余計算。當某個節點發生故障時,其他節點能夠代替故障節點進行計算,但是這樣引入了固定的內存開銷和計算開銷,進一步增加了訓練成本。
三、銳捷網絡的端側鏈路故障逃生
銳捷網絡的端側鏈路故障逃生是一種基于NCCL(NVIDIA Collective Communications Library)實現的端側鏈路故障快速規避方案,能夠在上層訓練框架無感知的情況下,自動對端側鏈路故障進行識別并處理,在模型訓練過程中發生端側鏈路故障時能夠保持訓練不中斷,在故障設備完成修復后訓練性能自動恢復。
端側故障逃生方案通過在NCCL加入故障識別以及故障規避機制,并在創建數據鏈路時同步創建備份鏈路來處理由于硬件故障導致單條鏈路無法通信的問題。

備份鏈路在主鏈路狀態正常時不會進行數據傳輸,對傳輸效率不產生任何影響。而在出現端側鏈路故障之后,通過一系列切換機制將原鏈路上的通信任務轉移到備份鏈路進行傳輸。

銳捷網絡的端側鏈路故障逃生方案具有以下主要特性:
1.非侵入式
該方案不受特定訓練框架的限制,也無需對上層框架進行修改。故障發生后,由NCCL自行處理,上層框架無感知。
2.快速且可靠
能夠對端側鏈路故障進行毫秒級的識別與定位,并對故障鏈路上的通信任務進行快速遷移,可實現秒級收斂,并能保障通信任務不中斷。
3.可恢復性
實時監測設備狀態,若故障設備狀態恢復正常,能夠在恢復的設備上重建通信鏈路,并將其重新納入通信設備集群。
銳捷網絡的端側鏈路故障逃生方案具有以下幾點關鍵收益:
1.提升系統可靠性
使用端側故障逃生方案能夠有效避免因端側網卡光膜線纜等設備發生故障而引起的訓練業務中斷,實現斷鏈不斷訓,通信的可靠性提升10倍。
2.降低訓練成本
能夠有效避免訓練集群因端側鏈路故障而導致的算力資源浪費,同時基于自動故障恢復處理機制確保網絡設備實現最大利用率,從而顯著降低訓練成本。 依據Meta公布的訓練日志(Llama 3.1,405B模型),在為期54天的預訓練階段,共出現419次意外中斷情況,其中約8.4%是由網絡故障所致。H100的算力建設費用約為10元/卡/小時,若每次中斷恢復需耗時1小時,那么萬卡集群每次訓練因網絡故障造成的算力損失約為350萬元。通過端側鏈路故障逃生機制,每年可挽回上千萬元的損失。
總結
大模型分布式訓練過程中的端側網絡故障,這是影響模型訓練的重大阻礙。構建精準且高效的故障處理機制,是各大型模型訓練團隊的持續追求,也是保障大模型訓練的重要環節。
通過在通信庫中添加故障處理模塊,能夠大幅度減少端側鏈路故障導致的算力損失。隨著方案的持續迭代與完善,我們堅信端側故障逃生方案能夠在大規模集群訓練故障處理中發揮更為重要的作用,為客戶創造更大的價值。銳捷網絡,致力做最懂端側的網絡供應商!
相關標簽:
點贊
更多技術博文
-
解密DeepSeek-V3推理網絡:MoE架構如何重構低時延、高吞吐需求?DeepSeek-V3發布推動分布式推理網絡架構升級,MoE模型引入大規模專家并行通信,推理流量特征顯著變化,Decode階段對網絡時度敏感。網絡需保障低時延與高吞吐,通過端網協同負載均衡與擁塞控制技術優化性能。高效運維實現故障快速定位與業務高可用,單軌雙平面與Shuffle多平面組網方案在低成本下滿足高性能推理需求,為大規模MoE模型部署提供核心網絡支撐。
-
#交換機
-
-
高密場景無線網絡新解法:銳捷Wi-Fi 7 AP 與 龍伯透鏡天線正式成團銳捷網絡在中國國際大學生創新大賽(2025)總決賽推出旗艦Wi-Fi 7無線AP RG-AP9520-RDX及龍伯透鏡天線組合,針對高密場景實現零卡頓、低時延和高并發網絡體驗。該方案通過多檔賦形天線和智能無線技術,有效解決干擾與覆蓋問題,適用于場館、辦公等高密度環境,提供穩定可靠的無線網絡解決方案。
-
#無線網
-
#Wi-Fi 7
-
#無線
-
#放裝式AP
-
-
打造“一云多用”的算力服務平臺:銳捷高職教一朵云2.0解決方案發布銳捷高職教一朵云2.0解決方案幫助學校構建統一云桌面算力平臺,支持教學、實訓、科研和AI等全場景應用,實現一云多用。通過資源池化和智能調度,提升資源利用效率,降低運維成本,覆蓋公共機房、專業實訓、教師辦公及AI教學等多場景需求,助力教育信息化從分散走向融合,推動規模化與個性化培養結合。
-
#云桌面
-
#高職教
-
-
醫院無線升級必看:“全院零漫游”六大謎題全解析銳捷網絡的全院零漫游方案是新一代醫療無線解決方案,專為智慧醫院設計,通過零漫游主機和天線入室技術實現全院覆蓋和移動零漫游體驗。方案支持業務擴展全適配,優化運維管理,確保內外網物理隔離安全,并便捷部署物聯網應用,幫助醫院提升網絡性能,支持舊設備利舊升級,降低成本。
-
#醫療
-
#醫院網絡
-
#無線
-