亚洲精品88-玩弄人妻少妇500系列-xx69国产-久久久久午夜-9l蝌蚪porny中文自拍-97视频免费看-懂色av蜜臂av粉嫩av-av无码一区二区大桥久未-免费a一级-caoporn国产精品免费公开-亚洲精品成人福利网站app-蜜桃av噜噜一区二区三区策驰-亚洲а∨无码2019在线观看-亚洲欧美国产va在线播放-亚洲精选91

告別運維內耗 全域協同提效 丨 銳捷網絡運維保障經驗分享會
預約直播
無感準入 人物統管 丨 RG-SAM+5.X 新一代高校AI認證平臺發布
預約直播
產品
< 返回主菜單
產品中心
產品
解決方案
< 返回主菜單
解決方案中心
行業
返回主菜單
選擇區域/語言

技術盛宴 | 端側鏈路故障逃生技術,破解萬億級大模型訓練中斷難題

針對萬億級大模型分布式訓練中的端側鏈路故障導致的訓練中斷與算力損失難題,銳捷網絡推出基于NCCL的端側鏈路故障逃生方案。該方案采用備份鏈路與非侵入式設計,實現毫秒級故障識別與秒級切換,保障訓練連續不中斷,有效降低AI訓練集群的硬件故障成本與算力浪費。

  • 發布時間:2025-09-03

  • 點擊量:

  • 點贊:

分享至

我想評論

背景

近年來,隨著人工智能技術的迅猛發展,機器學習模型的規模呈現出爆發式增長態勢。尤其在深度學習領域,模型規模的顯著提高成為推動諸多技術突破與性能提升的關鍵要素。當模型參數數量達到萬億級別時,受限于單臺設備的物理資源而無法實現單機訓練。為此,分布式訓練技術應運而生,并迅速成為訓練超大規模模型的核心手段。分布式訓練能夠顯著提高訓練效率,突破單機內存和計算能力的瓶頸。融合模型并行與數據并行等技術的分布式混合并行訓練策略成為訓練超大規模大語言模型的主要技術途徑,該方法不僅能有效利用大規模硬件資源,還能在確保訓練穩定性和模型性能的前提下,實現大語言模型的高效訓練與部署。

一、網絡故障

分布式訓練是指在多個計算節點上協同作業,共同完成機器學習模型的訓練過程。通過將訓練任務拆分至多個設備上并行執行,不僅能合理分配計算和存儲資源,也能顯著提升訓練速度,并且能夠處理更大規模的數據和模型。

然而,訓練過程中出現故障的可能性會隨著訓練規模和持續時間的增加而升高。一旦發生故障,將使所有參與的設備處于閑置狀態,直至故障設備恢復正常,導致大量算力無法得到充分利用。來自Meta、HuggingFace和LAION的團隊均報告了在訓練大型模型時因失敗導致利用率嚴重下降的情況。

根據Meta團隊訓練Llama3.1的報告,在訓練期間平均每三個小時就會發生一次故障,其中約8.4%的故障是由網絡設備故障導致的。不同于其他由軟件引發的故障,網絡設備故障大多為硬件故障,例如網絡線纜或是網卡光模塊等硬件設備出現故障。相較于軟件故障,硬件故障的處理難度大、恢復時間長,可能造成更大的算力損失。

交換機設備間鏈路故障目前已能夠實現毫秒級處理與收斂,但端側網絡設備故障目前尚無較為高效的處理方案。端側設備故障主要包括服務器網卡故障、服務器與交換機的連接線纜損壞以及線纜光模塊故障等。隨著計算集群規模持續擴大,端側網絡設備故障已成為亟待解決的問題。

二、故障處理

目前,除軟件故障外,硬件故障的處理策略通常不區分具體的故障類型,發生硬件故障時,通常采用相同的方案進行處理。

檢查點(Checkpoint)是一種常見的持久化機制,用于保存訓練進度。在故障發生后,系統會立即對故障設備進行修復,或者將故障設備從集群中剔除,然后從最近的檢查點加載模型并繼續訓練。目前,許多優化策略圍繞檢查點機制展開:

1.EasyCkpt 采用異步化、層次化的保存方式,結合重疊模型拷貝與計算、網絡感知的異步存儲策略,實現了近乎零開銷的模型保存機制,并保證了大模型訓練過程中模型保存與恢復的精度無損。

2.Gemini 能夠將 Checkpoint 保存在具有更大聚合帶寬的 CPU 內存中,并通過一系列方案實現了大型模型訓練的快速故障恢復。

盡管如此,仍無法完全避免因故障定位和模型訓練重啟所帶來的算力損失。

冗余計算(Redundant computation)可以避免重新配置和重新啟動的開銷,在進行模型訓練時使用不同的節點進行冗余計算。當某個節點發生故障時,其他節點能夠代替故障節點進行計算,但是這樣引入了固定的內存開銷和計算開銷,進一步增加了訓練成本。

三、銳捷網絡的端側鏈路故障逃生

銳捷網絡的端側鏈路故障逃生是一種基于NCCL(NVIDIA Collective Communications Library)實現的端側鏈路故障快速規避方案,能夠在上層訓練框架無感知的情況下,自動對端側鏈路故障進行識別并處理,在模型訓練過程中發生端側鏈路故障時能夠保持訓練不中斷,在故障設備完成修復后訓練性能自動恢復。

端側故障逃生方案通過在NCCL加入故障識別以及故障規避機制,并在創建數據鏈路時同步創建備份鏈路來處理由于硬件故障導致單條鏈路無法通信的問題。

備份鏈路在主鏈路狀態正常時不會進行數據傳輸,對傳輸效率不產生任何影響。而在出現端側鏈路故障之后,通過一系列切換機制將原鏈路上的通信任務轉移到備份鏈路進行傳輸。

銳捷網絡的端側鏈路故障逃生方案具有以下主要特性:

1.非侵入式

該方案不受特定訓練框架的限制,也無需對上層框架進行修改。故障發生后,由NCCL自行處理,上層框架無感知。

2.快速且可靠

能夠對端側鏈路故障進行毫秒級的識別與定位,并對故障鏈路上的通信任務進行快速遷移,可實現秒級收斂,并能保障通信任務不中斷。

3.可恢復性

實時監測設備狀態,若故障設備狀態恢復正常,能夠在恢復的設備上重建通信鏈路,并將其重新納入通信設備集群。

銳捷網絡的端側鏈路故障逃生方案具有以下幾點關鍵收益:

1.提升系統可靠性

使用端側故障逃生方案能夠有效避免因端側網卡光膜線纜等設備發生故障而引起的訓練業務中斷,實現斷鏈不斷訓,通信的可靠性提升10倍。

2.降低訓練成本

能夠有效避免訓練集群因端側鏈路故障而導致的算力資源浪費,同時基于自動故障恢復處理機制確保網絡設備實現最大利用率,從而顯著降低訓練成本。 依據Meta公布的訓練日志(Llama 3.1,405B模型),在為期54天的預訓練階段,共出現419次意外中斷情況,其中約8.4%是由網絡故障所致。H100的算力建設費用約為10元/卡/小時,若每次中斷恢復需耗時1小時,那么萬卡集群每次訓練因網絡故障造成的算力損失約為350萬元。通過端側鏈路故障逃生機制,每年可挽回上千萬元的損失。

總結

大模型分布式訓練過程中的端側網絡故障,這是影響模型訓練的重大阻礙。構建精準且高效的故障處理機制,是各大型模型訓練團隊的持續追求,也是保障大模型訓練的重要環節。

通過在通信庫中添加故障處理模塊,能夠大幅度減少端側鏈路故障導致的算力損失。隨著方案的持續迭代與完善,我們堅信端側故障逃生方案能夠在大規模集群訓練故障處理中發揮更為重要的作用,為客戶創造更大的價值。銳捷網絡,致力做最懂端側的網絡供應商!

相關標簽:

點贊

更多技術博文

任何需要,請聯系我們

返回頂部

收起
文檔AI助手
文檔評價
該資料是否解決了您的問題?
您對當前頁面的滿意度如何?
不咋滴
非常好
您滿意的原因是(多選)?
您不滿意的原因是(多選)?
您是否還有其他問題或建議?
為了快速解決并回復您的問題,您可以留下聯系方式
郵箱
手機號
感謝您的反饋!
請選擇服務項目
關閉咨詢頁
售前咨詢 售前咨詢
售前咨詢
售后服務 售后服務
售后服務
意見反饋 意見反饋
意見反饋
更多聯系方式
主站蜘蛛池模板: 带aaa级的网名| 日本精品网站| 狠狠插狠狠操| 哥也色在线视频| 加勒比不卡视频| 日韩中文字幕视频在线观看| 欧美黄色免费看| 久久手机视频| 日本丰满少妇一区二区三区| 日韩精品在线第一页| 91素人约啪| 成人区精品一区二区婷婷| 国产大尺度视频在线观看| 亚洲玖玖玖| 伊人天天干| 亚洲午夜精品一区二区三区| 91色综合| 黑人xxxx视频| 丁香免费视频| 97人人爽人人爽人人爽人人爽| 国产精品suv一区| 日韩合集床戏3小时| 992在线观看| 香蕉尹人| 国产xxxx孕妇| 国产精品一区2区| 免费在线看黄网址| 李宗瑞91在正在播放| 色视频网站| 91免费观看入口| 99re最新网址| 久久裸体| 午夜精品久久久久久久久久久久| 变态痴汉攻肉香文| 狼人综合视频| 好吊妞视频在线观看| 国产chinese男男gaygay视频| 一级片短视频| 久操热线| 青青草国产在线视频| 国产精品视频123| 岛国伊人| 男人插入女人阴道视频| 亚洲AV无码国产精品| 色a视频| 国内自拍99| 久久99精品国产麻豆91樱花| 国内精品免费在线观看| 毛片视频软件| 69人妻一区二区三区| 亚洲激情文学| 一级全黄色片| 色四月婷婷| 免费视频91蜜桃| 女同性精品亚洲| 国产大片中文字幕| 欧美jizz19性欧美| 天天舔天天射天天操| 天堂在线精品| 久草毛片| 瑟瑟成人网| 国产女上位| 亚洲综合视频网| 亚洲精品字幕| 亚洲视频1| 亚洲欧美另类中文字幕| 丰满岳乱妇一区二区三区| 亚洲好骚综合| 四虎黄网| 天堂成人国产精品一区| 亚洲五月婷婷| 大肉大捧一进一出好爽| 日韩中文一区二区| 91在线资源| 欧美日韩色片| 国产三级精品在线| 久久88| 免费看黄色三级| 张柏芝54张无删码视频| 91丝袜| 亚洲一卡二卡在线观看| 日本黄色大片在线观看| 九九热精品视频| 久草.com| 片多多在线观看| 99re久久精品国产| 黄色免费一级视频| 中国女人做爰做爰视频| 浴室嗯啊啪呻吟羞羞小说| www.男女| 日日日干| 都市激情 亚洲色图| 九一成人网| 中文字幕在线免费视频| 亚洲一区二区三区加勒比| 尤物视频免费观看| 亚洲精品区| 男人的天堂avav| 中文字幕不卡av|