亚洲精品88-玩弄人妻少妇500系列-xx69国产-久久久久午夜-9l蝌蚪porny中文自拍-97视频免费看-懂色av蜜臂av粉嫩av-av无码一区二区大桥久未-免费a一级-caoporn国产精品免费公开-亚洲精品成人福利网站app-蜜桃av噜噜一区二区三区策驰-亚洲а∨无码2019在线观看-亚洲欧美国产va在线播放-亚洲精选91

告別運維內耗 全域協同提效 丨 銳捷網絡運維保障經驗分享會
預約直播
無感準入 人物統管 丨 RG-SAM+5.X 新一代高校AI認證平臺發布
預約直播
產品
< 返回主菜單
產品中心
產品
解決方案
< 返回主菜單
解決方案中心
行業
返回主菜單
選擇區域/語言

2025銳捷官網
用戶體驗調研

馬上參與

解密DeepSeek-V3推理網絡:MoE架構如何重構低時延、高吞吐需求?

DeepSeek-V3發布推動分布式推理網絡架構升級,MoE模型引入大規模專家并行通信,推理流量特征顯著變化,Decode階段對網絡時度敏感。網絡需保障低時延與高吞吐,通過端網協同負載均衡與擁塞控制技術優化性能。高效運維實現故障快速定位與業務高可用,單軌雙平面與Shuffle多平面組網方案在低成本下滿足高性能推理需求,為大規模MoE模型部署提供核心網絡支撐。

  • 發布時間:2025-10-27

  • 點擊量:

  • 點贊:

分享至

我想評論

一、推理場景和MoE模型引入網絡新訴求

2025年初,DeepSeek-V3發布,迅速引發國內外的廣泛關注和部署熱潮。作為核心基礎設施之一,分布式推理網面臨全新的需求。整體來看,推理與訓練的流量差異、MoE模型架構的引入以及DeepSeek開源技術方案等多重因素,影響了網絡建設的方向和要求。

傳統稠密模型的訓練與推理流量中,95%以上為Tensor Parallel(TP)通信,主要在機內高帶寬域通過all-reduce完成,機外低帶寬域僅在同號卡間執行低流量的數據并行(DP)和流水線并行(PP)通信。而DeepSeek采用的MoE(Mixture of Experts)模型架構顯著改變了流量特征。訓練和推理階段均不采用TP通信,取而代之的是大規模專家并行(EP)通信,訓練階段EP流量占比超過95%,推理階段則達到100%。EP通信跨越多個高低帶寬域,且采用all-to-all通信模式,通信結構復雜且流量巨大,對網絡性能提出了更高、更差異化的要求。

DeepSeek模型參數規模達到6710億,在推理部署中引入了PD分離和大規模EP并行,推動滿血版高性能推理走向分布式。相比傳統單機推理,分布式推理帶來了顯著差異,使得推理流量模式與分布式訓練更為接近,但兩者在流量特征上依然存在明顯區別。

通信流量可由以下公式估算:(minibatch大小 × 上下文長度 × 隱藏層維度)× 節點數 × (dispatch_alltoall通信次數 × FP8字節數 + combine_alltoall通信次數 × BF16字節數)× GPU負責的層數。下表統計主要EP流量作為參考。

總通信量 單次通信量
訓練 315GB

dispatch:112MB

combine:224MB

推理Prefill 57.09GB

dispatch:168MB

combine:336MB

推理Decode 1218MB

dispatch:3.5MB

combine:7MB

訓練場景流量模式固定且明確,單次迭代總流量高達315GB,單次EP通信流量約112MB。

推理場景流量受用戶輸入影響,波動較大。Prefill階段以4K上下文、batch size為4計算流量大小,單次迭代總流量約57.09GB,單次通信流量與訓練相近;Decode階段以128并發計算,單次迭代流量顯著降低至約1.2GB,單次通信流量僅為幾MB,Prefill與Decode階段流量差異明顯。

基于以上全新且復雜的網絡需求,深入識別和分析DeepSeek推理網絡的關鍵技術,是保障推理高性能、低成本與高可靠性的關鍵。下文我們將從低網絡時延、高效網絡運維和低成本組網角度,展開介紹DeepSeek推理網絡關鍵技術。

二、低時延網絡助力推理高吞吐

根據上述流量分析,Decode階段的單次通信流量僅為3.5MB/7MB。結合DeepSeek官方開源通信庫DeepEP的性能,當前場景下Decode階段的dispatch通信時長在100us內,combine通信時長在200us內。Decode階段的SLO通常要求低于50ms,但EP通信次數高達116次,每次通信都會導致時延疊加,因此對網絡時延提出了很高的要求。綜上,在Decode階段,很少的單次通信流量、很短的通信時長、很高的SLO要求都對網絡提出了較低的時延需求。

H800網絡時延對Decode吞吐的影響

H20網絡時延對Decode吞吐的影響

上圖是對4K/1K上下文,1K輸出的Decode場景,在H800/H20設備下,以128 batch作為場景,進行的網絡時延對Decode吞吐影響仿真。如圖所示,當網絡側產生1ms的時延增加時,無論是H800還是H20,在不同的上下文場景下,吞吐都會產生巨大影響,吞吐下降幅度高達80%左右,幾乎已經直接導致當前Decode節點不可用。當網絡上產生100us的時延時,4K上下文場景下,吞吐下降可能達到20%+。由此可見,Decode節點對網絡時延的敏感度很高。在DeepSeek大規模EP并行all-to-all通信模式下,網絡時延的主要影響因素是負載均衡和擁塞控制:

如上圖所示,在大規模EP的DeepSeek推理場景,EP域的通信可能橫跨多個Leaf,流量走向Spine,容易產生典型的ECMP哈希不均問題,導致較高動態時延。且DeepSeek的MoE模型推理易產生實例間負載不一致和實例內專家負載不一致問題,在網絡上表現為流量中大小流混合。該現象更容易加劇ECMP不均導致的動態時延問題,不佳的負載均衡策略,在網絡上容易引入100us+甚至更高的動態時延。如上文分析,這樣的動態時延水平對吞吐的影響可能達到20%+。在DeepSeek官方場景中,采用IB交換機和CX網卡的Adaptive Routing(AR)技術,有效緩解了ECMP負載不均問題。在RoCE環境下,端網協同的負載均衡方案在如此苛刻的低時延要求下,是至關重要的。

此外,MoE模型的大規模專家并行通信本質上是一種all-to-all模式,網絡中天然存在incast流量。合理的擁塞控制策略能夠避免因流量降速或PFC(Priority Flow Control)觸發而帶來的高動態時延,保障網絡時延的穩定性和推理性能。

三、高效端網運維保障高可用推理業務

慢故障、hang異常

鏈路故障

隨著DeepSeek推理引入大規模專家并行(EP),分布式推理集群面臨與訓練集群類似的故障挑戰。根據Meta公開的研究數據,以1024卡集群為例,平均每7.9小時會發生一次故障。結合故障對推理的影響,可將故障類型歸納為三類:

慢節點異常:故障發生后推理任務不中斷,但部分節點或階段性能下降,導致整體推理被拖慢,表現為慢節點效應。

Hang異常:故障導致推理長時間卡頓于某一階段,任務無法繼續推進,但整體推理仍未中斷。

鏈路故障:鏈路中斷直接導致整個推理實例退出。

在慢節點異常和短時間Hang異常場景下,雖然推理任務仍在運行,但推理性能顯著受損,TTFT(Time To First Token)和TPOT(Time Per Output Token)指標明顯惡化,吞吐量可能下降50%以上。因此,針對慢故障和Hang異常的實時監控、快速定位與排查,對于保障推理性能具有重要價值。

而在長時間Hang異常或鏈路故障導致推理實例直接退出的情況下,業務影響更為嚴重。對于大規模實例部署環境,可通過請求快速切換至其他健康實例,雖可能犧牲部分用戶體驗,但能保障業務連續性。相較之下,少量實例部署(如單個Decode實例)發生故障時,往往直接導致業務中斷,嚴重影響穩定性和用戶體驗。因此小規模場景下,故障的定位、逃生和規避,是保障業務可用性的關鍵手段。

四、高性價比推理組網壓榨百萬token成本

1.雙口網卡雙平面組網:

單軌雙平面組網

基于上述對網絡低時延和高可靠性的需求,采用如圖所示的單軌雙平面組網方案,能夠最大程度保障性能與可靠性。相比傳統CLOS架構,該方案在性價比方面更具優勢。具體特點如下:

優勢:

網絡結構簡潔:流量集中于Leaf交換機,降低跨交換機通信復雜度,顯著減少時延。

成本效益高:支持銅纜互聯,減少交換機數量,整體網絡投入更低。

時延低:數據面鏈路最長僅為2跳,最大跳數為1跳,確保低時延傳輸。

流控需求低:無負載均衡問題,流量走單一路徑,簡化流控設計。

易于擴展:新增節點無需增加二層網絡,支持集群橫向擴展。

Bond適配性強:采用bond雙平面組網提升網絡可靠性,且由于無二層組網,bond方案不會帶來額外交換機成本。

劣勢:

靈活性受限:Prefill或Decode實例不可跨Leaf部署,單實例最大規模受限于256卡。

兼容性不足:組網針對推理流量特性優化,難以兼容訓練與推理一體化場景。

KV Cache傳輸依賴存儲網:在采用PD分離部署時,如果存在跨Leaf的PD實例,則必須配備存儲網絡以支持KV Cache傳輸。

2.Shuffle多平面組網:

基于雙網口網卡的雙平面組網方案,單Pod最大規模受限于256卡,導致靈活性不足。為突破這一瓶頸,在Server與交換機之間引入Shuffle(光交叉盒),實現物理層面的分光。依托400Gbps網卡和TH5芯片交換機,組網方案升級為四平面,單Pod最大規模擴展至512卡,滿足絕大多數推理部署需求。此方案支持更大規模的EP并行和PD實例數量增加,且PD實例無需跨Pod調度,大幅提升Pod內組網靈活性,顯著降低對KV Cache存儲網絡的依賴。

未來,隨著800Gbps網卡和TH6芯片交換機的應用,Shuffle多軌方案可拓展至8軌。在保證單GPU享有800Gbps帶寬的前提下,單Pod最大規模可擴展至1024卡,滿足超大規模推理服務需求。該方案在無二層組網架構下,依然提供很高的PD分離部署靈活性,PD實例無需跨Pod調度,也無需KV Cache傳輸專用網絡,實現了卓越的性價比與性能。

總結

DeepSeek MoE模型的分布式推理部署帶來了推理網絡架構和性能保障的全新挑戰。推理階段的通信模式和流量特征與傳統訓練存在顯著差異,尤其是Decode階段對網絡時延敏感,要求網絡具備低時延和高吞吐能力。端網協同的負載均衡算法和擁塞控制技術是保障網絡性能的關鍵。與此同時,推理業務高可用性要求完善的故障監控、快速定位和故障逃生策略。針對這些需求,設計簡潔高效且具備高可靠性的單軌雙平面組網方案,能夠在保證性能的同時降低成本。未來,隨著DeepSeek及類似大規模MoE模型的廣泛部署,推理網絡的優化和創新將成為核心競爭力。

相關標簽:

點贊

更多技術博文

任何需要,請聯系我們

返回頂部

收起
文檔AI助手
文檔評價
該資料是否解決了您的問題?
您對當前頁面的滿意度如何?
不咋滴
非常好
您滿意的原因是(多選)?
您不滿意的原因是(多選)?
您是否還有其他問題或建議?
為了快速解決并回復您的問題,您可以留下聯系方式
郵箱
手機號
感謝您的反饋!
請選擇服務項目
關閉咨詢頁
售前咨詢 售前咨詢
售前咨詢
售后服務 售后服務
售后服務
意見反饋 意見反饋
意見反饋
更多聯系方式
主站蜘蛛池模板: 香蕉网视频| 国产真实的和子乱拍在线观看| 鲁丝一区二区三区| 日日夜夜影院| 国精产品一区一区三区有限公司杨| 三级4级全黄60分钟| 国产一级色片| 性free公交车videos| 无码人妻av一区二区三区波多野| 蜜桃视频网站18| 国精产品源xzl仙踪林仙踪| 日本二区三区视频| 综合色久| 夫妻啪啪呻吟x一88av| 一级黄色性生活大片| 欧美69精品久久久久久不卡| 久久精品中文字幕少妇| 精品久久在线| 红桃视频在线播放| 公交车奶水| 国产91免费在线观看| 国产小视频免费在线观看| 亚洲一级在线观看| 国产精品人人妻人人爽人人牛| 五月综合色婷婷| 福利短视频| 丰满人妻一区二区三区53号| 中文字幕日韩无| 久久深夜| 日本二区在线观看| 久久国产成人| 中文字幕视频三区| 黄色免费国产| 四虎永久在线观看| 国产一级片免费| 美女视频a| 99午夜视频| 欧美色xxx| www.激情| 91精品视频国产| 欧美xxx在线观看| 亚洲妇熟xx妇色黄蜜桃| 免费一级一片| 911成人网| 精品理论片| 在线免费播放av| 蜜臀国产AV天堂久久无码蜜臀| 1769资源站| 国产高清二区| 国产精品一品二区三区的使用体验| 人妻在线一区二区三区| 色香影视| 猛男狂臊男子屁股| 和岳每晚弄的高潮嗷嗷叫视频| 日日拍拍| 日本视频中文字幕| 插曲视频在线观看免费第12集| 欧美曰逼视频| 啪啪网站大全| 色人人| 一级在线免费视频| 国产日韩在线免费观看 | ⅹxxx娇小10另类| 国语精品自拍| 亚瑟av在线| 91精品国产一区二区三竹菊影视| 中文字幕日本一区二区| 女同调教视频| 久草观看| 日韩精品二区在线观看| av性在线| 国产情侣自拍av| 成人福利网站导航| 91超碰caoporn97人人| 日韩毛毛片| 日日射夜夜爽| 日韩一区二区欧美| 欧美性猛交xxxx黑人交| 91蜜桃婷婷狠狠久久综合9色| 黄页网站大全在线观看| 在线免费精品视频| 日韩高清在线观看| 国产精品久久久久久久免费大片| 亚洲成熟女性毛茸茸| 日本黄色小说| 95视频在线| 高h视频网站| av大全网站| 日韩av中字| 亚洲欧美一区二区三区四区| 久久亚洲成人av| 91重口味| 乳色吐息1~2无删减星辰| www色天使| 伊人久久在线观看| 17c一起操| melody在线高清免费观看| 精品免费国产| 中文字幕久久久久久久|