技術盛宴 | 多維度對比分析AIGC網絡網卡雙上聯技術架構
當前交換機支持的幾種網卡雙上聯架構解決方案:網卡雙IP方案、去堆疊方案、去堆疊+雙平面方案、M-LAG技術、E-AP技術以及VXLAN Multihoming技術,選擇最合適的網卡雙上聯方案需要綜合考慮網絡架構的當前和未來需求,以及對性能、可靠性和成本的影響。
AIGC(Artificial Intelligence Generated Content,生成式人工智能)技術利用訓練有素的生成式模型來生成自然語言文本、圖像、音頻等多樣化內容。在其網絡架構中,網卡(Network Interface Card,NIC)扮演著至關重要的角色,作為連接計算機和網絡的關鍵設備。其主要職責包括將計算機產生的數據有效地發送到網絡中,并負責接收來自網絡的數據。網卡設備對于確保 AIGC 網絡的高性能和可靠性具有重要意義,為數據傳輸和網絡連接提供了可靠的基礎支持。
網卡雙上聯的產生原因
網卡雙上聯是一種架構,它將服務器或網絡設備的兩個物理網卡同時連接到不同的網絡上級設備或交換機上。

在傳統的網卡單上聯架構下,無論是光纖還是交換機出現異常,都會導致AIGC訓練任務中斷,因訓練中斷將造成訓練成本增加和客戶品牌的負面影響。此外,交換機升級期間,AIGC訓練業務也需要提前遷移。這對用戶體驗、系統穩定性以及網絡運維都帶來了很多問題。
相比之下,網卡雙上聯架構中,服務器上的所有網卡的兩個端口分別連接到不同的交換機,并通過綁定這兩個端口形成一個bond端口來提供服務。這樣,當一個上聯鏈路或對應的接入層交換機出現故障時,流量可以切換到另一個端口,確保訓練任務不會中斷。

雙上聯架構設計避免了網卡單上聯接入交換機帶來的單點故障風險,極大提高了整體系統互聯的魯棒性。此外,這也為集群系統的交換機熱升級創造了條件,使得整體網絡運維和功能迭代變得更加方便。

網卡雙上聯架構網絡解決方案
以下是當前交換機支持的幾種網卡雙上聯架構解決方案:
網卡雙IP
網卡的每個端口分別配置2個不同的IP地址,通過網卡配置將流量分散不同的路徑。網卡對外虛擬為2個不同的網卡,天然復用交換機當前成熟的IP轉發特性。當其中1個端口或IP地址失效時,另一個端口/IP地址也可以繼續工作。
網卡雙IP是一種靈活且高效的網絡配置方案,適用于多種應用場景。但部分集合通信庫對于雙IP的支持度較差,且出現多QP性能下降的情況;此外該方案需要為網卡多分配1倍的IP地址,IP地址資源存在浪費。

去堆疊
去堆疊方案為我司提出的創新性解決方案。去堆疊方案是指網卡和交換機之間通過bond綁定為聚合口,網卡側對于ARP/ND實現broadcast,即2個端口同時發送ARP/ND報文,使得2臺接入的交換機可以同時學習到網卡的ARP/ND,2臺接入交換機將ARP/ND轉換為BGP路由,向其他設備通告BGP路由。
去堆疊可以保持業務接入方式不變,同時2臺交換機之間無需物理關聯,并且能很好適配網卡雙上聯接入。

去堆疊+雙平面
去堆疊+雙平面是在去堆疊方案的基礎上,將交換機劃分為不同的轉發平面,每個網卡雙上聯的不同端口映射至不同的網絡平面。即2個網卡端口分別接入到不同的交換機,這2臺交換機分別接入到不同的平面。
采用去堆疊+雙平面的方案,網卡發送端在bond端口發送流量時只要保證流量均分至發送側的兩個端口,那么在接收側的接入層交換機也一定會收到均勻的網絡流量,大幅度降低了哈希極化的發生概率。
同時,基于雙上聯和雙平面接入的設計,使2層CLOS網絡的單集群最大拓展規模翻倍,獲得整集群通信拓撲簡化、降低時延、降低成本等收益。

M-LAG
M-LAG(Multichassis Link Aggregation Group,跨設備鏈路聚合)是一種跨設備鏈路聚合技術,通過2臺設備連接組成雙活系統,控制平面互相獨立,交換機之間通過peer-link鏈路進行通信和同步。M-LAG組的2臺設備對外等效為1臺設備,該等效設備和下聯設備之間通過聚合口互聯。
M-LAG架構具有高可靠性,如果一個交換機或鏈路發生故障,流量可以自動切換到其他正常工作的鏈路或交換機,從而確保網絡的高可靠性和冗余;此外還能使網絡拓撲更加簡潔,多個物理鏈路在邏輯上看作一個鏈路,簡化了網絡配置和管理。但是M-LAG是私有實現,同組M-LAG只能是相同廠商的設備,跨組M-LAG設備不存在此限制。

E-AP
E-AP ( Enhanced Aggregation Port )是一種跨設備鏈路聚合技術,它是由多臺支持鏈路聚合的獨立設備組成的系統。該系統可以等效成一臺設備,與下聯設備進行鏈路聚合,從而將鏈路可靠性提高到設備級,以滿足高可用性場景的要求。當某條鏈路故障或者設備故障時, E-AP將自動切換數據業務至E-AP組中其他可用的鏈路或設備上,從而實現設備級的可靠性。
E-AP通過私有協議通信,無需額外增加設備之間的互聯鏈路,就能支持網卡雙上聯架構。E-AP架構同樣具有高可靠性,能支持物理鏈路的冗余備份,降低單點故障的風險。

VXLAN Multihoming
VXLAN Multihoming是指在VXLAN網絡中,一個VXLAN實例(通常是一個租戶或一個虛擬網絡)通過多個物理網絡接口或多個不同的網絡路徑連接到VXLAN網絡,視為相同EVI接入,VXLAN實例表項通過BGP EVPN進行同步。利用VXLAN Multihoming架構技術,在網絡中部署VXLAN虛擬網絡,從而實現網卡雙上聯到不同交換機。
VXLAN Multihoming是RFC標準實現,為網絡提供冗余連接,支持網卡雙上聯。VXLAN Multihoming允許網絡流量在多個鏈路之間進行分配,從而提高網絡的吞吐量和效率;此外,VXLAN Multihoming具有較高的靈活性和擴展性。

方案比較
我們對不同方案進行了評估,綜合考慮了資源占用情況、支持網卡規模、流量均衡、部署難度和運維難度等多個維度,每個方案都有其獨特的優勢和局限性,選擇時應根據具體需求和現有資源進行權衡。

選擇最合適的網卡雙上聯方案需要綜合考慮網絡架構的當前和未來需求,以及對性能、可靠性和成本的影響。通過仔細評估每個方案的優劣,可以為AIGC網絡設計一個既高效又可靠的網絡環境
銳捷網絡,作為GenAI時代的全棧服務專家,致力于為企業提供覆蓋IaaS到PaaS的全棧產品及解決方案。我們的產品覆蓋高性能網絡與GPU算力優化調度,旨在通過創新技術解決方案,幫助客戶實現生產效率的飛躍與運營成本的優化。我們堅信,通過我們的努力,能夠為客戶打造一個更加智能、高效和可靠的未來。讓我們攜手,共同探索GenAI時代的每一個機遇。
相關標簽:
點贊
更多技術博文
-
解密DeepSeek-V3推理網絡:MoE架構如何重構低時延、高吞吐需求?DeepSeek-V3發布推動分布式推理網絡架構升級,MoE模型引入大規模專家并行通信,推理流量特征顯著變化,Decode階段對網絡時度敏感。網絡需保障低時延與高吞吐,通過端網協同負載均衡與擁塞控制技術優化性能。高效運維實現故障快速定位與業務高可用,單軌雙平面與Shuffle多平面組網方案在低成本下滿足高性能推理需求,為大規模MoE模型部署提供核心網絡支撐。
-
#交換機
-
-
高密場景無線網絡新解法:銳捷Wi-Fi 7 AP 與 龍伯透鏡天線正式成團銳捷網絡在中國國際大學生創新大賽(2025)總決賽推出旗艦Wi-Fi 7無線AP RG-AP9520-RDX及龍伯透鏡天線組合,針對高密場景實現零卡頓、低時延和高并發網絡體驗。該方案通過多檔賦形天線和智能無線技術,有效解決干擾與覆蓋問題,適用于場館、辦公等高密度環境,提供穩定可靠的無線網絡解決方案。
-
#無線網
-
#Wi-Fi 7
-
#無線
-
#放裝式AP
-
-
打造“一云多用”的算力服務平臺:銳捷高職教一朵云2.0解決方案發布銳捷高職教一朵云2.0解決方案幫助學校構建統一云桌面算力平臺,支持教學、實訓、科研和AI等全場景應用,實現一云多用。通過資源池化和智能調度,提升資源利用效率,降低運維成本,覆蓋公共機房、專業實訓、教師辦公及AI教學等多場景需求,助力教育信息化從分散走向融合,推動規模化與個性化培養結合。
-
#云桌面
-
#高職教
-
-
醫院無線升級必看:“全院零漫游”六大謎題全解析銳捷網絡的全院零漫游方案是新一代醫療無線解決方案,專為智慧醫院設計,通過零漫游主機和天線入室技術實現全院覆蓋和移動零漫游體驗。方案支持業務擴展全適配,優化運維管理,確保內外網物理隔離安全,并便捷部署物聯網應用,幫助醫院提升網絡性能,支持舊設備利舊升級,降低成本。
-
#醫療
-
#醫院網絡
-
#無線
-