亚洲精品88-玩弄人妻少妇500系列-xx69国产-久久久久午夜-9l蝌蚪porny中文自拍-97视频免费看-懂色av蜜臂av粉嫩av-av无码一区二区大桥久未-免费a一级-caoporn国产精品免费公开-亚洲精品成人福利网站app-蜜桃av噜噜一区二区三区策驰-亚洲а∨无码2019在线观看-亚洲欧美国产va在线播放-亚洲精选91

告別運維內耗 全域協同提效 丨 銳捷網絡運維保障經驗分享會
預約直播
無感準入 人物統管 丨 RG-SAM+5.X 新一代高校AI認證平臺發布
預約直播
產品
< 返回主菜單
產品中心
產品
解決方案
< 返回主菜單
解決方案中心
行業
返回主菜單
選擇區域/語言

到底什么樣的網絡,才能帶得動AIGC?

發布時間:2023-08-02

2023年,是AI人工智能技術全面爆紅的一年。

以ChatGPT、GPT-4、文心一言為代表的AIGC大模型,集文本撰寫、代碼開發、詩詞創作等功能于一體,展現出了超強的內容生產能力,帶給人們極大震撼。

AIGC,AI-Generated Content(人工智能生產內容)

作為一個通信老司機,除了AIGC大模型本身之外,小棗君更加關注的,是模型背后的通信技術。到底是一張怎樣的強大網絡,在支持著AIGC的運轉?此外,AI浪潮的全面來襲,將對傳統網絡帶來怎樣的變革?

AIGC,到底需要多大的算力?

眾所周知,數據、算法和算力,是人工智能發展的三大基本要素。

前面提到的幾個AIGC大模型,之所以那么厲害,不僅是因為它們背后有海量的數據投喂,也因為算法在不斷進化升級。更重要的是,人類的算力規模,已經發展到了一定程度。強大的算力基礎設施,完全能夠支撐AIGC的計算需求。

AIGC發展到現在,訓練模型參數從千億級飆升到了萬億級。為了完成這么大規模的訓練,底層支撐的GPU數量,也達到了萬卡級別規模。

以ChatGPT為例,他們使用了微軟的超算基礎設施進行訓練,據說動用了10000塊V100 GPU,組成了一個高帶寬集群。一次訓練,需要消耗算力約3640 PF-days(即每秒1千萬億次計算,運行3640天)。

一塊V100的FP32算力,是0.014 PFLOPS(算力單位,等于每秒1千萬億次的浮點運算)。一萬塊V100,那就是140 PFLOPS。

也就是說,如果GPU的利用率是100%,那么,完成一次訓練,就要3640÷140=26(天)。

GPU的利用率是不可能達到100%,如果按33%算(OpenAI提供的假設利用率),那就是26再翻三倍,等于78天。

可以看出,GPU的算力、GPU的利用率,對大模型的訓練有很大影響。

那么問題來了,影響GPU利用率的最大因素,是什么呢?

答案是:網絡。

一萬甚至幾萬塊的GPU,作為計算集群,與存儲集群進行數據交互,需要極大的帶寬。此外,GPU集群進行訓練計算時,都不是獨立的,而是混合并行。GPU之間,有大量的數據交換,也需要極大的帶寬。

如果網絡不給力,數據傳輸慢,GPU就要等待數據,導致利用率下降。利用率下降,訓練時間就會增加,成本也會增加,用戶體驗會變差。

業界曾經做過一個模型,計算出網絡帶寬吞吐能力、通信時延與GPU利用率之間的關系,如下圖所示:

大家可以看到,網絡吞吐能力越強,GPU利用率越高;通信動態時延越大,GPU利用率越低。

一句話,沒有好網絡,別玩大模型。

怎樣的網絡,才能支撐AIGC的運行?

為了應對AI集群計算對網絡的調整,業界也是想了不少辦法的。

傳統的應對策略,主要是三種:Infiniband、RDMA、框式交換機。我們分別來簡單了解一下。

Infiniband組網

Infiniband(直譯為“無限帶寬”技術,縮寫為IB)組網,搞數據通信的童鞋應該不會陌生。

這是目前組建高性能網絡的最佳途徑,帶寬極高,可以實現無擁塞和低時延。ChatGPT、GPT-4所使用的,據說就是Infiniband組網。

如果說Infiniband組網有什么缺點的話,那就是一個字——貴。相比傳統以太網的組網,Infiniband組網的成本會貴好幾倍。這項技術比較封閉,業內目前成熟的供應商只有1家,用戶沒什么選擇權。

RDMA網絡

RDMA的全稱是Remote Direct Memory Access(遠程直接數據存取)。它是一種新型的通信機制。在RDMA方案里,應用程序的數據,不再經過CPU和復雜的操作系統,而是直接和網卡通信,不僅大幅提升了吞吐能力,也降低了時延。

RDMA最早提出時,是承載在InfiniBand網絡中的。現在,RDMA逐漸移植到了以太網上。

目前,高性能網絡的主流組網方案,是基于RoCE v2(RDMA over Converged Ethernet,基于融合以太網的RDMA)協議來組建支持RDMA的網絡。

這種方案有兩個重要的搭配技術,分別是PFC(Priority Flow Control,基于優先級的流量控制)和ECN(Explicit Congestion Notification,顯式擁塞通知)。它們是為了避免鏈路中的擁塞而產生的技術,但是,頻繁被觸發,反而會導致發送端暫停發送,或降速發送,進而拉低通信帶寬。(下文還會提到它們)

框式交換機

國外有部分互聯網公司,寄希望于利用采用框式交換機(DNX芯片+VOQ技術),來滿足構建高性能網絡的需求。

DNX:broadcom(博通)的一個芯片系列

VOQ:Virtual Output Queue,虛擬輸出隊列

這種方案看似可行,但也面臨以下幾個挑戰。

首先,框式交換機的擴展能力一般。機框大小限制了最大端口數,如想做更大規模的集群,需要橫向擴展多個機框。

其次,框式交換機的設備功耗大。機框內線卡芯片、Fabric芯片、風扇等數量眾多,單設備的功耗超過2萬瓦,有的甚至3萬多瓦,對機柜供電能力要求太高。

第三,框式交換機的單設備端口數量多,故障域大。

基于以上原因,框式交換機設備只適合小規模部署AI計算集群。

到底什么是DDC

前面說的都是傳統方案。既然這些傳統方案不行,那當然就要想新辦法。

于是,一種名叫DDC的全新解決方案,閃亮登場了。

DDC,全名叫做Distributed Disaggregated Chassis(分布式分散式機箱)。

它是前面框式交換機的“分拆版”。框式交換機的擴展能力不足,那么,我們干脆把它給拆開,將一個設備變成多個設備,不就OK了?

框式設備,一般分為交換網板(背板)和業務線卡(板卡)兩部分,相互之間用連接器連接。

DDC方案,將交換網板變成了NCF設備,將業務線卡變成了NCP設備。連接器,則變成了光纖。框式設備的管理功能,在DDC架構中,也變成了NCC。

NCF:Network Cloud Fabric(網絡云管理控制平面)

NCP:Network Cloud Packet Processing(網絡云數據包處理)

NCC:Network Cloud Controller(網絡云控制器)

DDC從集中式變成分布式之后,擴展能力大大增強了。它可以根據AI集群的大小,靈活設計組網規模。

我們來舉兩個例子(單POD組網和多POD組網)。

單POD組網中,采用96臺NCP作為接入,其中NCP下行共18個400G接口,負責連接AI計算集群的網卡。上行共40個200G接口,最大可以連接40臺NCF,NCF提供96個200G接口,該規模上下行帶寬為超速比1.1:1。整個POD可支撐1728個400G網絡接口,按照一臺服務器配8塊GPU來計算,可支撐216臺AI計算服務器。

單POD組網

多級POD組網,規模可以變得更大。

在多級POD組網中,NCF設備要犧牲一半的SerDes,用于連接第二級的NCF。所以,此時單POD采用48臺NCP作為接入,下行共18個400G接口。

多POD組網

單個POD內,可以支撐864個400G接口(48×18)。通過橫向增加POD(8個),實現規模擴容,整體最大可支撐6912個400G網絡端口(864×8)。

NCP上行40個200G,接POD內40臺NCF。POD內NCF采用48個200G接口,48個200G接口分為12個一組上行到第二級的NCF。第二級NCF采用40個平面(Plane),每個平面4臺NCF-P,分別對應在POD內的40臺NCF。

整個網絡的POD內實現了1.1:1的超速比(北向帶寬大于南向帶寬),而在POD和二級NCF之間實現了1:1的收斂比(南向帶寬/北向帶寬)。

DDC的技術特點

站在規模和帶寬吞吐的角度,DDC已經可以滿足AI大模型訓練對于網絡的需求。

然而,網絡的運作過程是復雜的,DDC還需要在時延對抗、負載均衡性、管理效率等方面有所提升。

基于VOQ+Cell的轉發機制,對抗丟包

網絡在工作的過程中,可能會出現突發流量,造成接收端來不及處理,引起擁塞和丟包。

為了應對這種情況,DDC采取了基于VOQ+Cell的轉發機制。

發送端從網絡接收到數據包之后,會分類到VOQ(虛擬輸出隊列)中存儲。

在發送數據包前,NCP會先發送Credit報文,確定接收端是否有足夠的緩存空間處理這些報文。

如果接收端OK,則將數據包分片成Cells(數據包的小切片),并且動態負載均衡到中間的Fabric節點(NCF)。

如果接收端暫時沒能力處理報文,報文會在發送端的VOQ中暫存,并不會直接轉發到接收端。

在接收端,這些Cells會進行重組和存儲,進而轉發到網絡中。

切片后的Cells,將采用輪詢的機制發送。它能夠充分利用到每一條上行鏈路,確保所有上行鏈路的傳輸數據量近似相等。

輪詢機制

這樣的機制,充分利用了緩存,可以大幅度減少丟包,甚至不會產生丟包情況。數據重傳減少了,整體通信時延更穩定更低,從而可以提高帶寬利用率,進而提升業務吞吐效率。

PFC單跳部署,避免死鎖

前面我們提到,RDMA無損網絡中引入了PFC(基于優先級的流量控制)技術,進行流量控制。

簡單來說,PFC就是在一條以太網鏈路上創建 8 個虛擬通道,并為每條虛擬通道指定相應優先級,允許單獨暫停和重啟其中任意一條虛擬通道,同時允許其它虛擬通道的流量無中斷通過。

PFC可以實現基于隊列的流量控制,但是,它也存在一個問題,那就是死鎖。

所謂死鎖,就是多個交換機之間,因為環路等原因,同時出現了擁塞(各自端口緩存消耗超過了閾值),又都在等待對方釋放資源,從而導致的“僵持狀態”(所有交換機的數據流永久堵塞)。

DDC的組網下,就不存在PFC的死鎖問題。因為,站在整個網絡的角度,所有NCP和NCF可以看成一臺設備。對于AI服務器來說,整個DDC,就是一個交換機,不存在多級交換機。所以,就不存在死鎖。

另外,根據DDC的數據轉發機制,可在接口處部署ECN(顯式擁塞通知)。

ECN機制下,網絡設備一旦檢測到RoCE v2流量出現了擁塞(內部的Credit和緩存機制無法支撐突發流量),就會向服務器端發送CNP(Congestion Notification Packets,擁塞通知報文),要求降速。

分布式OS,提升可靠性

最后再看看管理控制平面。

前面我們提到,在DDC架構中,框式設備的管理功能變成了NCC(網絡云控制器)。NCC非常重要,如果采用單點式的方式,萬一出現問題,就會導致整網故障。

為了避免出現這樣的問題,DDC可以取消NCC的集中控制面,構建分布式OS(操作系統)。

基于分布式OS,可以基于SDN運維控制器,通過標準接口(Netconf、GRPC等)配置管理設備。這樣的話,每臺NCP和NCF獨立管理,有獨立的控制面和管理面,大大提升了系統的可靠性,也更加便于部署。

DDC的商用進展

綜上所述,相對傳統組網,DDC在組網規模、擴展能力、可靠性、成本、部署速度方面,擁有顯著優勢。它是網絡技術升級的產物,提供了一種顛覆原有網絡架構的思路,可以實現網絡硬件的解耦、網絡架構的統一、轉發容量的擴展。

業界曾經使用OpenMPI測試套件進行過框式設備和傳統組網設備的對比模擬測試。測試結論是:在All-to-All場景下,相較于傳統組網,框式設備的帶寬利用率提升了約20%(對應GPU利用率提升8%左右)。

正是因為DDC的顯著能力優勢,現在這項技術已經成為行業的重點發展方向。例如銳捷網絡,他們就率先推出了兩款可交付的DDC產品,分別是400G NCP交換機——RG-S6930-18QC40F1,以及200G NCF交換機——RG-X56-96F1。

RG-S6930-18QC40F1交換機的高度為2U,提供18個400G的面板口,40個200G的Fabric內聯口,4個風扇和2個電源。

RG-X56-96F1交換機的高度為4U,提供96個200G的Fabric內聯口,8個風扇和4個電源。

據悉,銳捷網絡會繼續研發,持續推出更多適合智算中心網絡場景的產品。

最后的話

AIGC的崛起,已經掀起了互聯網行業的新一輪技術革命。

我們可以看到,越來越多的企業,正在加入這個賽道,參與角逐。這意味著,網絡基礎設施的升級,迫在眉睫。

DDC的出現,將大幅提升網絡基礎設施的能力,不僅可以有效應對AI革命對網絡基礎設施提出的挑戰,更將助力整個社會的數字化轉型,加速人類數智時代的全面到來。

關注銳捷
關注銳捷官網微信
隨時了解公司最新動態

返回頂部

收起
文檔AI助手
文檔評價
該資料是否解決了您的問題?
您對當前頁面的滿意度如何?
不咋滴
非常好
您滿意的原因是(多選)?
您不滿意的原因是(多選)?
您是否還有其他問題或建議?
為了快速解決并回復您的問題,您可以留下聯系方式
郵箱
手機號
感謝您的反饋!
請選擇服務項目
關閉咨詢頁
售前咨詢 售前咨詢
售前咨詢
售后服務 售后服務
售后服務
意見反饋 意見反饋
意見反饋
更多聯系方式
主站蜘蛛池模板: 国产自产| 男女啪啪视屏| 亚洲女则毛耸耸bbw| 欧美做受69| 台湾色综合| 国产精品69av| 精品国产aⅴ| 樱井莉亚av| 男人天堂中文字幕| 日日夜夜拍| 中文字幕在线一区| 亚洲成人v| 一个人看的www片免费高清中文| 猫咪av网| 美国av片| 250pp久久新| 国内自拍视频网| 夫妻精品| av一二三| 久久精品人妻一区二区| 日韩福利在线视频| xxxx视频在线观看| 天天狠狠| 免费午夜网站| 精品一区二区三区久久久| 欧美一级片免费在线观看| 美女扒开尿口让男人桶| 日韩理论在线播放| 欧美成欧美va| 久久久久国| 爱如潮水5免费观看全集完整版电视剧 | 在线免费黄色网址| 老司机精品视频网站| 国产精品水嫩水嫩| 男裸体无遮挡网站| 国产一区免费视频| 黄文免费看| 日韩午夜网站| 无码精品人妻一区二区三区影院| 欧美在线视频免费播放| 亚洲精品少妇| 男人边做边吃奶头视频| 国产玖玖视频| av在线日韩| 欧美黑人疯狂性受xxxxx喷水| 欧美性俱乐部| 公妇借种乱htp109cc| 午夜理伦| 日本二区久久| 久久中文在线| av三级在线观看| 爱爱视频久久| 办公室丝袜做爰av| 色婷婷视频在线| 夜夜爽夜夜叫夜夜高潮漏水| 久久无码专区国产精品s| 性生活av| 激情视频网址| 国产97在线 | 亚洲| 亚洲粉嫩| 亚洲一区二区久久| 被全班人享用的小柔灌满| 亚洲一区二区三区日韩| 性色av蜜臀av浪潮av老女人| 国产成人无码a区在线观看视频| 女邻居教我做受| 高潮网址| 国产成人一区二区视频| 911国产在线| 最新黄色av| 91av视频导航| 热逼软件| 国产福利二区| 黄色在线看网站| 欧美在线色视频| 草莓视频色版在线观看| www裸玉足久久久| 97人妻精品一区二区| 99久久综合国产精品二区| 理伦在线观看| 亚洲乱码日产精品bd在线观看| 国产青青视频| 水岛津实av| 日本人的性生活视频| 日本人亚洲人jjzzjjz| 欧洲精品一区二区| 在线观看jizz| 日本精品99| 俄罗斯av| 超碰伦理| 在线观看国产精品视频| 欧美在线观看a| 国产性爱精品视频| 农夫色综合| 女人18毛片水真多18精品| 亚洲女同一区二区| 超碰九七| 三级网站国产| 色婷婷91|