亚洲精品88-玩弄人妻少妇500系列-xx69国产-久久久久午夜-9l蝌蚪porny中文自拍-97视频免费看-懂色av蜜臂av粉嫩av-av无码一区二区大桥久未-免费a一级-caoporn国产精品免费公开-亚洲精品成人福利网站app-蜜桃av噜噜一区二区三区策驰-亚洲а∨无码2019在线观看-亚洲欧美国产va在线播放-亚洲精选91

告別運維內(nèi)耗 全域協(xié)同提效 丨 銳捷網(wǎng)絡(luò)運維保障經(jīng)驗分享會
預約直播
無感準入 人物統(tǒng)管 丨 RG-SAM+5.X 新一代高校AI認證平臺發(fā)布
預約直播
產(chǎn)品
< 返回主菜單
產(chǎn)品中心
產(chǎn)品
解決方案
< 返回主菜單
解決方案中心
行業(yè)
返回主菜單
選擇區(qū)域/語言

2025銳捷官網(wǎng)
用戶體驗調(diào)研

馬上參與

大型數(shù)據(jù)中心BGP路由協(xié)議規(guī)劃

【BGP路由協(xié)議】本文借鑒了國內(nèi)外大型互聯(lián)網(wǎng)公司的實踐經(jīng)驗,總結(jié)了一些規(guī)劃和運營BGP網(wǎng)絡(luò)的方法。

  • 發(fā)布時間:2019-08-29

  • 點擊量:

  • 點贊:

分享至

我想評論

本文借鑒了國內(nèi)外大型互聯(lián)網(wǎng)公司的實踐經(jīng)驗,總結(jié)了一些規(guī)劃和運營BGP網(wǎng)絡(luò)的方法

前言

在之前的文章《大型數(shù)據(jù)中心路由協(xié)議選擇》中,介紹到邊界網(wǎng)關(guān)協(xié)議(BGP)已經(jīng)成為大型數(shù)據(jù)中心(IDC)優(yōu)先選擇的路由協(xié)議。眾所周知,BGP最初是為不同自治系統(tǒng)之間的互通設(shè)計的,而并非面向IDC內(nèi)部。在BGP引入到數(shù)據(jù)中心場景時,也曾經(jīng)出現(xiàn)“水土不服”,問題諸多。面對這些問題,聰明的網(wǎng)絡(luò)工程師們對BGP做了哪些優(yōu)化?數(shù)據(jù)中心BGP網(wǎng)絡(luò)規(guī)劃需要考慮哪些問題?本文借鑒了國內(nèi)外大型互聯(lián)網(wǎng)公司的實踐經(jīng)驗,拋磚引玉,粗淺分析一二。

大型數(shù)據(jù)中心組網(wǎng)架構(gòu)

▲ 圖1:大型數(shù)據(jù)中心Spine-Leaf組網(wǎng)架構(gòu)(內(nèi)網(wǎng))

面對數(shù)據(jù)中心業(yè)務對可靠性近乎苛刻的要求,現(xiàn)代數(shù)據(jù)中心網(wǎng)絡(luò)的重要設(shè)計方法是假定網(wǎng)絡(luò)設(shè)備和鏈路都是不可靠的:目標在于當這些不可靠的設(shè)備或者鏈路出現(xiàn)故障時,也能通過自愈消除對業(yè)務產(chǎn)生的不良影響。基于此,Leaf-Spine (Leaf:葉節(jié)點,Spine:脊節(jié)點)的組網(wǎng)架構(gòu)已經(jīng)成為數(shù)據(jù)中心主流。如圖1所示,這種CLOS多級交換網(wǎng)絡(luò)為數(shù)據(jù)中心帶來的顯著變化是產(chǎn)生了大量的等價設(shè)備和路徑,從而消除了單點故障,使得網(wǎng)絡(luò)架構(gòu)具備高可靠、高性能以及強大的橫向擴展(Scale-out)能力。

在這樣的數(shù)據(jù)中心架構(gòu)下,BGP路由協(xié)議往往會被部署到CLOS網(wǎng)絡(luò)的所有層級(如圖1的TOR,Leaf,Spine等設(shè)備),用來為數(shù)據(jù)中心形成簡單、統(tǒng)一的超大規(guī)模網(wǎng)絡(luò)。對于BGP的部署來說,除了滿足IPv4、IPv6路由傳遞的基本能力外, BGP的快速收斂、靈活控制、方便運維等能力也是部署設(shè)計的關(guān)鍵點。

BGP部署設(shè)計要點

本文的目的在于為IDC的BGP路由部署設(shè)計提供一些方法參考,場景聚焦在IDC內(nèi)部Underlay路由設(shè)計。


▲ 圖2:數(shù)據(jù)中心BGP部署設(shè)計要點

如圖2所示,在一個典型的三級CLOS數(shù)據(jù)中心組網(wǎng)中,BGP設(shè)計要點大致可以分為兩部分:

一、BGP基礎(chǔ)能力規(guī)劃,包括:

  • 為Tier 1-3設(shè)備規(guī)劃AS number;
  • 基礎(chǔ)BGP參數(shù)配置,設(shè)備間建立BGP鄰居;
  • 為CLOS網(wǎng)絡(luò)生成ECMP等價路由;
  • 對不同類型的BGP路由進行路由屬性控制;
  • 制定路由傳遞的規(guī)則;
  • 提供IPv4/IPv6雙棧能力;


二、BGP運維能力規(guī)劃,包括:

  • 使用雙向轉(zhuǎn)發(fā)檢測協(xié)議(BFD)加快故障收斂;
  • 提供不間斷的業(yè)務能力。

BGP基礎(chǔ)能力規(guī)劃

1、AS number規(guī)劃

BGP的AS number分為公共AS和私有AS。在IDC內(nèi)部,雖然AS號不會通告給外部網(wǎng)絡(luò),但為了保障安全性,以及延續(xù)使用習慣,仍推薦使用私有AS號。

舊的BGP版本(RFC1771定義)留給AS號的長度范圍是2個字節(jié),其中用于私有的AS號為1023 個(64512~65534),不足以應付大型IDC成千上萬的網(wǎng)元數(shù)量。對于這個問題目前有兩種解決方案:

  • 新的RFC4893《BGP Support for Four-octet AS Number Space》定義了4字節(jié)的BGP AS number。這使得AS number和IPv4地址一樣多,其中可用于私有AS的范圍達到9千萬個(4200000000~4294967294)。足以為IDC內(nèi)部的每臺網(wǎng)絡(luò)設(shè)備,甚至每臺主機分配一個獨立的AS number。
  • 考慮到AS number使用的簡潔,并確保所有設(shè)備都能支持,推薦使用64512~65534的私有AS號,并對AS號碼進行全局規(guī)劃,同一個AS number可以被多個設(shè)備重復使用。

以下是一個推薦的AS number分配示例:

▲ 圖3:IDC AS number分配示例


2、BGP基礎(chǔ)參數(shù)配置

這部分是數(shù)據(jù)中心實現(xiàn)BGP互通的基礎(chǔ),推薦如下配置:

BGP鄰居建立

BGP是基于TCP來建立連接的,因此需要為BGP指定一個IP地址用于建立BGP會話。
在IDC內(nèi)部推薦使用設(shè)備的直連接口地址建立BGP會話。

BGP的Router-id

僅僅是一個標識,設(shè)置為交換機的管理口地址或者loopback地址都是不錯的方法。

BGP計時器

BGP需要使用keepalive消息來實現(xiàn)會話的保活,確定下一跳的可達性。如前文所述,BGP最早是設(shè)計應用于不同自治系統(tǒng)(服務商)之間互聯(lián)的。不同AS之間路由的穩(wěn)定性比快速收斂更為重要,為了防止路由震蕩,BGP協(xié)議默認的計時器非常長,其keepalive/hold timer分別是60S和180S。而在數(shù)據(jù)中心內(nèi)部,故障的快速收斂更為重要,推薦采用1S/3S的BGP計時器配置加快收斂。BGP還有另外一個重要的計時器:Advertisement Interval,即發(fā)布路由通告的間隔。在這個周期內(nèi)的BGP事件會被緩存起來,等待計時器到了后再統(tǒng)一發(fā)送。BGP默認的通告間隔是30S。在數(shù)據(jù)中心需要立刻通告變化,因此推薦的配置是0 S。

以銳捷RGOS軟件為例,需要在BGP進程下,對計時器進行配置:

其他推薦的配置

bgp log-neighbor-changes :不打開 debug 的情況下記錄BGP 的狀態(tài)變化信息。


3、BGP ECMP

對于CLOS網(wǎng)絡(luò)而言,等價多路徑是構(gòu)筑網(wǎng)絡(luò)可靠性、穩(wěn)定性的基石。

BGP形成等價路由的前提是開啟“多徑”multipath的特性,以銳捷RGOS為例,需要配置:

以上只是開啟了BGP的多路徑能力,接下來需要利用BGP選路的原則,把把多條鏈路的的下一跳都放入路由表中形成ECMP。13條BGP選路原則中,兩條路由等價并執(zhí)行負載均衡的判斷標準是:前8個條件都相同。在數(shù)據(jù)中心BGP規(guī)劃中,這前8個條件只需要考慮AS_PATH即可,因為其他條件在IDC都是一致或者無需關(guān)心的。

對于AS-PATH屬性,在缺省情況下是要求精確比較的,只有AS-PATH的長度和具體AS Number相同時才可能成為等價路徑。依據(jù)前面的AS Number規(guī)劃,每臺TOR都具備不同的AS號。這樣Leaf南向去往同組兩臺TOR設(shè)備的路由無法實現(xiàn)負載分擔。上述問題的解決方案是在Leaf設(shè)備上使能AS-PATH 寬松比較,以銳捷RGOS為例,需要配置:

如前文的AS規(guī)劃,在同一Pod中,所有Leaf的AS number相同,因此無論是哪一臺Leaf設(shè)備發(fā)送路由,在TOR上看到的AS-PATH總是一致的。因此Leaf上無需開啟寬松比較模式。

此外,Leaf和TOR之間存在大量的等價鄰居,擁有一致的配置策略。實際的部署過程中推薦使用BGP peer-group功能來簡化配置。

在銳捷RGOS做如下配置實現(xiàn)該功能:

4、BGP路由屬性規(guī)劃

BGP具備豐富的擴展屬性,可以實現(xiàn)強大的路由控制,當前IDC中用的較多的是BGP community屬性,可以很大程度簡化路由策略。在IDC當中,我們常常會使用到私有的團體屬性,用來為前綴加上管理的標記。私有community使用的是AS:number的格式,其中AS是指本地AS號或者對等體AS號,而number是指本地分配好的,用來表示可以應用策略的一組團體。實際使用中我們可以用更簡潔的community標記,比如為業(yè)務網(wǎng)段打上1:1屬性,為內(nèi)網(wǎng)匯總路由打上2:2屬性等,并基于此做路由傳遞的精細控制。

5、制定路由傳遞規(guī)則


▲ 圖4:數(shù)據(jù)中心BGP路由通告規(guī)劃

如圖4所示,多組TOR+Leaf組成一個POD(最小交付單元,Point of delivery,作為數(shù)據(jù)中心基本物理設(shè)計單元)。Spine負責橫向連接多個POD,而MAN/DCI負責提供跨區(qū)域的互聯(lián)。IDC的BGP路由規(guī)劃建議如下:

  • 北向路由傳遞

TOR至Leaf至Spine至MAN/DCI,逐級通告業(yè)務網(wǎng)段+管理網(wǎng)段+Loopback,在去堆疊場景時TOR需要向Spine通告主機路由。

  • 南向路由傳遞

MAN/DCI至Spine至Leaf,傳遞整個內(nèi)網(wǎng)的匯總路由,比如10.0.0.0/8;172.16.0.0/12;192.168.0.0/16。而Leaf至TOR,除了通告內(nèi)網(wǎng)匯總路由外,還需要通告本Pod的業(yè)務網(wǎng)段+管理網(wǎng)段+Loopback(當Leaf上行鏈路故障時,同POD的流量仍可以匹配明細路由,通過Spine轉(zhuǎn)發(fā))。

值得注意的是

目前TOR層級越來越多地使用了去堆疊技術(shù)實現(xiàn)服務器雙歸(推薦參考技術(shù)盛宴的另一篇文章《如何實現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)“去”堆疊》)。在去堆疊場景下,Leaf會從ToR交換機上接收到大量的主機路由(取決于Pod內(nèi)主機數(shù)量,可能是數(shù)以萬計),Leaf在TOR之間傳遞主機路由,很可能導致TOR交換機路由容量超限,因此需要在TOR的收方向做策略,過濾掉其他TOR發(fā)過來的主機路由。

6、BGP雙棧規(guī)劃

近年來國家大力推動IPv6建設(shè),實際上大型IDC私網(wǎng)地址也面臨枯竭。因此在IDC內(nèi)部署IPv4/IPv6雙棧,也是迫在眉睫的需求。

BGP本身支持多協(xié)議,可以在同一個BGP進程中支持v4/v6雙棧。一般的做法是為BGP v4和v6鄰居分別建立BGP會話,但這樣相當于增加了一倍的配置和維護工作量。實際上,BGP v4的update消息可以通過v6建立的 TCP連接來發(fā)送,反之亦然,即單個連接允許多種協(xié)議族的消息通告。


▲ 圖5:在IPv6 Session上通告IPv4路由信息

如圖5所示,銳捷網(wǎng)絡(luò)提供了一種優(yōu)化方案:只建立單會話來承載雙棧的路由,這樣做的好處除了簡化配置、節(jié)省IP,還為類似BFD for BGP等協(xié)議的部署減少了一半的性能消耗。

BGP運維能力規(guī)劃

除了要考慮BGP基礎(chǔ)能力的規(guī)劃,數(shù)據(jù)中心對于BGP網(wǎng)絡(luò)可運維能力也提出了很高的要求。常見的BGP運維能力的設(shè)計包括如下幾點:

1、使用BFD技術(shù)加速BGP網(wǎng)絡(luò)收斂

雖然IDC網(wǎng)絡(luò)是以高度冗余來構(gòu)建的,但網(wǎng)絡(luò)的可靠性仍受限于網(wǎng)絡(luò)設(shè)備檢測出故障,并重新將流量路由到其他的路徑的能力(尤其是在光模塊或者光纖出現(xiàn)單通的極端情況下)。當下數(shù)據(jù)中心,故障收斂時間要求越低越好(云業(yè)務要求做到亞秒級)。如前文所述,可以通過修改BGP計時器加速收斂,但這種慢hello機制收斂時間盡快也是秒級,還不足以滿足要求。

而BFD可以提供毫秒級的檢測精度,通過與BGP聯(lián)動,可以實現(xiàn)BGP路由快速收斂,確保業(yè)務連續(xù)。在數(shù)據(jù)中心IDC中推薦開啟BFD for BGP的設(shè)置,考慮到設(shè)備性能,全端口開啟時推薦采用300ms*3配置。

以銳捷RGOS軟件為例,BFD主要配置如下:

2、不間斷業(yè)務能力-BGP快速切換

BGP路由收斂需要在路由表中刪除失效路由,并增加新的路由,同時在芯片轉(zhuǎn)發(fā)表中實現(xiàn)對應的增、刪。在存在大量路由的情況下,逐條刪除并刷新路由表需要一定的時間,收斂時間可能達到數(shù)秒甚至數(shù)十秒。銳捷RGOS軟件在路由收斂上提供了優(yōu)化的手段:支持前綴無關(guān)收斂。如圖6所示,Leaf 1設(shè)備到Spine設(shè)備所有EBGP鄰居都失效時,Leaf 1會向所有TOR通告去往Spine的 AS不可達。TOR接收到此消息,查找預先分配好的對應的ID索引(依據(jù)Spine的AS號及Leaf的Router-ID分配),通告轉(zhuǎn)發(fā)表進行下一跳切換,從而實現(xiàn)業(yè)務的快速收斂,其收斂速度不再受限于路由條目數(shù)。(某大型互聯(lián)網(wǎng)公司實測12K路由,收斂時間0.7秒)


▲ 圖6:BGP前綴無關(guān)收斂


3、不間斷業(yè)務能力-BGP NSR

數(shù)據(jù)中心的Leaf/Spine設(shè)備對可靠性要求比較高,大多數(shù)配置了雙管理板;對于TOR設(shè)備,在堆疊組網(wǎng)場景下,也實現(xiàn)了類似雙管理板的效果。主備管理板在發(fā)生切換時,由于狀態(tài)信息的不一致很容易引起協(xié)議震蕩。

NSR(None-Stop-Routing,不間斷路由),是為了實現(xiàn)交換機管理板主備切換時,在協(xié)議的重新啟動過程中路由不間斷而設(shè)計的。使能NSR功能后,會打開TCP nss(none-stop-service)服務,開始備份相關(guān)鄰居以及路由信息到從板。在管理板主備切換過程中,NSR 功能使網(wǎng)絡(luò)拓撲保持穩(wěn)定,維持鄰居狀態(tài)和轉(zhuǎn)發(fā)表,保障關(guān)鍵業(yè)務不中斷。

4、不間斷業(yè)務能力-BGP平滑退出和延遲發(fā)布

BGP平滑退出:在CLOS數(shù)據(jù)中心網(wǎng)絡(luò)中,在對設(shè)備進行隔離升級等類似操作時,使用BGP平滑退出功能可以確保業(yè)務不斷流或者很少斷流。
其實現(xiàn)步驟是:

  • 首先向鄰居設(shè)備通告優(yōu)先級低的路由(local-preference 值為0 或med 值為4294967295),并且會攜帶知名的gshut community,從而使鄰居設(shè)備進行路由更新,使其流量預先切換到備份鏈路或其他等價鏈路上。
  • 接著再延遲一定時間,確保路由學習完成之后,斷開與鄰居設(shè)備間的BGP 連接。

BGP延遲發(fā)布:在設(shè)備重啟時,可能會存在路由表還未下發(fā)到本地的硬件表項,卻將路由信息通告給鄰居,從而提前引流導致流量轉(zhuǎn)發(fā)異常的情況。為避免此問題,可以設(shè)置BGP在整機重啟時把發(fā)布的路由調(diào)整為低優(yōu)先級
該能力建議在設(shè)備中預配置,以銳捷RGOS為例,需配置:

寫在最后

規(guī)劃、建設(shè)和運營好數(shù)據(jù)中心BGP網(wǎng)絡(luò),是一件非常不容易的事情,這需要大量的實踐經(jīng)驗積累。所幸的是BGP在IDC的應用已經(jīng)日趨成熟,大型互聯(lián)網(wǎng)公司、運營商有非常多實踐案例可以參考。銳捷網(wǎng)絡(luò)也有幸參與其中,為騰訊、阿里巴巴、字節(jié)跳動等客戶交付了多個大型BGP數(shù)據(jù)中心網(wǎng)絡(luò)

關(guān)于BGP性能優(yōu)化以及更多BGP運維特性,敬請期待技術(shù)盛宴后續(xù)分享。

 

相關(guān)推薦:

相關(guān)標簽:

點贊

更多技術(shù)博文

任何需要,請聯(lián)系我們

返回頂部

收起
文檔AI助手
文檔評價
該資料是否解決了您的問題?
您對當前頁面的滿意度如何?
不咋滴
非常好
您滿意的原因是(多選)?
您不滿意的原因是(多選)?
您是否還有其他問題或建議?
為了快速解決并回復您的問題,您可以留下聯(lián)系方式
郵箱
手機號
感謝您的反饋!
請選擇服務項目
關(guān)閉咨詢頁
售前咨詢 售前咨詢
售前咨詢
售后服務 售后服務
售后服務
意見反饋 意見反饋
意見反饋
更多聯(lián)系方式
主站蜘蛛池模板: 日韩在线小视频| 黑人一级黄色片| 九九热这里只有精品6| 韩国三级中文字幕hd久久精品| 亚洲国产最新| 殴美一级视频| 轻点插视频| 色网站免费| spy3wc撒spy3wc撒| 性色av一区二区三区| 男女猛烈激情xx00免费视频| aa视频在线| 欧美丰满美乳xxx高潮www| 超碰在线免费看| 日韩在线视频观看| 香蕉视频网站入口| 免费黄色网址观看| 一级片免费播放| 日日干夜夜干| 欧美日韩免费高清| 日日夜夜中文字幕| 无遮挡av| 蜜色视频| 成人高清视频在线播放| 国产91专区| 精品国产99久久久久久宅男i | 国产小视频网址| 日本女人黄色片| 性久久久久久久| 天天视频污| 国产a网| 亚洲少妇激情| 17c视频在线观看| 91精品福利在线观看| 亚洲一级理论片| 91精品视频网站| 一区二区影院| 亚洲av无码一区二区乱子伦as| 亚洲视频天天射| 五十路交尾| 狠狠干视频在线| 日本丰满少妇一区二区三区| 成人91免费| 午夜高潮| 97超碰人人| 色婷婷综合激情| 日本妇女毛茸茸| 欧美一区二区三区在线视频| 搞中出视频| 久久久久人妻一区精品色| 国产一级片av| 天堂中文在线资源| 福利网址导航大全| 国产黄色三级电影| 精品国产av色一区二区深夜久久| 超碰蜜臀| 美女黄色片网站| 中文字幕国产一区| 国内精品视频一区二区三区| 先锋影音av资源网站| 日本r级电影在线观看| 青青操在线| 色成人免费网站| 人人爽av| 日韩欧美亚洲国产| 亚洲大色| 97在线国产| av天堂一区| 91国自啪| 中国黄色三级| 毛片网络| 国产一区二区片| 黄色网址中文字幕| 99九九久久| 欧美日韩一区二区三区69堂| 亚洲伦理在线播放| 五月综合久久| 日本精品专区| 老女人性视频| 免费黄网站在线观看| www国产免费| 日本爽爽| 亚洲伊人色| 色婷婷综合在线观看| 四虎影视免费| 中文字幕第五页| 在线色资源| 日韩欧美一区二区视频| 国产成人免费| 欧美aaa级片| 国产永久精品| 欧美日本一二三区| av不卡一区二区三区| av噜噜| 午夜精品福利电影| 午夜欧美激情| 寡妇激情做爰呻吟| 久久曰视频| 啪啪短视频|