亚洲精品88-玩弄人妻少妇500系列-xx69国产-久久久久午夜-9l蝌蚪porny中文自拍-97视频免费看-懂色av蜜臂av粉嫩av-av无码一区二区大桥久未-免费a一级-caoporn国产精品免费公开-亚洲精品成人福利网站app-蜜桃av噜噜一区二区三区策驰-亚洲а∨无码2019在线观看-亚洲欧美国产va在线播放-亚洲精选91

告別運維內耗 全域協(xié)同提效 丨 銳捷網絡運維保障經驗分享會
預約直播
無感準入 人物統(tǒng)管 丨 RG-SAM+5.X 新一代高校AI認證平臺發(fā)布
預約直播
產品
< 返回主菜單
產品中心
產品
解決方案
< 返回主菜單
解決方案中心
行業(yè)
返回主菜單
選擇區(qū)域/語言

技術盛宴 | 淺談LLM推理性能的影響因子——HBD Size

作為GenAl時代的全棧服務專家,銳捷網絡致力于為企業(yè)提供覆蓋laaS到PaaS的全棧產品及解決方案。

  • 發(fā)布時間:2024-05-31

  • 點擊量:

  • 點贊:

分享至

我想評論

隨著LLM(大語言模型)技術的飛速發(fā)展,市面上出現(xiàn)越來越多的AGI應用,對話式機器人作為最普遍的應用已經深入普羅大眾的工作和學習中。最顯著的改變就是從搜索引擎查詢問題,轉變?yōu)榇蜷_多款對話式機器人的APP進行查詢,然后再綜合多個解答進行自己的判斷。

那么,“對話式機器人”這類應用是如何根據用戶的輸入,來進行有邏輯的高質量內容輸出的呢?其本質是:先通過大量的“訓練”任務使其具備能夠理解用戶語言、邏輯和思維的能力,再通過用戶給出的輸入進行“推理”運算,進而輸出對應的內容與用戶進行高質量互動。 

一、訓練與推理的關系

LLM(大型語言模型)的訓練和推理是模型生命周期中的兩個關鍵階段,我們可以類比成理論學習和應用實踐的結合。

1.訓練階段(學習階段):

該階段是模型構建的基礎,決定了模型的質量和應用效果。

1)在訓練階段,LLM通過大量的文本數據學習語言的模式、語法、語義和上下文信息。

2)使用深度學習技術,如神經網絡,模型在訓練過程中不斷優(yōu)化其參數,以提高對文本數據的建模能力。

2.推理階段(應用階段):

該階段不涉及參數更新,將訓練學到的知識應用到實際問題上。

1)推理階段是指使用訓練好的模型對新的輸入數據進行處理,以生成輸出或做出決策的過程。

2)在推理過程中,模型會接收新的文本輸入,預測或生成文本,執(zhí)行翻譯,或者完成其他特定的NLP任務。

3.差異性:

1)目標:訓練和推理都旨在實現(xiàn)模型的最佳性能,但訓練側重于學習,推理側重于應用。

2)可用性:訓練階段的效果會直接影響推理階段結果的可用性。

3)資源消耗:訓練通常需要大量的計算資源和數據,而推理則更注重實時性、成本和可擴展性。

4)持續(xù)學習:推理階段的反饋可以用于改進模型,通過持續(xù)學習或增量學習的方式,使模型適應新的數據和場景。
 

二、推理的過程

主流 LLM 基本都是 Decoder Only 的 Transformer 模型,推理過程可以分為兩個階段:

 

Transformer 模型結構圖 

Transformer 模型結構圖

 

1.“預填充(Prefill)”階段:

Prefill階段是模型根據用戶輸入的Tokens通過一次前向傳播來生成第一個輸出 Token。在前向傳播過程中,輸入的Tokens之間以并行方式執(zhí)行運算,所以具備比較高的執(zhí)行效率。

2.“解碼(Decoding)”階段:

在Prefill階段生成第一個 Token(A)之后開始進入Decoding階段。在Decoding階段中,解碼器會以自回歸的方式逐個生成輸出序列的詞元。在每一步,它基于已生成的詞元和之前的狀態(tài)來預測下一個詞元,直到生成一個特殊的 Stop Token(或者滿足用戶設置的某個限制條件,比如超過一定的長度) 生成過程就會停止。Decoding階段需要執(zhí)行多次前向傳播,而且只能以串行的方式執(zhí)行,因此效率相對比較低。

兩個階段對算力芯片的要求也不同,Prefill階段為計算密集型,適合選用高算力 GPU;Decoding階段為訪存密集型,相應的可以使用算力不是特別強而訪存帶寬比較大的 GPU。

 

三、推理的評估指標

針對 LLM 推理服務通常有兩種調用模式,如下表所述:

 

針對 LLM 推理服務通常有兩種調用模式

 

類似ChatGPT 一樣的 Streaming 方式,目前應用比較廣泛,主要因為可以給用戶帶來更好的交互體驗,不需要長時間等待即可獲得系統(tǒng)反饋,因此本文以Streaming模式下的評估指標來進行分析。

1.首個詞元生成時間(Time To First Token,簡稱TTFT):

在用戶輸入查詢的內容后,模型生成第一個輸出token所需要的時間。

2.單個輸出詞元的生成時間(Time Per Output Token,簡稱TPOT):

推理系統(tǒng)根據用戶請求生成后續(xù)詞元所需要的平均時間。在人機實時交互的過程中,讓用戶得到快速的響應至關重要,延時較高會讓客戶陷入較長的等待時間,大大影響交互體驗,但只要生成速度大于人類的閱讀速度就能獲得很好的用戶體驗。

3.Decoding吞吐:

通常用來衡量推理服務器在decoding階段的輸出效率,即decoding階段的所有Token數量除以該階段所需要的耗時。

4.單卡吞吐:

通常用來衡量推理服務器完成本次推理任務的輸出效率,即在Prefill階段以及decoding階段總共生成的Token數量除以整個推理任務所需要的耗時。

 

四、推理性能的影響因素

影響LLM推理性能的因子有許多,本文重點分析不同HBD Size域在不同集群規(guī)模以及不同計算精度下對推理性能的影響。

1.計算精度:

指浮點數(Floating Point Numbers)的不同精度,比如FP16、FP8、FP4。

2.實例規(guī)模:

完成本次推理任務所需要的GPU卡數量。

3.HBD (High Bandwidth Domain)Size:

一個推理實例內,通過獨立的高速通道形成全聯(lián)接的GPU卡的數量。(跨服務器通過交換柜互聯(lián)也算同一個HBD)

我們基于理論建模的和仿真算法,通過控制變量的對比方式,在保證單一因子變化的前提下去分析計算精度、集群規(guī)模以及HBD Size對推理性能的影響。

測試模型采用B200算力卡進行模擬仿真,基于QWen 110B的基礎上擴展16個MoE專家,Batch Size為16,Token輸入序列為32K,同時假設HBD內通過1.8TB/s的雙向帶寬互聯(lián)。

 

HBD (High Bandwidth Domain)Size 

如上圖數據所示,發(fā)現(xiàn)以下現(xiàn)象:

64張B200的GPU卡規(guī)模下,組成該推理實例時。在上述模型推理中,HBD Size從8提升至64,TTFT最大下降46%,單卡吞吐最大提升41%。

因此可以得出結論:HBD Size對推理性能有正面作用,即高速互聯(lián)的GPU卡數量越多,推理性能越強。

 

HBD (High Bandwidth Domain)Size

 

如上圖數據所示,發(fā)現(xiàn)以下現(xiàn)象:

128張B200卡的GPU規(guī)模組成推理實例時,在上述模型推理中,HBD Size從8提升至128,TTFT最大下降57%,單卡吞吐最大提升59%;同樣證明HBD Size的提升對推理性能有正面作用。

對比上述兩份數據,發(fā)現(xiàn)以下現(xiàn)象:

從64卡擴展到128卡規(guī)模時,TTFT指標從下降46%變化為下降57%,收益更明顯;再如單卡吞吐從提升41%變化為提升59%,收益更明顯。

因此可以得出結論:當采用更大規(guī)模GPU卡時,HBD Size擴增時性能收益提升趨于明顯。

 

HBD (High Bandwidth Domain)Size

 

從上述表格數據中,我們發(fā)現(xiàn)以下現(xiàn)象:

同為128卡規(guī)模下,F(xiàn)P16精度下隨著HBD Size提升,Prefill與Decoding階段的通信時間占比逐步下降,這種現(xiàn)象在FP8和FP4精度下也同樣存在。

當采用更低計算精度時,F(xiàn)P16精度下從8卡提升到128卡,單卡吞吐提升倍率為1.36;而在FP4精度下從8卡提升到128卡,單卡的吞吐提升倍率為1.63。

因此可以得出結論:在更低的計算精度下,HBD Size擴增時性能收益提升趨于明顯。

五、結論

1、在相同集群規(guī)模和同樣的計算精度下,隨著HBD Size的提升,推理性能也隨之提升。具體表現(xiàn)為TTFT降低,Decoding吞吐及單卡吞吐提升。

2、在相同計算精度下,集群規(guī)模越大,HBD Size的提升收益愈發(fā)明顯。具體表現(xiàn)為TTFT降低幅度更大,Decoding吞吐及單卡吞吐提升幅度更大。

3、在相同集群規(guī)模下,計算精度越低,HBD Size的提升收益愈發(fā)明顯。具體表現(xiàn)為Prefill與Decoding階段的通信時間占比逐步下降幅度越慢,單卡吞吐提升倍率幅度越大。

銳捷網絡,作為GenAI時代的全棧服務專家,致力于為企業(yè)提供覆蓋IaaS到PaaS的全棧產品及解決方案。我們的產品覆蓋高性能網絡與GPU算力優(yōu)化調度,旨在通過創(chuàng)新技術解決方案,幫助客戶實現(xiàn)生產效率的飛躍與運營成本的優(yōu)化。我們堅信,通過我們的努力,能夠為客戶打造一個更加智能、高效和可靠的未來。讓我們攜手,共同探索GenAI時代的每一個機遇。

相關標簽:

點贊

更多技術博文

任何需要,請聯(lián)系我們

返回頂部

收起
文檔AI助手
文檔評價
該資料是否解決了您的問題?
您對當前頁面的滿意度如何?
不咋滴
非常好
您滿意的原因是(多選)?
您不滿意的原因是(多選)?
您是否還有其他問題或建議?
為了快速解決并回復您的問題,您可以留下聯(lián)系方式
郵箱
手機號
感謝您的反饋!
請選擇服務項目
關閉咨詢頁
售前咨詢 售前咨詢
售前咨詢
售后服務 售后服務
售后服務
意見反饋 意見反饋
意見反饋
更多聯(lián)系方式
主站蜘蛛池模板: 北条麻妃在线一区二区| 中文字幕第八页| 爱爱视频免费看| 日韩激情欧美| 色爽爽爽| av导航福利| 欧美拍拍视频| 尤物在线| av成人在线网站| 三级小视频在线观看| 久久久夜色| 色视频网| 999在线精品| 亚洲射吧| 亚洲成年人在线| 亚洲精品一| 美国少妇在线观看免费| 国产成人免费视频网站| 毛片网站网址| 99青青草| 中国一级黄色大片| 欧美男操女| 久久精品大片| 淫羞阁av导航| 欧美一级片免费看| 日韩美女影院| 欧洲综合色| 三级一区二区| 91福利院| 亚洲精精品| 日本午夜啪啪| 青娱乐在线免费视频| 美国式禁忌6 伦理| 三级a级片| 亚洲天堂日韩av| 欧美成人免费观看视频| 国产精品电影| 欧美伦理网| 视频一区二区国产| 91福利视频在线观看| 4399毛片| 精品欧美国产| 男生操女生的视频软件| 日本一区二区三区在线视频| 精品九色| 99ri精品| 国产微拍精品| 亚洲av激情无码专区在线播放| 四虎影院毛片| 国产精品国产三级国产aⅴ| 欧美色亚洲| 少妇午夜电影| 国产黄色录像片| 粉嫩av一区二区三区天美传媒| av小说在线| 性歌舞团一区二区三区视频| 亚洲影院在线播放| 午夜性福| 天天操天天摸天天射| 国产女人在线视频| 最新日韩精品| 亚洲青涩| 久久久久久久亚洲av无码| 国产黄色片免费| 视频免费在线观看| 精品一级视频| 黄色av一级片| 精品1区2区| 久热一区| 久久91久久| 综合色婷婷| 林天顾悦瑶笔趣阁| 国产午夜网站| 三上悠亚激情av一区二区三区| 开心激情网址| 91叼嘿视频| 91精品久久人妻一区二区夜夜夜| 一区二区视频欧美| 黑丝美女啪啪| 午夜不卡av免费| 黄色视网站| 中文字幕精品一区二| 成人免费泡妞视频| 天堂视频免费在线| 国产中文字幕三区| 韩国一区二区电影| 综合色吧| 久久久久久久国产| 在线观看精品一区| 夜夜操网| 禁欲总裁被揉裆呻吟故事动漫| 中文av免费| 特色黄色片| 自拍视频网站| 人与动物黄色片| 欧美成人三级在线播放| 91极品美女| 91美女片黄在线观看91美女| 欧美不卡一二三|