技術盛宴 | 淺談LLM推理性能的影響因子——HBD Size

作為GenAl時代的全棧服務專家，銳捷網絡致力于為企業(yè)提供覆蓋laaS到PaaS的全棧產品及解決方案。

#全場景

發(fā)布時間：2024-05-31
點擊量：
點贊：

分享至

我想評論

隨著LLM（大語言模型）技術的飛速發(fā)展，市面上出現(xiàn)越來越多的AGI應用，對話式機器人作為最普遍的應用已經深入普羅大眾的工作和學習中。最顯著的改變就是從搜索引擎查詢問題，轉變?yōu)榇蜷_多款對話式機器人的APP進行查詢，然后再綜合多個解答進行自己的判斷。

那么，“對話式機器人”這類應用是如何根據用戶的輸入，來進行有邏輯的高質量內容輸出的呢？其本質是：先通過大量的“訓練”任務使其具備能夠理解用戶語言、邏輯和思維的能力，再通過用戶給出的輸入進行“推理”運算，進而輸出對應的內容與用戶進行高質量互動。

一、訓練與推理的關系

LLM（大型語言模型）的訓練和推理是模型生命周期中的兩個關鍵階段，我們可以類比成理論學習和應用實踐的結合。

1.訓練階段（學習階段）：

該階段是模型構建的基礎，決定了模型的質量和應用效果。

1）在訓練階段，LLM通過大量的文本數據學習語言的模式、語法、語義和上下文信息。

2）使用深度學習技術，如神經網絡，模型在訓練過程中不斷優(yōu)化其參數，以提高對文本數據的建模能力。

2.推理階段（應用階段）：

該階段不涉及參數更新，將訓練學到的知識應用到實際問題上。

1）推理階段是指使用訓練好的模型對新的輸入數據進行處理，以生成輸出或做出決策的過程。

2）在推理過程中，模型會接收新的文本輸入，預測或生成文本，執(zhí)行翻譯，或者完成其他特定的NLP任務。

3.差異性：

1）目標：訓練和推理都旨在實現(xiàn)模型的最佳性能，但訓練側重于學習，推理側重于應用。

2）可用性：訓練階段的效果會直接影響推理階段結果的可用性。

3）資源消耗：訓練通常需要大量的計算資源和數據，而推理則更注重實時性、成本和可擴展性。

4）持續(xù)學習：推理階段的反饋可以用于改進模型，通過持續(xù)學習或增量學習的方式，使模型適應新的數據和場景。

二、推理的過程

主流 LLM 基本都是 Decoder Only 的 Transformer 模型，推理過程可以分為兩個階段：

Transformer 模型結構圖

1.“預填充（Prefill）”階段：

Prefill階段是模型根據用戶輸入的Tokens通過一次前向傳播來生成第一個輸出 Token。在前向傳播過程中，輸入的Tokens之間以并行方式執(zhí)行運算，所以具備比較高的執(zhí)行效率。

2.“解碼（Decoding）”階段：

在Prefill階段生成第一個 Token（A）之后開始進入Decoding階段。在Decoding階段中，解碼器會以自回歸的方式逐個生成輸出序列的詞元。在每一步，它基于已生成的詞元和之前的狀態(tài)來預測下一個詞元，直到生成一個特殊的 Stop Token（或者滿足用戶設置的某個限制條件，比如超過一定的長度）生成過程就會停止。Decoding階段需要執(zhí)行多次前向傳播，而且只能以串行的方式執(zhí)行，因此效率相對比較低。

兩個階段對算力芯片的要求也不同，Prefill階段為計算密集型，適合選用高算力 GPU；Decoding階段為訪存密集型，相應的可以使用算力不是特別強而訪存帶寬比較大的 GPU。

三、推理的評估指標

針對 LLM 推理服務通常有兩種調用模式，如下表所述：

針對 LLM 推理服務通常有兩種調用模式

類似ChatGPT 一樣的 Streaming 方式，目前應用比較廣泛，主要因為可以給用戶帶來更好的交互體驗，不需要長時間等待即可獲得系統(tǒng)反饋，因此本文以Streaming模式下的評估指標來進行分析。

1.首個詞元生成時間（Time To First Token，簡稱TTFT）：

在用戶輸入查詢的內容后，模型生成第一個輸出token所需要的時間。

2.單個輸出詞元的生成時間（Time Per Output Token，簡稱TPOT）：

推理系統(tǒng)根據用戶請求生成后續(xù)詞元所需要的平均時間。在人機實時交互的過程中，讓用戶得到快速的響應至關重要，延時較高會讓客戶陷入較長的等待時間，大大影響交互體驗，但只要生成速度大于人類的閱讀速度就能獲得很好的用戶體驗。

3.Decoding吞吐：

通常用來衡量推理服務器在decoding階段的輸出效率，即decoding階段的所有Token數量除以該階段所需要的耗時。

4.單卡吞吐：

通常用來衡量推理服務器完成本次推理任務的輸出效率，即在Prefill階段以及decoding階段總共生成的Token數量除以整個推理任務所需要的耗時。

四、推理性能的影響因素

影響LLM推理性能的因子有許多，本文重點分析不同HBD Size域在不同集群規(guī)模以及不同計算精度下對推理性能的影響。

1.計算精度：

指浮點數（Floating Point Numbers）的不同精度，比如FP16、FP8、FP4。

2.實例規(guī)模：

完成本次推理任務所需要的GPU卡數量。

3.HBD （High Bandwidth Domain）Size：

一個推理實例內，通過獨立的高速通道形成全聯(lián)接的GPU卡的數量。（跨服務器通過交換柜互聯(lián)也算同一個HBD）

我們基于理論建模的和仿真算法，通過控制變量的對比方式，在保證單一因子變化的前提下去分析計算精度、集群規(guī)模以及HBD Size對推理性能的影響。

測試模型采用B200算力卡進行模擬仿真，基于QWen 110B的基礎上擴展16個MoE專家，Batch Size為16，Token輸入序列為32K，同時假設HBD內通過1.8TB/s的雙向帶寬互聯(lián)。

HBD （High Bandwidth Domain）Size

如上圖數據所示，發(fā)現(xiàn)以下現(xiàn)象：

64張B200的GPU卡規(guī)模下，組成該推理實例時。在上述模型推理中，HBD Size從8提升至64，TTFT最大下降46%，單卡吞吐最大提升41%。

因此可以得出結論：HBD Size對推理性能有正面作用，即高速互聯(lián)的GPU卡數量越多，推理性能越強。

HBD （High Bandwidth Domain）Size

如上圖數據所示，發(fā)現(xiàn)以下現(xiàn)象：

128張B200卡的GPU規(guī)模組成推理實例時，在上述模型推理中，HBD Size從8提升至128，TTFT最大下降57%，單卡吞吐最大提升59%；同樣證明HBD Size的提升對推理性能有正面作用。

對比上述兩份數據，發(fā)現(xiàn)以下現(xiàn)象：

從64卡擴展到128卡規(guī)模時，TTFT指標從下降46%變化為下降57%，收益更明顯；再如單卡吞吐從提升41%變化為提升59%，收益更明顯。

因此可以得出結論：當采用更大規(guī)模GPU卡時，HBD Size擴增時性能收益提升趨于明顯。

HBD （High Bandwidth Domain）Size

從上述表格數據中，我們發(fā)現(xiàn)以下現(xiàn)象：

同為128卡規(guī)模下，F(xiàn)P16精度下隨著HBD Size提升，Prefill與Decoding階段的通信時間占比逐步下降，這種現(xiàn)象在FP8和FP4精度下也同樣存在。

當采用更低計算精度時，F(xiàn)P16精度下從8卡提升到128卡，單卡吞吐提升倍率為1.36；而在FP4精度下從8卡提升到128卡，單卡的吞吐提升倍率為1.63。

因此可以得出結論：在更低的計算精度下，HBD Size擴增時性能收益提升趨于明顯。

五、結論

1、在相同集群規(guī)模和同樣的計算精度下，隨著HBD Size的提升，推理性能也隨之提升。具體表現(xiàn)為TTFT降低，Decoding吞吐及單卡吞吐提升。

2、在相同計算精度下，集群規(guī)模越大，HBD Size的提升收益愈發(fā)明顯。具體表現(xiàn)為TTFT降低幅度更大，Decoding吞吐及單卡吞吐提升幅度更大。

3、在相同集群規(guī)模下，計算精度越低，HBD Size的提升收益愈發(fā)明顯。具體表現(xiàn)為Prefill與Decoding階段的通信時間占比逐步下降幅度越慢，單卡吞吐提升倍率幅度越大。

銳捷網絡，作為GenAI時代的全棧服務專家，致力于為企業(yè)提供覆蓋IaaS到PaaS的全棧產品及解決方案。我們的產品覆蓋高性能網絡與GPU算力優(yōu)化調度，旨在通過創(chuàng)新技術解決方案，幫助客戶實現(xiàn)生產效率的飛躍與運營成本的優(yōu)化。我們堅信，通過我們的努力，能夠為客戶打造一個更加智能、高效和可靠的未來。讓我們攜手，共同探索GenAI時代的每一個機遇。

相關標簽：