節點規模對訓練效率的影響
單純提升服務器節點規模,集群計算效率反而下降
帶寬對訓練效率的影響
服務器集群的通信帶寬已成為提升分布式訓練效率的瓶頸
動態時延對訓練效率的影響
網絡擁塞導致動態時延高,降低GPU利用率,訓練時間延長
丟包率對于訓練效率的影響
RDMA丟包重傳導致帶寬利用率快速降低,丟包率達到1%,嚴重影響訓練效率