組網擴展性要求高
不同的金融客戶對GPU算力投入有差異,小規模起步到規模化使用要求智算網絡具備較高的可擴展性。
網絡性能要求高
大模型的機間網絡通信占比大幅提升,帶寬接入能力及帶寬利用率成為影響訓練效率的網絡關鍵指標。
訓練連續性要求高
大模型采用多機多卡集群,機間網絡一旦出現故障將會導致集群訓練任務中斷,拉長訓練周期,降低訓練效率,機間網絡的可靠性對于訓練效率的影響愈發明顯。
投產運營復雜度高
智算中心建設投產復雜、業務上線慢,大規模網絡并行計算導致故障節點難定位,網絡設備、光模塊的高密度部署造成以電力換算力的高成本運行模式。