存儲系統對大模型具有極其重要的作用,關乎數據存儲與管理、數據預處理、訓練效率、推理性能、模型擴展等諸多方面。
但單從這些性能指標來看,我們可能無法直觀感受到其關鍵性。那么,到底什么樣的存儲系統才能為大模型所用?
基于全球權威AI基準測評廠商MLCommons公布的MLPerf v1.0存儲性能基準測試,其中提到了帶寬、模擬GPU數量以及GPU利用率等指標。這些指標與大模型的訓練、推理息息相關。
這一波大模型熱潮的基本特征之一就是,既需要處理海量數據保證訓練效率,同時在實際應用中,大模型需要快速對輸入數據進行推理給出結果,這之中的關鍵就是——高帶寬,高帶寬存儲可以實現快速數據傳輸、實時響應,同時面對大模型參數規模越來越大、多模態數據增加等情形,高帶寬也可以支持其模型運行。
然而,部分存儲系統受限于硬件性能、系統架構、并發訪問壓力過大,一定程度上會影響數據處理效率、占用存儲空間。
同時,在給定的訓練模型和GPU型號下,存儲系統能夠支持的GPU數量也是衡量其性能的關鍵指標之一。
通過模擬GPU數量,能在部署中評估不同存儲配置下的大模型訓練性能和成本效益,幫助企業選擇最適合的存儲和GPU組合。
反之,如果存儲系統模擬GPU數量不夠,不僅會使得模型的訓練時間大幅延長,還會導致模型收斂困難,同等規模的GPU集群下,需要引入更多的存儲節點才能滿足計算的需要,存儲的成本會隨之提高,同時也在一定程度上限制模型向更大規模和更高復雜度發展。
GPU利用率高則可以加速矩陣運算、張量運算等大量復雜計算任務,減少訓練周期的同時,讓硬件資源被充分利用起來,降低能源消耗。而低GPU利用率可能導致GPU長時間處于低負載運行狀態,GPU 算力和能源浪費較大。
洞察到這些發展趨勢的焱融科技,去年年底立項,今年9月拿出了面向大模型時代的里程碑產品——焱融全閃F9000X。

該產品搭載了其自研的高性能分布式并行文件存儲YRCloudFile,經實測,3節點存儲集群的性能可達到了750萬IOPS和270GBps帶寬,滿足大規模訓練及高算力場景的需求。
在帶寬、模擬GPU數量、GPU利用率這三大關鍵指標中拿下第一的焱融全閃F9000X,無疑成為大模型訓練、推理過程中選擇存儲系統的最優解之一。
這背后的關鍵正是焱融科技所做的針對性優化。
為了保證存儲系統的性能匹配大模型訓練、推理業務場景的需求,張文濤稱,面向高性能存儲場景,性能就是他們最優先考慮的。研發人員進行了NUMA的親和性、端到端的zero-copy(零拷貝)等優化。
但對于企業而言,一方面,存儲系統的性能固然重要,另一方面讓存儲系統變得好用、易用也同等關鍵。
因此,焱融科技還打造了相對應的解決方案。大模型時代,企業需要基于多個智算中心進行大模型訓練、推理,那就意味著企業的數據需要在多云間進行流轉。張文濤解釋說,數據具有粘性,采用對應的解決方案能幫助加速數據的多云流轉,減少企業使用和運維的復雜度。
大模型在問世之后,基礎設施投入巨大,因此企業對成本更為敏感,存儲系統就需要兼顧性能和降本。焱融科技通過全閃和大容量存儲相結合的形式,拿出了高性能、低成本的解決方案。
綜合來看,整個大模型產業的急速發展,對存儲系統提出了更高的要求,性能、穩定性和成本成為存儲廠商必須越過的門檻。
深諳技術創新與企業需求的焱融科技,在拿出更強計算能力、更高性能數據存儲的方案后,為大模型時代的企業探索出了一條行之有效的路徑。
本文轉載自:,不代表科技訊之立場。原文鏈接:http://articlef.yulepops.com/article/m-164/1/312202412041323295711494.html