日韩欧美亚洲一区,亚洲一区二区精品,在线观看国精产品一区,蜜臀99久久精品久久久久小说

Meta 訓練 Llama 3 遭遇頻繁故障 英偉達GPU真的在拖后腿嗎?

近日,Meta發(fā)布了一份詳細的研究報告,揭示了在訓練Llama 3 405B參數(shù)模型過程中面臨的重大挑戰(zhàn)。該系統(tǒng)在包含16384個Nvidia H100 GPU的集群上運行,在54天的訓練期間,經(jīng)歷了419次意外故障,平均每三個小時發(fā)生一次。這些故障中的一半以上歸因于GPU及其高帶寬內(nèi)存(HBM3)。

Meta 訓練 Llama 3 遭遇頻繁故障   英偉達GPU真的在拖后腿嗎?

什么是Llama 3.1?深度解析Llama 3.1研發(fā)思路

Meta剛剛發(fā)布開源Llama 3.1雖然自帶論文,但依舊激起了廣大網(wǎng)友強烈的好奇心和求知欲。Llama 3.1都使用了哪些數(shù)據(jù)?其中有多少合成數(shù)據(jù)?為什么不使用MoE架構?后訓練與RLHF流程是如何進行的?模型評估是如何進行的?我們什么時候可以見到Llama 4?Meta是否會發(fā)展agent?

LLM的參數(shù)規(guī)模選擇需要考慮多種因素,包括scaling law、訓練時間、GPU和硬件的約束等等。不僅要考慮Meta所用的硬件,還要考慮整個AI社區(qū)的不同GPU型號和顯存大小。此外,目前廣泛應用于推理階段的量化技術也會影響推理和訓練/微調(diào)成本的比重。

在Scaling Law和訓練token總量的限制內(nèi),進行了一些權衡,找到了一個有合適推理效率的平衡點。之所以做到405B這么大規(guī)模,一個真正與GPT-4比肩的開源模型。雖然目前還沒有完全達到目標,但差距正在逐漸縮小。下一代模型將繼續(xù)擴展。

Scaling Law主要關注模型權重和訓練量。Chinchilla論文強調(diào)了訓練數(shù)據(jù)token總量的重要性,認為在有限算力前提下,存在一個模型參數(shù)量和訓練token數(shù)的最佳比率。

但是,Meta希望發(fā)布的旗艦模型需要更高的推理效率,因此選擇增加訓練的token數(shù)和訓練時長,讓模型達到“過度訓練”的狀態(tài)。我們希望模型有更好的推理表現(xiàn),從而更多地應用于開源社區(qū),因此需要做出一些超越Chinchilla定律的選擇。

相比Llama 2,Llama 3的架構沒有太多變化,但在擴展數(shù)據(jù)的規(guī)模和質(zhì)量方面作出了很多努力,數(shù)據(jù)集從2T token增加到15T token。

目前的模型研發(fā)有一個趨勢,即針對基準分數(shù)進行模型的后訓練改進。模型評估是一個開放的研究問題,目前還沒有很好的答案。當試圖提升模型在某個基準上的分數(shù)時,可能會存在過擬合,分數(shù)提升未必能遷移成為相似的能力。Meta已經(jīng)在6月開始訓練Llama 4模型,重點可能圍繞agent技術,并且已經(jīng)在Toolformer等agent工具上進行了一些工作。

Llama 3訓練任務為什么會多次遭遇故障?

由于Llama 3訓練任務的規(guī)模龐大且高度同步,單個GPU的故障會導致整個訓練過程中斷,必須重新啟動。在419次意外故障中,58.7%的故障與GPU相關,具體包括NVLink等各種GPU故障和HBM3內(nèi)存故障。這種情況并不意外,因為Nvidia的H100 GPU消耗約700W并承受大量熱應力。盡管出現(xiàn)了大量的故障,但只有三起事件需要顯著的人工干預,其余的問題均能由自動化處理。

盡管存在這些問題,Llama 3團隊通過支持自動化集群維護,實現(xiàn)了超過90%的有效訓練時間(有效訓練時間是指實際用于有用訓練的時間與經(jīng)過時間的比例)。Meta開發(fā)了多種工具和優(yōu)化策略,包括減少任務啟動和檢查點時間、廣泛使用PyTorch內(nèi)置的NCCL飛行記錄器,以及識別滯后的GPU。其中,NCCLX在故障檢測和定位方面發(fā)揮了至關重要的作用,尤其是對于NVLink和RoCE相關問題。

PyTorch的NCCL飛行記錄器能夠?qū)⒓w元數(shù)據(jù)和堆棧跟蹤記錄到環(huán)形緩沖區(qū)中,從而在大規(guī)模情況下快速診斷和解決掛起和性能問題。NCCLX通過與PyTorch的緊密協(xié)同設計,提高了故障檢測和定位的速度和準確性,允許PyTorch訪問NCCLX的內(nèi)部狀態(tài)并跟蹤相關信息。

訓練過程中,成千上萬的GPU可能同時增加或減少功耗,例如等待檢查點完成或集體通信結束,或整個訓練任務的啟動或關閉。這會導致數(shù)據(jù)中心的功耗瞬時波動達到幾十兆瓦的數(shù)量級,可能使電網(wǎng)不堪重負。Meta必須確保其數(shù)據(jù)中心有足夠的電力,以維持Llama 3 405B模型及未來更大規(guī)模模型的正常運轉(zhuǎn)。

Meta還注意到,環(huán)境因素會影響大規(guī)模訓練性能。Llama 3 405B訓練期間,每天中午因溫度較高影響了GPU的動態(tài)電壓和頻率調(diào)整,導致吞吐量波動1-2%。盡管這不是大問題,但它揭示了溫度變化對GPU性能的潛在影響。

考慮到16384個H100 GPU的集群在54天內(nèi)經(jīng)歷了419次意外故障,平均每24小時7.76次,xAI的孟菲斯超級計算機集群(配備10萬個H100 GPU)可能會面臨更高的故障率。埃隆·馬斯克(Elon Musk)最近在社交平臺上宣布啟動了“世界上最強大的人工智能訓練集群”,預計在今年12月前創(chuàng)建“世界上所有指標最強大的人工智能”。根據(jù)GPU規(guī)模比例,xAI的孟菲斯超級計算機集群可能會面臨更多的故障和挑戰(zhàn)。

隨著人工智能模型參數(shù)量的不斷增加,所需的計算資源也隨之擴大。以 xAI 計劃中的 10 萬塊 H100 顯卡集群為例,故障率可能會成倍增長,給未來的 AI 訓練帶來更大的挑戰(zhàn)。盡管挑戰(zhàn)重重,Meta通過開發(fā)和應用多種技術和優(yōu)化策略,展示了在大規(guī)模人工智能訓練中克服故障、提升效率的能力。未來,隨著人工智能模型參數(shù)量的不斷增加,計算資源需求也將持續(xù)增長。Meta的經(jīng)驗為業(yè)界提供了寶貴的參考,也為未來更大規(guī)模模型的訓練奠定了基礎。

原創(chuàng)文章,作者:科技探索者,如若轉(zhuǎn)載,請注明出處:http://www.bdzhitong.com/article/670512.html

科技探索者的頭像科技探索者管理團隊

相關推薦

發(fā)表回復

登錄后才能評論
主站蜘蛛池模板: 伊吾县| 上饶县| 阳谷县| 玉龙| 乌恰县| 扶余县| 池州市| 库尔勒市| 罗江县| 台中市| 古交市| 温宿县| 印江| 志丹县| 洛川县| 潜山县| 于田县| 龙海市| 瓦房店市| 吉林省| 北碚区| 壤塘县| 德令哈市| 兴宁市| 建始县| 南部县| 奉节县| 泸定县| 安顺市| 同德县| 普陀区| 寿阳县| 桂阳县| 潮安县| 潜江市| 尼玛县| 五峰| 芮城县| 新乡市| 岑巩县| 南江县|