
全球領(lǐng)先的圖形處理器(GPU)制造商英偉達(dá)公司近日宣布了一項(xiàng)重要進(jìn)展,成功發(fā)布了名為Mistral-NeMo-Minitron 8B的小型語(yǔ)言AI模型。這款模型以其高精度和高計(jì)算效率為特點(diǎn),標(biāo)志著AI技術(shù)在資源有限環(huán)境下的應(yīng)用邁出了重要一步。
據(jù)英偉達(dá)官方介紹,Mistral-NeMo-Minitron 8B模型擁有80億個(gè)參數(shù),是英偉達(dá)在之前與Mistral AI合作推出的120億參數(shù)Mistral NeMo 12B模型基礎(chǔ)上,通過(guò)先進(jìn)的寬度剪枝(width-pruning)和知識(shí)蒸餾(knowledge distillation)技術(shù)優(yōu)化而來(lái)。這一成果不僅展示了英偉達(dá)在AI模型壓縮和加速領(lǐng)域的深厚實(shí)力,也為AI技術(shù)在更廣泛場(chǎng)景下的應(yīng)用提供了可能。
寬度剪枝技術(shù)通過(guò)去除對(duì)模型準(zhǔn)確率貢獻(xiàn)最小的權(quán)重,有效減小了神經(jīng)網(wǎng)絡(luò)的規(guī)模。而知識(shí)蒸餾則通過(guò)在一個(gè)小型數(shù)據(jù)集上重新訓(xùn)練剪枝后的模型,顯著提升了其因剪枝而降低的準(zhǔn)確率。英偉達(dá)在《Compact Language Models via Pruning and Knowledge Distillation》論文中詳細(xì)闡述了這一創(chuàng)新過(guò)程,為業(yè)界提供了寶貴的參考。
在性能表現(xiàn)上,Mistral-NeMo-Minitron 8B模型展現(xiàn)出了強(qiáng)大的競(jìng)爭(zhēng)力。在包括語(yǔ)言理解、常識(shí)推理、數(shù)學(xué)推理、總結(jié)、編碼以及生成真實(shí)答案在內(nèi)的九項(xiàng)流行基準(zhǔn)測(cè)試中,該模型均取得了優(yōu)異的成績(jī),遙遙領(lǐng)先于其他同類(lèi)模型。這一結(jié)果充分證明了Mistral-NeMo-Minitron 8B模型在保持高精度的同時(shí),也具備了極高的計(jì)算效率。
尤為值得一提的是,Mistral-NeMo-Minitron 8B模型可以在搭載英偉達(dá)RTX顯卡的工作站上運(yùn)行,這意味著用戶(hù)無(wú)需投入高昂的成本即可享受到AI技術(shù)帶來(lái)的便利。這一特性無(wú)疑將極大地推動(dòng)AI技術(shù)在中小企業(yè)、科研機(jī)構(gòu)以及個(gè)人用戶(hù)中的普及和應(yīng)用。
英偉達(dá)此次發(fā)布的Mistral-NeMo-Minitron 8B模型,不僅是對(duì)現(xiàn)有AI技術(shù)的一次重要突破,更是對(duì)未來(lái)AI發(fā)展趨勢(shì)的一次有力探索。隨著技術(shù)的不斷進(jìn)步和應(yīng)用的不斷拓展,我們有理由相信AI技術(shù)將在更多領(lǐng)域發(fā)揮出更大的作用和價(jià)值。
原創(chuàng)文章,作者:好奇寶寶,如若轉(zhuǎn)載,請(qǐng)注明出處:http://www.bdzhitong.com/article/675780.html