
近日,小米大模型團(tuán)隊(duì)在音頻推理領(lǐng)域取得重大突破,成功登頂國際權(quán)威的MMAU(Masive Multi-Task Audio Understanding and Reasoning)音頻理解評(píng)測榜首。這一成就得益于團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)算法應(yīng)用于多模態(tài)音頻理解任務(wù),僅用一周時(shí)間便實(shí)現(xiàn)了64.5%的SOTA(State Of The Art)準(zhǔn)確率。
據(jù)悉,MMAU評(píng)測集通過一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本,測試模型在27種技能上的表現(xiàn),期望模型達(dá)到接近人類專家的邏輯分析水平。此前,表現(xiàn)最好的模型來自OpenAI的GPT-4o,準(zhǔn)確率為57.3%。小米團(tuán)隊(duì)受DeepSeek-R1啟發(fā),將GRPO算法遷移到Qwen2-Audio-7B模型上,在僅使用3.8萬條訓(xùn)練樣本的情況下,實(shí)現(xiàn)了顯著的性能提升。
此次實(shí)驗(yàn)不僅驗(yàn)證了強(qiáng)化學(xué)習(xí)在音頻推理領(lǐng)域的獨(dú)特價(jià)值,也為后續(xù)研究提供了新的思路。小米團(tuán)隊(duì)表示,將把訓(xùn)練代碼、模型參數(shù)開源,并提供技術(shù)報(bào)告,供學(xué)術(shù)界和產(chǎn)業(yè)界參考交流。這一成果標(biāo)志著小米在人工智能領(lǐng)域的技術(shù)實(shí)力不斷提升,也為智能聽覺時(shí)代的發(fā)展注入了新的活力。
原創(chuàng)文章,作者:XIAOMI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://www.bdzhitong.com/article/710539.html