
近日,Stability AI 公司基于其知名的Stable Diffusion文生圖模型,進一步拓展至音頻領域,推出了全新的開源AI模型——Stable Audio Open。該模型能夠根據用戶輸入的提示詞,生成高質量、多樣化的音頻樣本,為音樂創作、音效設計等領域注入了新的活力。
Stable Audio Open模型通過采用基于transforms的擴散模型(DiT),在自動編碼器的潛在空間中操作,極大提升了生成音頻的質量和多樣性。目前,該模型最長可以創建47秒的音樂片段,非常適合用于鼓點、樂器旋律、環境音和擬聲音效等多種場景。
據悉,Stable Audio Open模型已經正式開源,并可通過HuggingFace平臺供用戶試用。在訓練過程中,該模型使用了來自FreeSound和Free Music Archive等音樂庫的超過48.6萬個樣本,確保了生成的音頻具有廣泛的風格和類型覆蓋。
Stability AI公司強調,雖然Stable Audio Open能夠生成高質量的簡短音樂片段,但目前并不適合用于生成完整的歌曲、旋律或人聲。這主要是因為模型的設計初衷在于提供快速、靈活的音頻創作工具,而非替代專業的音樂制作軟件。
值得一提的是,Stable Audio Open與Stability AI公司之前推出的Stable Audio 2.0有所不同。后者是一個商業模型,能夠生成最長3分鐘的完整音頻,適用于更廣泛的音頻創作需求。而Stable Audio Open則是一個專注于短音頻片段和音效的開源模型,為用戶提供了更多的自定義和靈活性。
Stable Audio Open的發布標志著Stability AI在音頻生成領域的又一重要進展。隨著人工智能技術的不斷發展,我們期待未來能夠看到更多創新、實用的音頻生成模型和應用的出現。
原創文章,作者:AI,如若轉載,請注明出處:http://www.bdzhitong.com/article/659468.html