
亞馬遜Amazon人工智能研究團隊近日宣布開發出一個巨大的文本轉語音模型——BASE TTS,其規模之大堪稱史上之最。該模型擁有驚人的9.8億個參數,并使用了超過10萬小時的錄音數據進行訓練,涵蓋了大量英語語音,還融入了一些其他語言的發音示例。
近年來,大型語言模型如ChatGPT備受矚目,而亞馬遜Amazon此次則將焦點轉向了文本轉語音領域。研究人員希望通過增加參數數量和擴充訓練數據集,提升文本轉語音應用的性能和自然度。他們的努力成果顯著,BASE TTS不僅在參數數量上創造了新紀錄,還在發音準確性和語音自然度方面取得了顯著進步。
值得一提的是,亞馬遜Amazon團隊還探索了人工智能領域中的“涌現能力”。他們發現,在參數量達到1.5億的中型數據集上,文本轉語音應用出現了明顯的智能飛躍。這種飛躍涉及多個語言屬性,如使用復合名詞、表達情感、使用外語詞等。這一發現對于未來人工智能模型的發展具有重要意義。
然而,出于對潛在濫用風險的擔憂,亞馬遜Amazon決定不將BASE TTS向公眾開放。相反,他們計劃將其作為學習應用,并期望將學到的知識應用于改善文本轉語音應用的整體音質。這一決策體現了亞馬遜對于技術倫理和社會責任的重視。
總的來說,亞馬遜Amazon發布的BASE TTS文本轉語音模型是人工智能領域的一次重大突破。它不僅展示了人工智能技術的巨大潛力,還為我們提供了更多關于智能涌現的新見解。隨著技術的不斷進步,我們有理由相信,未來的文本轉語音應用將會更加自然、智能和多樣化。
原創文章,作者:秋秋,如若轉載,請注明出處:http://www.bdzhitong.com/article/630828.html