
近日,由Picsart AI Research等多個團隊聯合開發的AI視頻模型StreamingT2V驚艷亮相,以其強大的長視頻生成能力刷新了行業記錄。這款模型能夠生成長達1200幀、時長達2分鐘的視頻,不僅在技術上超越了此前備受矚目的Sora模型,更以其免費開源的特性,為開源生態注入了新的活力。
StreamingT2V的發布標志著視頻生成領域取得了重要突破。此前,市場上的視頻生成模型大多只能生成幾秒到十幾秒的視頻,而Sora模型的60秒生成能力已經算是業內佼佼者。然而,StreamingT2V不僅將視頻生成時長提升至2分鐘,理論上還可以做到無限長,為視頻生成領域帶來了前所未有的可能性。
StreamingT2V的成功得益于其先進的自回歸技術架構。該模型能夠創建具有豐富運動動態的長視頻,同時保持視頻的時間一致性和高幀級圖像質量。通過引入條件注意力模塊(CAM)和外觀保留模塊(APM),以及一種隨機混合方法,StreamingT2V有效解決了現有文本到視頻擴散模型在擴展到長視頻時出現的質量下降、表現生硬或停滯等問題。
CAM作為短期記憶塊,通過注意機制調節當前一代的視頻,確保視頻塊之間的過渡自然流暢;而APM作為長期記憶塊,則從第一個視頻塊中提取高級場景和對象特征,防止模型在生成過程中忘記初始場景。此外,StreamingT2V還利用高分辨率文本到視頻模型對生成的視頻進行自動回歸增強,進一步提高了視頻的質量和分辨率。
目前,StreamingT2V已經在GitHub上開源,并在huggingface上提供了免費試玩。盡管由于服務器負載可能較高,用戶可能需要耐心等待,但嘗試輸入文字和圖片提示來生成視頻的體驗依然讓人興奮。huggingface上也展示了一些成功的案例,這些案例充分證明了StreamingT2V在視頻生成方面的強大實力。
StreamingT2V的發布不僅為視頻生成領域帶來了新的技術突破,也為開源社區提供了一個強大的工具。它的出現將有助于推動相關技術的發展和應用,為電影制作、游戲開發、虛擬世界構建等領域帶來更多創新和可能性。
未來,隨著StreamingT2V等先進技術的不斷完善和普及,我們或許可以期待看到更多高質量、長時長的AI生成視頻在各個領域得到廣泛應用。同時,開源社區也將繼續發揮重要作用,推動相關技術的不斷創新和發展。
原創文章,作者:AI,如若轉載,請注明出處:http://www.bdzhitong.com/article/647410.html