
近日,OpenAI展示了其新型視頻生成模型Sora,這一模型在文本轉視頻技術上取得了顯著進步。然而,在彭博社進行的測試中,Sora的表現并不完美,出現了一些不符合現實場景的動作,如鸚鵡飛過猴子時翅膀扭曲,以及猴子身上出現鸚鵡尾巴等。
這些問題反映了Sora在理解和呈現物體物理特性方面的局限性。OpenAI科學家Bill Peebles也承認了這一點,他表示:“確實會在片段中找到一些奇怪的動作。”
Sora采用Diffusion transformer技術,將視頻內容分解成一系列patch,并通過去噪技術預測出清晰的原始圖像信息。雖然這種方法優化了視頻生成效果,但Sora仍面臨一系列挑戰和局限性。
這些挑戰包括物理交互的準確性、對象狀態變化的一致性、長期樣本的連貫性、物體的自發出現、手部和身體部位的處理、計算資源的需求、模型的泛化能力以及視頻編輯和擴展的能力。在復雜場景中,Sora可能會出現不符合現實場景的動作,如籃球穿過籃筐側面、狗在走路時相互穿過等。
盡管Sora在某些特定場景下表現出色,但OpenAI表示,該模型仍有很長的路要走,需要解決許多技術挑戰。隨著技術的不斷進步,我們有理由相信Sora的未來會更加出色。
原創文章,作者:秋秋,如若轉載,請注明出處:http://www.bdzhitong.com/article/634322.html