
谷歌DeepMind團隊近日發布了一款名為Genie的基礎世界模型,其擁有110億參數,能夠從一張圖片創造出可玩的虛擬世界。這一突破性的技術引起了網友的廣泛關注,標志著AI已經正式涉足視頻游戲領域。
不同于之前的模型,Google Genie通過學習20萬小時的未標注互聯網視頻,無需監督訓練即可生成豐富多樣的場景。更令人驚嘆的是,它無需任何動作標注,就能確定場景中的主角,并允許用戶與之互動。這一特性使得Genie在創造虛擬世界方面具有巨大的潛力。
Google Genie通過三大核心組件實現其功能:潛動作模型、視頻分詞器以及自回歸動態模型。這些組件共同工作,生成一個學習潛動作空間,不僅為用戶提供了交互式的體驗,還有助于訓練智能體模仿看不見的視頻中的行為。
此外,Genie的創新之處還在于它能夠應用于人類設計的草圖或現實世界的圖像上。通過最先進的文本到圖像生成模型制作起始幀,Genie可以將其轉化為可交互的虛擬世界。這一功能為創建虛擬世界提供了新的途徑,極大地拓寬了Genie的應用范圍。
Genie團隊的負責人Tim Rockt?schel表示,Genie作為世界模型,是人類邁向通用人工智能(AGI)的重要一步。它的出現將重塑交互式生成環境的格局,為未來的通才智能體的發展奠定基礎。
總之,谷歌DeepMind發布的Genie模型為視頻游戲領域帶來了革命性的變化。其從一張圖片創造出可玩虛擬世界的能力令人矚目,預示著AI在游戲領域的廣泛應用即將到來。
原創文章,作者:若安丶,如若轉載,請注明出處:http://www.bdzhitong.com/article/633178.html