
近日,豆包大模型團隊攜手北京交通大學、中國科學技術大學,共同推出了一款名為“VideoWorld”的視頻生成實驗模型,并宣布即日起面向公眾開源。
VideoWorld在業界首次實現了無需依賴語言模型即可認知世界的創新突破。傳統多模態模型如Sora、DALL-E、Midjourney等大多依賴語言或標簽數據學習,但語言并不能全面捕捉真實世界的知識。而VideoWorld則摒棄了語言模型,通過純視覺信號的學習,實現了統一執行理解和推理任務的能力。
該模型基于一種先進的潛在動態模型,能夠高效壓縮視頻幀間的變化信息,從而大幅提升知識學習的效率和效果。更令人矚目的是,在不依賴任何強化學習搜索或獎勵函數機制的前提下,VideoWorld已經展現出了專業級的圍棋水平,達到了5段9×9的標準,并能在多種環境中執行復雜的機器人任務。
原創文章,作者:AI,如若轉載,請注明出處:http://www.bdzhitong.com/article/705620.html