
谷歌研究團隊近日發布了全新的通用視頻編碼器——VideoPrism,其在3600萬高質量視頻字幕對和5.82億視頻剪輯的數據集上進行了訓練,并在33項視頻理解基準測試中刷新了30項SOTA(最先進技術)成績。
VideoPrism的設計旨在通過單一凍結模型處理各種視頻理解任務,包括分類、定位、檢索、字幕和問答等。其設計理念主要基于預訓練數據和兩階段訓練法。預訓練數據方面,谷歌團隊通過匯集高質量視頻字幕對和帶有噪聲的并行文本,構建了一個龐大的語料庫。在建模方面,VideoPrism采用了對比學習和掩碼視頻建模兩個階段,以優化語義視頻嵌入和全局提煉。
VideoPrism的出色表現不僅體現在分類和定位任務上,還能進行視頻-文本檢索和QA問答。例如,給定一段視頻,VideoPrism可以準確地檢索出與文本內容相匹配的視頻片段,或者根據視頻內容回答相關問題。
谷歌團隊表示,VideoPrism的成功驗證了通用視覺編碼器在視頻理解領域的巨大潛力。未來,隨著數據集的擴大和模型的不斷優化,VideoPrism有望在更多領域實現突破,為視頻理解和應用提供更強大的支持。
原創文章,作者:秋秋,如若轉載,請注明出處:http://www.bdzhitong.com/article/632435.html