
北京時間3月12日晚,谷歌旗下DeepMind團隊宣布推出兩款新型AI模型——?Gemini Robotics?和?Gemini Robotics-ER?,旨在賦予機器人更強大的現實任務處理能力,即便未經專門訓練也能適應新場景。這一突破或將加速智能機器人在日常場景的應用落地。
首款模型?Gemini Robotics?基于谷歌最新多模態大模型Gemini 2.0開發,被定義為“視覺語言行動模型”。其核心能力在于融合物理行動模態,使機器人能實時理解環境并執行操作。例如,完成折紙、擰瓶蓋等精細動作,或在陌生場景中與人類協作。DeepMind機器人部門高級總監Carolina Parada表示,該模型在通用性、互動性和靈活性三大關鍵領域取得進展,能適應多樣化的物理環境。
第二款模型?Gemini Robotics-ER?(具象推理)則專注于復雜動態場景的決策。例如,當機器人需整理桌面物品或打包餐盒時,該模型可分析物體位置、操作順序等邏輯關系,并與底層控制系統聯動完成推理任務。Parada解釋稱,此類模型需“理解并預測動態變化的世界”,其設計目標是為機器人提供類人的環境交互智能。
為確保安全性,DeepMind研究員Vikas Sindhwani透露,團隊開發了分層安全策略,訓練模型自主評估動作風險。此外,公司同步發布了安全研究框架,延續了2023年提出的“機器人憲法”規范。目前,這兩項技術已向波士頓動力、Agility Robotics等合作方開放測試,并與Apptronik聯合推進人形機器人研發。DeepMind表示,未來希望將此類AI智能拓展至工業、家庭服務等多個領域。
原創文章,作者:Google,如若轉載,請注明出處:http://www.bdzhitong.com/article/710066.html