
谷歌發言人亞歷克斯·約瑟夫今日向媒體證實,?Gemini Live人工智能實時視頻解析功能已正式上線?。用戶可通過智能手機攝像頭或屏幕畫面與AI互動,Gemini將實時分析視覺內容并解答相關問題。該功能基于2024年5月發布的?Project Astra多模態項目?開發,被視為對標OpenAI GPT-4o的重要落地成果。?
據官方描述,用戶開啟手機攝像頭后,Gemini Live可即時識別畫面中的物體并解釋其功能。例如對準咖啡機時,AI能指導操作步驟;掃描電器故障部件時,可提供維修建議。該功能支持在Pixel系列手機本地運行,強調低延遲與隱私保護,首批功能已向部分用戶開放測試。?
谷歌曾在2024年I/O大會上演示Project Astra原型:用手機掃描辦公室環境,AI準確識別電腦型號、提醒日程安排,并推算白板上的公式結果。此次Gemini Live的上線標志著該項目從技術展示轉為實際應用,其多模態能力整合了圖像識別、語音交互與實時數據分析。?
目前Gemini Live暫未開放自由對話時長限制,重點聚焦特定場景的視覺問答。谷歌表示正在優化復雜環境下的識別準確率,例如區分外觀相似的工業零件、解讀手寫潦草文字等挑戰。未來該功能將逐步擴展到更多安卓設備,并接入谷歌搜索數據庫強化知識儲備。
值得注意的是,Gemini Live的推出恰逢多模態AI競爭白熱化階段。OpenAI上月發布的GPT-4o同樣支持實時視覺交互,但尚未開放公眾測試。隨著兩大巨頭在“可感知現實世界的AI助手”賽道加速布局,消費級智能終端或將迎來新一輪升級潮。
原創文章,作者:Google,如若轉載,請注明出處:http://www.bdzhitong.com/article/712015.html