
阿里云昨日公布了其多模態大模型研究的新進展,推出了升級版的通義千問視覺理解模型Qwen-VL-Max。這款模型在視覺推理能力和中文理解能力上都有了顯著提升,性能表現堪比GPT-4V和谷歌的Gemini Ultra。
Qwen-VL-Max的升級主要表現在以下幾個方面:
- 基礎能力:Qwen-VL-Max能夠準確描述和識別圖片信息,并基于圖片進行信息推理和擴展創作。它還具備了視覺定位能力,能夠對畫面指定區域進行問答。
- 視覺推理:新版模型能夠理解流程圖等復雜形式圖片,并能夠分析復雜圖標。此外,它在看圖做題、看圖作文以及看圖寫代碼等任務上也達到了世界最佳水平。
- 圖像文本處理:Qwen-VL-Max的中英文文本識別能力顯著提高,支持百萬像素以上的高清分辨率圖和極端寬高比的圖像。它既能夠完整復現密集文本,也能從表格和文檔中提取信息。
與LLM(大語言模型)相比,多模態大模型擁有更大的應用想象力。例如,研究者正在探索將多模態大模型與自動駕駛場景結合,為“完全自動駕駛”找到新的技術路徑。此外,將多模態模型部署到手機、機器人、智能音箱等端側設備,可以讓智能設備自動理解物理世界的信息,或者基于多模態模型開發應用,輔助視力障礙群體的日常生活等等。
Qwen-VL-Plus和Qwen-VL-Max目前限時免費,用戶可以在通義千問官網、通義千問APP直接體驗Max版本模型的能力,也可以通過阿里云靈積平臺(DashScope)調用模型API。
總的來說,阿里云的通義千問多模態大模型Qwen-VL-Max在視覺推理和中文理解方面都展現出了強大的實力,其性能表現足以與GPT-4V和谷歌的Gemini Ultra相媲美。這將為用戶提供更豐富、更準確的視覺信息理解和創作能力,推動AI技術在更多領域的應用和發展。
原創文章,作者:若安丶,如若轉載,請注明出處:http://www.bdzhitong.com/article/624926.html