超越GPT-4 Claude 3超大杯成新王

AI ? 2024年3月28日 20:13:00 ? AI

Claude 3 Opus在Chatbot Arena的聊天機器人對戰排行榜中反超GPT-4，成為新冠軍，且Claude 3家族整體表現亮眼。Chatbot Arena榜單權威，基于真實人類用戶體驗打分。Claude 3因其勤奮和低成本受到好評，尤其Claude 3 Haiku能以低成本即時運行并提供高智能客戶服務。相比之下，ChatGPT被指在過去一年中零增長，面臨競爭壓力，垂直化AI初創公司正滿足用戶需求。ChatGPT未來可能以平臺專屬模型為特色，成為新的增長點。

太瘋狂了！Claude 3 Opus超越了GPT-4，成為新的國王！今天，Chatbot Arena更新了聊天機器人對戰的排行榜，在經過了時間的洗禮和群眾的檢驗之后，之前略遜于GPT-4的Claude 3竟然反超了！

而且不僅僅是Claude 3的超大杯Opus成功登頂，藐視眾生，Claude 3家族的整體表現都非常亮眼。

大杯Claude 3 Sonnet排到了第4，就連最小的Claude 3 HaiKu都達到了GPT-4水平！

那么相比于基準測試跑分，這個榜單的權威性如何？

Chatbot Arena（聊天機器人競技場），由伯克利團隊開發，每個模型在榜單上的得分，完全取決于真實人類用戶的使用體驗。

我們來看一下打分規則：

用戶同時向兩個匿名模型（比如ChatGPT、Claude、Llama）提出任何相同的問題，然后根據回答投票給表現更好的模型；

如果一次回答不能確定，用戶可以繼續聊天，直到確定獲勝者；

如果在對話中透露了模型的身份，則不會計算投票。

Chatbot Arena平臺收集了超過40萬人的投票，來計算出這個大模型的等級分排行榜，最終找出誰是冠軍。

顯然，這回Claude 3贏麻了。

我們來看一下真實的戰況：

在所有非平局對戰中， A對B獲勝的比例：

模型之間的對戰次數（無平局）：

GPT-4終于被干掉了，對此，有網友開始惡搞：

剛在當地超市看到Sam Altman，他一臉震驚地看著手機。幾秒鐘后，他真的倒下了，開始劇烈顫抖。經過2分鐘的搖晃和尖叫，一群人圍繞著他試圖幫助他。但令人驚訝的是，他在2分鐘后停止了顫抖和尖叫，站起來，拿起手機開始撥打一個號碼。

“準備釋放……”

咱也不知道Altman要放的是不是GPT-5。

網友表示，Claude確實要比GPT勤奮得多：

GPT-4-Turbo非常懶惰。在任何編碼任務中，它都會跳過部分代碼，并表示“你自己知道要放什么”，而Opus可以毫無遺漏地輸出整個代碼。

就連Claude-2也通過自己的勤奮和耐心感動了這位網友。

更有比較務實的網友指出，Haiku的排名更為重要，因為它是第一個可以以極低成本即時運行的LLM，并且具有足夠高的智能來提供實時客戶服務。

盲生你發現了華點！Claude 3 Haiku不僅與原始版本的GPT-4表現一樣好，關鍵是相當便宜，在一些平臺你甚至可以免費使用。

大家于是紛紛夸起了Claude 3 Haiku：

智能相當于GPT-4，價格比GPT-3.5便宜，而且據說模型可能只有20B大小。

有網友表示，OpenAI不行啦，現在Anthropic才是老大，一時間，平臺內外充滿了快活的空氣。

ChatGPT 一年零增長

回過頭來再看ChatGPT這邊，從最初的高光、王者，到現在不能說泯然眾人吧，反正多少有點寒酸了。

最近，有關統計平臺曝出：ChatGPT在過去一年中居然零增長！

最近一段時間，ChatGPT一直被指責懶惰、系統提示臃腫，而另一方面競爭也愈演愈烈——Claude 3和Gemini Pro 1.5現在都提供了比GPT-4多8倍的上下文長度和更好的recall能力。

對于幾乎每個ChatGPT用例，現在都有大量垂直化的AI初創公司，致力于滿足用戶的需求，而不是滿足于現有的ChatGPT界面和捆綁工具

它們有更好的UI選項（例如IDE和圖像/文檔編輯器）、更好的原生集成（例如用于cron重復操作）、更好的隱私/企業保護（例如用于醫療保健和金融），更細粒度的控制（GPT的默認RAG是幼稚且不可配置的）。

以下是一些網友列舉了相關垂直領域的產品，以及公司的融資情況：

從某種意義上說，OpenAI的B2B和B2C部分相互競爭，這在某種程度上是良性競爭——OpenAI可以使用來自ChatGPT的RLHF數據進行訓練。

而新的GPT商店可以看作是，OpenAI為了抓住這些垂直化需求的嘗試。

——與其離開平臺，到處支付20美元/月，為什么不留在ChatGPT內部而只需要支付一次，讓OpenAI將理論上的收入分配給GPT創作者？

對此，大部分創作者也很明智，一般只向ChatGPT發布精簡版的應用，作為自己主要平臺的一個渠道。

在游戲機業務中，眾所周知，購買決策往往是由平臺獨占游戲驅動的。從某種意義上說，ChatGPT的未來會以平臺專屬模型為特色。

所以，當Sora甚至是GPT-5公開發布時，一定會率先登陸自家的平臺，也許那將是下一輪ChatGPT的增長點。

本文轉載自：cnBeta，不代表科技訊之立場。原文鏈接：https://www.cnbeta.com.tw/articles/tech/1425246.htm

AI認證作者

0 0

AI

OpenAI CEO阿爾特曼：AI成本驟降，每年成本降至十分之一

近日，OpenAI的首席執行官山姆·阿爾特曼（Sam Altman）在一篇博文中，揭示了人工智能發展的迅猛勢頭及其對社會經濟的深遠影響。阿爾特曼指出，AI模型的智能程度與其訓練和…

AI
2025年2月12日
AI

英偉達開源Nemotron-70B模型，性能超越GPT-4o和Claude 3.5

近日，英偉達悄然開源了其最新的超強大模型——Nemotron-70B。一經發布，該模型便迅速在AI社區引發轟動，其性能在多個基準測試中超越了包括GPT-4、GPT-4 Turbo以…

AI
2024年10月18日
新聞

阿里通義開源模型Qwen2.5進入大模型盲測全球前十

基準測試平臺Chatbot Arena發布了最新的大模型盲測排名。10天前發布的阿里通義千問開源模型Qwen2.5再次闖入全球十強，其Qwen2.5-72B-Instruct大語言模型在榜單中位列第十，是前十名中唯一的中國模型。此外，通義千問的視覺語言模型Qwen2-VL-72B-Instruct排名第九，是得分最高的開源大模型。

潮玩君
2024年9月30日
AI

法國AI初創Mistral發布Pixtral 12B：多模態AI大模型亮相

法國人工智能（AI）初創公司Mistral于9月11日宣布推出其首款多模態AI大模型——Pixtral 12B，該模型以其強大的圖像與文本處理能力，在AI領域引起了廣泛關注。Pix…

AI
2024年9月12日
AI

OpenAI 推出 SearchGPT 搜索引擎，挑戰谷歌地位

據報道，近日，OpenAI正式宣布，其基于 GPT-4 系列 AI 模型的新搜索引擎 SearchGPT 已進入測試階段，并計劃在未來將其功能整合至廣受歡迎的 ChatGPT 服…

AI
2024年7月26日
AI

ChatGPT首次通過圖靈測試，AI模仿人類交流能力再突破

近日，加州大學圣地亞哥分校的科學家在人工智能（AI）領域取得了突破性的進展。在一項旨在評估AI模仿人類交流能力的實驗中，OpenAI的GPT-4模型在54%的時間里成功被誤認為是人…

AI
2024年6月18日
AI

Open AI宣布訓練新一代AI模型，目標超越GPT-4

近日，Open AI宣布已啟動新一代旗艦人工智能模型的訓練工作，旨在超越當前備受矚目的GPT-4大模型，進一步提升AI技術的能力邊界。該公司表示，新模型將作為聊天機器人、智能助手、…

AI
2024年5月29日
新聞

對于微軟Build 2024的期待：新Surface硬件與AI探險家即將亮相

隨著人工智能技術的飛速發展，各大科技公司紛紛加碼投入。在谷歌的I/O開發者大會上，AI技術大放異彩，OpenAI的GPT-4更是引發廣泛討論。現在，微軟即將于明日在西雅圖舉行的Bu…

聆聽
2024年5月20日
AI

Gemini 1.5 Pro vs GPT-4：AI領域的雙雄對決

在人工智能（AI）的戰場上，谷歌和OpenAI兩大巨頭始終在競爭的前沿。近期，谷歌發布了其最新的大語言模型Gemini 1.5 Pro，而OpenAI的GPT-4也早已在市場上占據…

AI
2024年5月16日
AI

Anthropic 在歐洲推出多語言生成式 AI 助手 Claude

人工智能領域的創新者 Anthropic 公司近日宣布，其先進的生成式 AI 助手 Claude 將于當地時間周二正式在歐洲上線。這款備受期待的產品已經在歐洲的金融和酒店等行業展現…

AI
2024年5月15日
AI

OpenAI聲稱GPT-4o模型可以像人一樣讓交流更自然

在人工智能領域，OpenAI再次引領了創新潮流。該公司近日宣布推出全新的人工智能模型GPT-4o，該模型以其多模式功能和增強的交互能力，被譽為更接近“更自然的人機交互”的里程碑式產…

AI
2024年5月14日
AI

OpenAI發布會預告：ChatGPT與GPT-4升級，新語音助手或亮相

在全球科技界翹首以盼之際，OpenAI宣布將于北京時間5月13日凌晨1點舉行線上發布會，展示ChatGPT和GPT-4的最新升級。此前關于SearchGPT搜索引擎的猜測和熱議，似…

AI
2024年5月13日
AI

阿里云發布通義千問2.5大模型，能力全面升級，趕超GPT-4

昨日，在阿里云AI智領者峰會-北京站活動中，阿里云正式發布了通義千問2.5大模型，并宣稱其在多項能力上已全面趕超GPT-4，尤其在中文語境下的表現尤為突出。據阿里云官方介紹，通義…

科技新聞
2024年5月10日
AI

GPT-4 Turbo vs GPT-4：誰是AI寫作領域的新星？

在AI技術的浪潮中，OpenAI的GPT系列模型一直站在風口浪尖。繼GPT-4之后，短短數月內，GPT-4 Turbo的推出再次引發了業界的廣泛關注。那么，GPT-4 Turbo與…

AI
2024年5月5日
AI

OpenAI奧爾特曼演講揭秘：GPT-5性能將遠超GPT-4，迭代部署至關重要

近日，OpenAI聯合創始人兼首席執行官薩姆·奧爾特曼（Sam Altman）在斯坦福大學發表了一場備受矚目的演講，重點談及了通用人工智能（AGI）的發展以及OpenAI的迭代節奏…

AI
2024年4月29日
AI

GPT-4展露黑客天賦：自主利用真實世界安全漏洞

近日，在人工智能領域掀起軒然大波的GPT-4大型語言模型再次刷新了人們的認知。伊利諾伊大學厄巴納-香檳分校的四位計算機科學家最新研究發現，GPT-4不僅能夠理解人類語言，還能通過閱…

AI
2024年4月22日
AI

GPT-4眼科評估能力驚艷，但專家警告需審慎應用

劍橋大學臨床醫學院的最新研究發現，OpenAI的GPT-4模型在眼科評估中的表現幾乎可與該領域的專家相媲美。這一突破性成果在金融時報首次報道后，引起了醫療和科技界的廣泛關注。在這…

若安丶
2024年4月21日
AI

AI模型訓練成本飆升：GPT-4耗資7800萬美元，Gemini Ultra1.91億美元

隨著人工智能技術的飛速發展，先進AI模型的訓練成本也在急劇攀升。根據AI指數的最新估計，OpenAI的GPT-4模型和谷歌的Gemini Ultra模型在訓練過程中分別耗資約780…

科技新聞
2024年4月17日
新聞

OpenAI在日本東京設立亞洲首個辦事處，并推出優化版GPT-4模型

全球領先的人工智能研究機構OpenAI近日正式宣布，在亞洲的首個辦事處正式落戶日本東京，標志著公司業務的進一步擴展。OpenAI表示，此次設立辦事處旨在與當地的政府、企業以及研究機…

科技探索者
2024年4月16日
AI

Anthropic最新研究：Claude 3 Opus說服力比肩人類

近日，人工智能領域的領軍企業Anthropic發布了一項令人矚目的研究成果，顯示其最新語言模型Claude 3 Opus的說服力已與人類水平相當。這一發現標志著在評估語言模型說服力…

AI
2024年4月15日

發表回復

登錄后才能評論

超越GPT-4 Claude 3超大杯成新王

相關推薦

發表回復