OpenAI推出SimpleQA基準(zhǔn)，專治AI模型“胡言亂語”

AI ? 2024年10月31日 15:30:00 ? 新聞

近日，OpenAI宣布推出一個新的基準(zhǔn)測試工具SimpleQA，旨在衡量語言模型在回答簡短事實(shí)尋求問題時的準(zhǔn)確性。這一舉措針對的是AI領(lǐng)域中的一個長期難題：如何訓(xùn)練模型生成事實(shí)正確的回答。

當(dāng)前的語言模型在生成回答時，有時會產(chǎn)生錯誤或未經(jīng)證實(shí)的答案，這種現(xiàn)象被稱為“幻覺”。為了提高模型的可靠性，OpenAI設(shè)計(jì)了SimpleQA這一基準(zhǔn)測試。SimpleQA的數(shù)據(jù)集具備高正確性、多樣性和前沿挑戰(zhàn)性等特點(diǎn)。問題的參考答案由兩名獨(dú)立的AI訓(xùn)練師驗(yàn)證，以確保評分的公正性。同時，SimpleQA涵蓋廣泛主題，從科學(xué)技術(shù)到電視節(jié)目與電子游戲等應(yīng)有盡有，以測試模型在不同領(lǐng)域的知識掌握情況。

與早期的基準(zhǔn)測試相比，SimpleQA更具挑戰(zhàn)性。例如，在針對前沿模型GPT-4o的測試中，其得分不足40%。此外，SimpleQA的問題與答案簡潔明了，使操作快速高效，并可通過OpenAI API等進(jìn)行快速評分。包含4326道問題的SimpleQA在評估中具有較低的方差，能夠提供穩(wěn)定的測試結(jié)果。

OpenAI表示，SimpleQA是一個簡單但具有挑戰(zhàn)性的基準(zhǔn)，用于評估前沿模型的事實(shí)準(zhǔn)確性。然而，SimpleQA的主要限制在于其范圍有限，只在短查詢的受限設(shè)置中測量事實(shí)準(zhǔn)確性。因此，模型在短回答中表現(xiàn)出的事實(shí)性是否與其在長篇、多事實(shí)內(nèi)容中的表現(xiàn)相關(guān)，仍是一個懸而未決的研究課題。

OpenAI希望通過開源SimpleQA，進(jìn)一步推動AI研究的發(fā)展，使模型更加可信并富有可靠性。這一舉措有望為AI領(lǐng)域的發(fā)展注入新的動力，促進(jìn)更加準(zhǔn)確、可靠的AI模型的誕生。

原創(chuàng)文章，作者：AI，如若轉(zhuǎn)載，請注明出處：http://www.bdzhitong.com/article/690044.html

OpenAI SimpleQA

AI認(rèn)證作者

0 0

AI

OpenAI推出新工具：AI助理進(jìn)化到“替你干活”時代

近日，OpenAI正式推出三項(xiàng)開發(fā)者工具——Responses API、Agents SDK及計(jì)算機(jī)使用工具，推動AI智能體從“聊天對話”向“任務(wù)執(zhí)行”跨越升級，該技術(shù)方案將于20…

AI
1天前
AI

OpenAI將與甲骨文聯(lián)手打造數(shù)據(jù)中心部署6.4萬塊英偉達(dá)GB200

軟銀、OpenAI、甲骨文等公司宣布啟動星際之門項(xiàng)目，計(jì)劃在美國打造新的AI基礎(chǔ)設(shè)施。目前，星際之門項(xiàng)目已開始建設(shè)，將在阿比林的得克薩斯州小城部署6.4萬塊英偉達(dá)的GB200。該數(shù)據(jù)中心將為AI應(yīng)用提供強(qiáng)大算力資源，推動當(dāng)?shù)亟?jīng)濟(jì)發(fā)展。

潮玩君
4天前
AI

OpenAI推出“博士級” AI智能體：每月2萬美元

今日，OpenAI宣布將推出最高月費(fèi)2萬美元（約14.5萬元人民幣）的“博士級”AI智能體服務(wù)，瞄準(zhǔn)學(xué)術(shù)研究與軟件開發(fā)領(lǐng)域的高端需求。此次發(fā)布的AI智能體分為三檔：基礎(chǔ)版（200…

AI
2025年3月6日
AI

OpenAI宣布GPT-4.5正式開放，價格是舊版30倍

今日，OpenAI宣布，即日起向所有ChatGPT Plus用戶開放GPT-4.5模型，比原計(jì)劃提前兩周落地。此次升級被官方稱為“最接近人類思維的AI系統(tǒng)”，其輸入成本高達(dá)GPT-…

AI
2025年3月6日
AI

OpenAI啟動5000萬美元輔助計(jì)劃：資助15所大學(xué)進(jìn)行學(xué)術(shù)研究

OpenAI成立NextGenAI聯(lián)盟，提供5000萬美元研究資助、計(jì)算資源和API訪問權(quán)限，為頂尖大學(xué)人工智能輔助研究提供支持。此舉對美國人工智能研究資助面臨不確定性之際，有助于推動人工智能發(fā)展。

潮玩君
2025年3月5日
AI

OpenAI會員專享！GPT-4.5高級模型本周上線

今日，OpenAI創(chuàng)始人兼CEO薩姆·奧爾特曼通過社交平臺宣布，新一代語言模型GPT-4.5將于未來幾天內(nèi)向ChatGPT高級訂閱用戶開放。該服務(wù)將優(yōu)先覆蓋每月支付20美元（約合1…

AI
2025年3月5日
商業(yè)

OpenAI勁敵Anthropic完成35億美E輪融資，估值飆至615億美元

據(jù)外媒報(bào)道，被視為OpenAI最強(qiáng)競爭對手的?Anthropic?宣布完成?35億美元（約255.11億元人民幣）E輪融資?，投后估值攀升至?615億美元（約4482.57億元人民…

商業(yè)頭條
2025年3月4日
新聞

OpenAI創(chuàng)始人山姆·奧特曼宣布擁有“AGI寶寶” “男男生子” 或成現(xiàn)實(shí)

近日，OpenAI創(chuàng)始人山姆·奧特曼（Sam Altman）在社交媒體上宣布，他與同性伴侶迎來了他們的第一個孩子。這一消息迅速引發(fā)了廣泛關(guān)注，尤其是關(guān)于這個孩子是否通過“雙雄繁殖”…

好奇寶寶
2025年2月28日
AI

OpenAI正式發(fā)布GPT-4.5 號稱迄今最大、最貴模型

2月28日，OpenAI舉辦了一場直播活動，正式發(fā)布最新大模型GPT-4.5，將分階段向付費(fèi)用戶開放。 ChatGPT Pro用戶今天開始就能在網(wǎng)頁版、手機(jī)版和桌面版使用GPT-4…

若安丶
2025年2月28日
AI

?OpenAI推出Deep Research功能，ChatGPT Plus等用戶享專屬福利

今日，OpenAI宣布將向所有ChatGPT Plus、Team、Edu和Enterprise用戶推出其強(qiáng)大的Deep Research功能。這一功能的推出，標(biāo)志著OpenAI在人…

AI
2025年2月26日
AI

ChatGPT vs Grok：誰更懂你的需求？

隨著人工智能技術(shù)的迅速發(fā)展，市場上涌現(xiàn)出多個智能對話應(yīng)用，其中ChatGPT 和 Grok 是大家重點(diǎn)關(guān)注的兩款A(yù)I聊天工具。前者由OpenAI開發(fā)，后者則是馬斯克的xAI公司推出…

AI
2025年2月22日
AI

OpenAI?GPT-4.5發(fā)布時間曝光，GPT-5五月下旬有望發(fā)布

有消息稱，微軟近日正緊鑼密鼓地為OpenAI的最新模型做準(zhǔn)備，關(guān)于GPT-4.5發(fā)布時間也被曝光。據(jù)了解，GPT-4.5預(yù)計(jì)最快將于下周與公眾見面。據(jù)可靠消息透露，微軟不僅即將推…

AI
2025年2月21日
AI

?馬斯克Grok應(yīng)用登頂美國App Store免費(fèi)榜，超越ChatGPT

據(jù)外媒報(bào)道，馬斯克旗下的人工智能公司xAI推出的Grok應(yīng)用，成功登頂美國區(qū)App Store免費(fèi)應(yīng)用排行榜，將此前占據(jù)榜首的OpenAI的ChatGPT應(yīng)用擠至其后?。據(jù)悉，x…

AI
2025年2月21日
AI

?OpenAI周活躍用戶突破4億大關(guān)，企業(yè)業(yè)務(wù)迅猛增長

據(jù)外媒報(bào)道，截至本月，OpenAI周活躍用戶數(shù)量已激增至4億，相比去年12月的3億用戶，增長了33%?。這一里程碑式的成就標(biāo)志著OpenAI旗下明星產(chǎn)品ChatGPT的廣泛認(rèn)可和迅…

AI
2025年2月21日
新聞

OpenAI將放大招 GPT-5免費(fèi)無限使用

今日，OpenAI首席執(zhí)行官薩姆·奧爾特曼公布了一個令人震驚的消息：OpenAI將在未來幾個月內(nèi)推出GPT-5模型，并免費(fèi)無限使用。在之前將先發(fā)布GPT-4.5模型，代號為“Ori…

AI
2025年2月13日
商業(yè)

DeepSeek估值飆升，或達(dá)OpenAI估值一半

近日，據(jù)彭博社報(bào)道，一家名為DeepSeek的初創(chuàng)公司，其估值在短時間內(nèi)出現(xiàn)了驚人的增長，最高或已達(dá)到1500億美元，這一數(shù)字幾乎達(dá)到了另一AI巨頭OpenAI估值的一半。此消息一…

商業(yè)頭條
2025年2月12日
AI

OpenAI CEO阿爾特曼：AI成本驟降，每年成本降至十分之一

近日，OpenAI的首席執(zhí)行官山姆·阿爾特曼（Sam Altman）在一篇博文中，揭示了人工智能發(fā)展的迅猛勢頭及其對社會經(jīng)濟(jì)的深遠(yuǎn)影響。阿爾特曼指出，AI模型的智能程度與其訓(xùn)練和…

AI
2025年2月12日
AI

奧特曼盛贊DeepSeek：AI實(shí)力可媲美ChatGPT

近日，美國開放人工智能研究中心（OpenAI）的首席執(zhí)行官奧特曼在啟程前往巴黎人工智能行動峰會前，對一家中國AI初創(chuàng)公司——深度求索（DeepSeek）給予了高度評價。據(jù)德新社11…

AI
2025年2月12日
新聞

OpenAI、谷歌等巨頭聯(lián)手成立ROOST，為AI時代兒童安全保駕護(hù)航

近日，Roblox、Discord、OpenAI和谷歌四大科技巨頭宣布聯(lián)合成立一個名為ROOST的非營利組織，旨在構(gòu)建一個可擴(kuò)展且互聯(lián)互通的在線安全基礎(chǔ)設(shè)施，以應(yīng)對AI時代帶來的挑…

net
2025年2月11日
新聞

傳聞馬斯克豪擲974億美元欲購OpenAI，阿爾特曼婉拒并反提收購?fù)铺?

近日，據(jù)外媒從多方消息源處獲悉，科技巨頭埃隆·馬斯克向人工智能領(lǐng)域的重要力量OpenAI拋出了橄欖枝，提出以高達(dá)974億美元（約合7118.43億元人民幣）的價格收購其運(yùn)營資產(chǎn)。 …

NEWS
2025年2月11日

發(fā)表回復(fù)

登錄后才能評論

OpenAI推出SimpleQA基準(zhǔn)，專治AI模型“胡言亂語”

相關(guān)推薦

發(fā)表回復(fù)