
近日,OpenAI宣布推出一個新的基準(zhǔn)測試工具SimpleQA,旨在衡量語言模型在回答簡短事實(shí)尋求問題時的準(zhǔn)確性。這一舉措針對的是AI領(lǐng)域中的一個長期難題:如何訓(xùn)練模型生成事實(shí)正確的回答。
當(dāng)前的語言模型在生成回答時,有時會產(chǎn)生錯誤或未經(jīng)證實(shí)的答案,這種現(xiàn)象被稱為“幻覺”。為了提高模型的可靠性,OpenAI設(shè)計(jì)了SimpleQA這一基準(zhǔn)測試。SimpleQA的數(shù)據(jù)集具備高正確性、多樣性和前沿挑戰(zhàn)性等特點(diǎn)。問題的參考答案由兩名獨(dú)立的AI訓(xùn)練師驗(yàn)證,以確保評分的公正性。同時,SimpleQA涵蓋廣泛主題,從科學(xué)技術(shù)到電視節(jié)目與電子游戲等應(yīng)有盡有,以測試模型在不同領(lǐng)域的知識掌握情況。
與早期的基準(zhǔn)測試相比,SimpleQA更具挑戰(zhàn)性。例如,在針對前沿模型GPT-4o的測試中,其得分不足40%。此外,SimpleQA的問題與答案簡潔明了,使操作快速高效,并可通過OpenAI API等進(jìn)行快速評分。包含4326道問題的SimpleQA在評估中具有較低的方差,能夠提供穩(wěn)定的測試結(jié)果。
OpenAI表示,SimpleQA是一個簡單但具有挑戰(zhàn)性的基準(zhǔn),用于評估前沿模型的事實(shí)準(zhǔn)確性。然而,SimpleQA的主要限制在于其范圍有限,只在短查詢的受限設(shè)置中測量事實(shí)準(zhǔn)確性。因此,模型在短回答中表現(xiàn)出的事實(shí)性是否與其在長篇、多事實(shí)內(nèi)容中的表現(xiàn)相關(guān),仍是一個懸而未決的研究課題。
OpenAI希望通過開源SimpleQA,進(jìn)一步推動AI研究的發(fā)展,使模型更加可信并富有可靠性。這一舉措有望為AI領(lǐng)域的發(fā)展注入新的動力,促進(jìn)更加準(zhǔn)確、可靠的AI模型的誕生。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://www.bdzhitong.com/article/690044.html