OpenAI 的“草莓”模型正式發(fā)布,名為“o1”,這是一系列新的人工智能模型,旨在花更多時間思考后再做出回答。

與以前的科學(xué)、編碼和數(shù)學(xué)模型相比,o1 模型可以推理復(fù)雜的任務(wù),解決更難的問題。
就像人類一樣,o1 系列模型會用更多時間思考問題,然后再做出回答。通過訓(xùn)練,這些模型學(xué)會了完善思考過程、嘗試不同的策略,并認(rèn)識到自己的錯誤。
據(jù) OpenAI 介紹,在測試中,o1 的下一個更新模型在物理、化學(xué)和生物等具有挑戰(zhàn)性的基準(zhǔn)任務(wù)上的表現(xiàn)達(dá)到了博士生的水平。
他們還發(fā)現(xiàn),這一模型在數(shù)學(xué)和編碼方面表現(xiàn)出色。在國際數(shù)學(xué)奧林匹克(IMO)的資格考試中,GPT-4o 只正確解決了 13% 的問題,而 o1 模型的得分率則高達(dá) 83%。
此外,o1 模型的編碼能力也在競賽中得到了評估,在 Codeforces 競賽中達(dá)到了第 89 個百分點。
作為早期模型,o1 還不具備 ChatGPT 的許多實用功能,如瀏覽網(wǎng)頁信息、上傳文件和圖片等。對于許多常見情況,GPT-4o 在短期內(nèi)會有更強(qiáng)的功能。
但 OpenAI 表示,o1 模型更擅長解決科學(xué)、編碼、數(shù)學(xué)和類似領(lǐng)域的復(fù)雜問題。例如,醫(yī)療保健研究人員可以使用 o1 為細(xì)胞測序數(shù)據(jù)添加注釋,物理學(xué)家可以使用 o1 生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式,所有領(lǐng)域的開發(fā)人員都可以使用 o1 構(gòu)建和執(zhí)行多步驟工作流。
以下三個視頻 demo 展示了o1 模型在解決復(fù)雜推理問題方面的強(qiáng)大能力。
此外,在安全性方面,OpenAI 提出了一種新的安全訓(xùn)練方法,利用 o1 模型的推理能力,使它們遵守安全和對齊準(zhǔn)則。通過在上下文中對安全規(guī)則進(jìn)行推理,o1 模型可以更有效地應(yīng)用這些規(guī)則。
衡量安全性的方法之一,是測試當(dāng)用戶試圖繞過安全規(guī)則(即“越獄”)時,模型能在多大程度上繼續(xù)遵循其安全規(guī)則。在最難的越獄測試中,GPT-4o 得分為 22 分(0-100 分),而 o1-preview 得分為 84 分。
此外,為了向開發(fā)人員提供更高效的解決方案,OpenAI 還同時發(fā)布了 o1-mini,這是一種速度更快、成本更低的推理模型,在編碼方面尤為有效。作為一個較小的模型,o1-mini 比 o1-preview 便宜 80%,因此對于需要推理但不需要廣泛世界知識的應(yīng)用程序來說,它是一個經(jīng)濟(jì)高效的模型。
目前,o1 的預(yù)覽版本和 o1-mini 已經(jīng)在 ChatGPT(Plus 和 Team)和 API 上線。未來,o1-mini 將提供給所有 ChatGPT 免費用戶使用。
原創(chuàng)文章,作者:潮玩君,如若轉(zhuǎn)載,請注明出處:http://www.bdzhitong.com/article/680293.html