2024年11月,昆侖萬維「天工大模型4.0」o1版和4o版正式公開發布,并啟動邀請測試。
今天,在2025年1月6日,我們正式將「天工大模型4.0」o1版和4o版同步上線,并全量登陸天工網頁和APP,人人免費可用!
作為國內第一款中文邏輯推理能力的o1模型(Skywork o1),不僅包含上線即開源的模型,還有兩款性能更強的專用版本。經過全方位的技術棧升級和模型優化,由昆侖萬維自研的Skywork o1系列能熟練處理各種推理挑戰,包括數學、代碼、邏輯、常識、倫理決策等問題。
「天工大模型4.0」4o版(Skywork 4o)是由昆侖萬維自研的多模態模型,其賦能的實時語音對話助手Skyo,則是一個具備情感表達能力、快速響應能力、多語言流暢切換的智能語音對話工具,為用戶帶來溫暖貼心、流暢實時的對話體驗。
當前,這兩款模型已正式登陸昆侖萬維旗下天工web與APP,全面向用戶開放。

天工AI官方地址:https://www.tiangong.cn/ (進入后可直接體驗o1版)
01.
Skywork o1為用戶帶來更極致的推理能力,正式上線天工web
Skywork o1在邏輯推理任務上性能的大幅提升,得益于天工三階段自研的訓練方案:
推理反思能力訓練:Skywork o1通過自研的多智能體體系構造高質量的分步思考,反思和驗證數據。通過高質量的、多樣性的長思考數據對基座模型進行繼續預訓練和監督微調。此外,我們在版本迭代中通過大規模使用自蒸餾和拒絕采樣,顯著提升了模型的訓練效率和邏輯推理能力。
推理能力強化學習:Skywork o1團隊研發了最新的適配分步推理強化的Skywork o1 Process Reward Model(PRM)。實驗證明Skywork-PRM可有效的捕捉到復雜推理任務中間步驟和思考步驟對最終答案的影響。結合自研分步推理強化算法進一步加強模型推理和思考能力。
推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實現和公開。Q*算法落地也大大提升了模型線上推理能力。
相較于之前的版本,今天正式上線的Skywork o1進行了重磅升級,主要體現在以下三個方面:
1.PRM優化
通過采用高效的數據篩選策略,僅依賴開源偏序數據集,Skywork-Reward-27B的獎勵模型(RM)在RewardBench上超過此前排名第一的Nvidia-340B模型,并獲得了RewardBench官方的認可轉載。此外,對獎勵模型的優化函數進行了詳盡的增廣實驗,結果發現Bradley-Terry損失函數在大多數場景中具有良好的適配性。

圖1丨天工自研Skywork-Reward(論文鏈接:https://arxiv.org/abs/2410.18451)
PRM應用場景擴充:相比上個版本主要側重于數學與代碼, 新版PRM增加了對更多常見推理領域的支持,例如常識推理、邏輯陷阱、倫理決策等。除了推理領域外,也針對通用領域(寫作、聊天),以及多輪對話構造相應訓練數據,提供了全場景的覆蓋。
PRM模塊化評估能力:Skywork-PRM側重優化了對o1風格思維鏈的試錯與反思驗證能力的支持,細粒度地為強化學習與搜索提供了更準確的獎勵信號。
2.基于Q*算法的推理系統優化
Q*是一種通過借鑒人類大腦中“system 2”的思考方式,我們將大型語言模型(LLMs)的多步推理視作一個啟發式搜索問題,并提出Q*線上推理框架配合模型在線思考,用以在推斷過程中進行審慎規劃,從而指導 LLM 的解碼過程。具體來說,Q*通過學習一個 Q-value 模型作為啟發式函數來估計預期的未來回報,從而能夠在不針對當前任務微調 LLM 的情況下,有效地指導 LLM 選擇最有前景的下一步推理。基于天工自研的Q*線上推理算法配合模型在線思考,不僅避免了大量的計算開銷,也降低了在其他任務上性能退化的風險。

圖2丨天工自研Q*(論文鏈接:https://arxiv.org/abs/2406.14283)
模塊化的樹形結構推理:通過高質量的、多樣性的長思考數據對基座模型的預訓練和監督微調,Skywork o1已經具備了結構化輸出回答的能力,即通過對推理過程的統籌規劃進而對模型回答進行自動化分層輸出,并且在推理過程中穿插反思和驗證。因此,考慮到o1-style的回答通常在回復長度上遠超傳統模型,現有planning方法中以sentence作為step的劃分方式表現得過于低效且容易產生over-thinking的現象。為此,Skywork o1 采用以 module 作為 step 的規劃方式,在一定程度上提升了規劃效率,同時讓 PRM 能夠看到更完整的模塊化回答,從而做出更準確的判斷并指導 LLM 進行推理。
自適應搜索資源分配:現有的已開源o1-style模型在處理簡單問題上往往存在over-thinking的現象,把簡單的問題復雜化并且反復驗證,造成計算資源的浪費。Skywork o1采用了自適應分配搜索資源的方式,在搜索開始之前對用戶query進行難度預估,自適應地控制搜索樹的寬度和深度,在簡單的問題上做到快速給出回答的效果,在復雜題目上做到反復多輪驗證從而提高回答的準確率。
3.創新性提出Step-DAPO算法,力爭解決訓練效果不穩定、計算資源開銷過大等問題
針對現有RLHF算法在落地過程中存在獎勵信號稀疏,訓練效果不穩定,計算資源開銷過大等問題,昆侖萬維天工團隊提出了一種新的step-level離線強化學習算法,DAPO 首先使用一個評估函數來預測每一步的推理準確性,從而為優化生成策略提供密集的信號,隨后DAPO 會根據每個狀態-動作對的優勢來調整策略比率,從而優化推理步驟的生成。此外,DAPO 中的 Actor 和 Critic 組件分別獨立訓練,避免了在類似 PPO 算法常見的“Actor-Critic”共同訓練不穩定問題。

圖3丨天工自研Step-DAPO(論文鏈接:https://arxiv.org/abs/2412.18279)
更多關于Skywork o1的技術報告將陸續發布,敬請期待。
全面升級且正式上線的Skywork o1 Lite / Skywork o1 Preview大幅提升了數學、代碼和邏輯推理能力。我們對其進行標準數學基準測試(包括GSM8k、MATH、Gaokao、OlympiadBench、AIME-24以及AMC-23),以及在HumanEval、MBPP、LiveCodeBench及BigCodeBench這四項代碼基準測試上評估了Skywork o1的代碼能力。

表1丨Skywork o1在數學基準評測上的表現

表2丨Skywork o1在代碼基準評測上的表現
*備注:對于BigCodeBench,我們采用它的instruct子集進行測試
可以看出,在數學、代碼基準測試中,Skywork o1的能力表現逼近o1-mini,顯著優于行業常規通用大模型。
與此同時,針對邏輯推理測試,我們專門創建了一個私有評估集用于更好的評估類o1模型的思考,規劃以及反思等能力。我們私有評估集包含20種問題類型,每種問題類型包含30條不同難度或約束條件的問題樣本(注:我們用于此項評測的邏輯推理數據集不久后將隨Skywork o1技術報告一并開源)。
評估集中所有問題類型和樣本都經過挑選及人工校驗,通常來說需要模型具備較強類人邏輯推理能力才能解決。經驗證,目前評估集中大多數問題哪怕是對于業界 Tier 1級的常規通用大模型(例如GPT-4o或者Claude-sonnet)都是極具挑戰性的。
我們評估集中若干個典型問題類型:
算24:給定若干個數字和目標,如何在一定約束條件的前提下使用給定的數字計算得到目標。
條件邏輯:這基于已知條件進行邏輯推理的約束滿足問題。解題目標是通過分析這些約束條件之間的關系(互斥性或數量等),找出滿足所有約束的唯一解。
密碼:給定一個用某種方法加密的原文到密文樣的樣例,推測一個新的密文所對應的原文。
最小和:已知若干個整數數的乘積,求這些整數所能達到的最小和。
數獨:9×9的數字框,要求每一行、每一列以及每個3×3的小框中的9個數字都互不相同。
一個問題類型涵蓋該問題的多個變種。以“算24”為例,該問題類型涵蓋的變種如下:
經典:如何用5, 5, 5, 1通過四則運算得到24。
變種1(目標變化):如何用4, 3, 5, 7通過四則運算得到36。
變種2(額外約束):如何用4, 3, 5, 7通過四則運算得到36,不能改變數字順序也不能使用括號。
變種3(額外約束):用4, 5, 10通過四則運算得到24,要求三個數中有一個數要使用兩次。
變種4(可自由使用數字):如何用8個8得到1000。
下表中我們列舉了在我們專有評測集上Skywork o1對比主流大模型的性能差異。同樣的,Skywork o1的能力著優于常規通用大模型,表現僅次于o1-mini。

表3丨Skywork o1在邏輯推理評測上的表現
*備注:由于API超時的原因,OpenAI的o1正式版無有效評測結果。
那么接下來,我們快速來看下Skywork o1在它擅長的數學、代碼和邏輯推理上的真實表現。首先,一道樣本量接近40的“計算標準差”問題來考考它,這次的樣本量對于o1來說也并不算是一個“輕松”的計算過程。

經過5分鐘的思考和總結,非常絲滑,Skywork o1給出了正確答案,不僅先展現了計算過程,還又給出了總結版的六大計算步驟。接下來,再用一個很容易出錯的“數獨”題試試它的推理能力。

僅用時45秒,Skywork o1模擬著人的思考方式,給出了最終答案,同時還自我驗證了一遍邏輯推理過程,以保證無遺漏。此外,我們輸入一個長文本推理問題測試下它的邏輯能力和回答效果。

不出所料,即使面對有干擾性的問題,Skywork o1也絲毫沒有亂了陣腳,有序地展示了思考過程和推理邏輯,并給出了正確答案。
02.
Skywork 4o賦能的Skyo,已全面登陸天工APP

圖4丨天工APP中Skyo入口與界面(來源:昆侖萬維)
通常情況下,用戶在使用智能語音對話系統時,有兩個因素將會影響使用體驗:響應是否夠快、回復是否自然流暢。這兩點決定了語音對話 AI 的體驗有多逼近真人。
傳統的語音助手多采用語音識別,內容理解與語音合成三階段的級聯方案。盡管被工業界廣泛應用,但系統中多個模型模塊串聯,使得模塊間信息傳遞損失,模型有時不能準確理解用戶輸入語音的真實意圖。在對系統進行優化時,還存在模塊之間相互制約影響,最終導致牽一發而動全身的情況,使得效果和響應速度優化都不夠理想。最終導致傳統方案的響應延遲優化困難、回復自然度有限,和語音 AI 對話更像在用指令操縱機器、而不是和真人交流。
為了達成“像和真人一樣說話聊天”的效果,Skyo 堅持采用更先進的創新路線,通過多模態 LLM 端到端建模,來解決這個難題。

圖5丨Skyo所采用的語音對話框架(來源:昆侖萬維)
得益于上述團隊自研的多模態端到端訓練方案,Skyo 真正突破了傳統方案的效果邊界,整個框架可以分為以下流程:
1.語音輸入(Speech Query):用戶通過語音說出問題或請求,這些語音內容會進入系統,作為初始的輸入信號。
2.語音編碼 (Speech Encoder):系統中的語音編碼器(Speech Encoder)會將語音轉化為具有語義特征的表征向量。
3.適配轉換(Adapter):接著,語義表征通過適配器模塊映射到LLM可理解的輸入空間,確保它能被核心的智能模型(LLM)理解,實現語音到文本語義的無縫轉換。
4.大語言模型(LLM):經過適配的語音表征輸入到大語言模型中,LLM通過多模態處理能力生成響應完成任務。
5.語音輸出(Speech Token):框架支持語音令牌(Speech Token)的直接輸出,從而實現了跨模態的端到端輸出。進一步通過擴散模型,系統將speech token重建為真實的語音回復。
通過這個端到端框架,系統能夠像人類一樣,聽懂用戶的語音,提供自然、流暢的互動體驗。該端到端框架還具有以下幾個鮮明的特性:
1.極低響應延遲,實時打斷:得益于端到端建模,Skyo 能根據語義判斷用戶是否已完整表達語義,再加上極致的延遲優化,Skyo 回復速度幾乎與真人無異。
2.語音多維度理解:除了能夠轉錄語音中的文本內容,Skyo 還能理解輸入語音中的語速、語調、情感等信息,從而做到回應用戶的情緒,給出貼心自然的情感化回復。
3.擬真人的自然回復:回復內容方面,通過自然聊天感控制技術,Skyo 的回復有了“人情味”;聲音表現力方面,Skyo 用超過百萬小時的語音數據進行大規模預訓練,模型學習到了真實世界里各種場景、不同風格的說話表達方式。結合多模態理解能力,Skyo 生成的回復聲音可以適配用戶的情緒、對話上下文,回復聲音的表現力多變且擬真。
基于這些成果,Skyo 的上線是我們在智能語音交互技術方向,從“操縱機器”邁向“和真人交流”的重要一步。
為了達到這樣流暢且擬人的交互效果,昆侖萬維堅持自主研發Skyo,研發團隊擁有大量語音數據積累,并充分利用深厚的語音和音樂大模型的技術經驗,搭建端到端自研先進鏈路,以保障Skyo能在多任務下表現出色,尤其在高強度多輪對話交互中仍能保持穩定性和流暢性。
Skyo研發團隊通過構建大規模高質量、場景化、情感化和多樣化的語音對話語料庫,并基于先進的深度學習和大語言模型技術對其進行預訓練與微調,顯著增強了模型在對話場景中的上下文感知能力、情感理解能力和知識推理能力,從而提升其整體的對話連貫性、邏輯一致性及智能化水平。
03.
久久為功,堅定邁向AGI時代
我們相信,AGI 的實現將是科技創新的一大飛躍,它將極大地擴展我們的能力邊界,釋放人類潛能。
2024年初,昆侖萬維創始人周亞輝提出昆侖萬維的使命是實現通用人工智能,讓每個人更好地塑造和表達自我。過去兩年,公司已完成“算力基礎設施—大模型算法—AI應用”全產業鏈布局,并構建起由AI大模型、AI搜索、AI游戲、AI音樂、AI 社交、AI短劇組成的多元AI業務矩陣。
我們堅信,所有在模型與產品上進化的每一小步,都是邁向實現通用人工智能的一大步。
鑄劍啟新程,昂首向未來。昆侖萬維仍會堅持以技術為底座,以產品為先鋒,給用戶帶來更好的使用體驗,為推動人工智能技術的發展和應用做出貢獻,立志成為一家小而大美的國際化人工智能企業。
歡迎所有用戶登陸天工web或下載天工APP體驗最新「天工大模型4.0」o1版和4o版。
本文轉載自:,不代表科技訊之立場。原文鏈接:http://show.wolaioa.com.cn/preview/WFVpGoo00o2ayJFyX6AU8lKcbg.html