日韩欧美亚洲一区,亚洲一区二区精品,在线观看国精产品一区,蜜臀99久久精品久久久久小说

中國信通院發布“方升”大模型基準測試系列成果

隨著國內外大模型技術和能力的提升,大模型評測也在產學研各界已得到蓬勃的發展。通過設計合理的任務、數據集和指標,對大模型進行基準測試,是當前定量評價大模型技術水平的主要方式。大模型基準測試不僅可以評估當前技術水平,指引未來學術研究,牽引產品研發、支撐行業應用,還可以輔助監管治理,也有利于增進社會公眾對人工智能的正確認知,是促進人工智能技術產業發展的重要抓手。但隨著大模型能力的快速提升,產業化落地應用逐漸增多,對大模型基準測試提出了更高要求,亟需創新性的評測體系,高質量的測試數據集,自動化的評測方法,科學、公正、透明的大模型基準測試環境。

2023年至今,在工信部人工智能關鍵技術和應用評測實驗室和人工智能產業發展聯盟(AIIA)評估工作組的指導下,中國信息通信研究院已對產學研各界已發布的500+大模型基準測試數據集和方法進行梳理和深入剖析,全面吸收產學研各界的優秀成果,打造全面和堅實的“方升”大模型基準測試體系。在大模型測試標準方面,推動形成5項大模型測試標準,包括1項ITU國際標準,1項行業標準和3項團體標準。在測試數據和平臺方面,構建了動態測試數據庫,積累測試數據集260個,共計550萬條,研發自適應動態測試系統和測試數據自動生成工具。在大模型監控測試方面,2024年以來已對國內外開閉源大模型開展4輪能力監測,形成了較為成熟的評測方法,評測結果的科學性和公正性已有一定保證。

2024年11月12日,中國信通院在北京召開的中國人工智能產業發展聯盟(AIIA)第十三次全體會議上,發布“方升”大模型基準測試體系階段性工作成果。

解讀“方升”大模型基準測試體系測試結果。在中國信通院最新輪次測試中,共測試了64個大語言模型。其中,國內大模型46個,國外大模型18個,包括GPT-4o、OpenAI o1、百度文心一言、騰訊混元、螞蟻百靈大模型等閉源商業大模型29個,以及Qwen2.5、LlaMA3等開源大模型35個。根據2024年10月的測試結果,國內大模型能力發展迅速,但在復雜推理、指令遵循等場景上仍存在短板。

聯合中國信息通信研究院、北京智源人工智能研究院、中國移動、中國電信、中國聯通、國家電網、南方電網、中國中車集團、煤炭科學研究總院、廣州數據集團等共同發布大模型基準測試標準《大語言模型基準測試體系框架及總體要求》。為推進我國在人工智能領域的標準化建設,中國人工智能產業發展聯盟、中國信息通信研究院、人工智能關鍵技術和應用評測工業和信息化部重點實驗室聯合國內重點科研機構、央國企和大模型企業共同編制該標準。其規定了大語言模型基準測試的體系框架,包括大語言模型的基準測試指標、測試數據集、測試流程和測試工具。經過近一年時間多輪的測試實踐,標準的科學性和有效性已得到充分驗證。

中國信通院發布“方升”大模型基準測試系列成果

同時,會上也公開了“方升”大模型基準測試數據集,以提升基準測試的透明度。該測試數據集包含15000條測試數據集,覆蓋理解、生成、推理、數學、知識、學科、代碼、多語言、角色扮演、工具使用、指令遵循、可靠性、魯棒性、心智和情商15個測試維度,通過數據集來源、語言種類、測試維度、題目難度、測試次數等多個標簽對測試數據進行體系化管理。

聯合百度、騰訊、華為、阿里、訊飛、智譜、螞蟻、火山引擎、商湯科技、360、零一萬物、階躍星辰、MiniMax等大模型廠商發布《構建科學、公正、透明的大模型基準測試生態倡議書》。目前,產學研各界陸續發布了一系列評測數據集、評測框架和評測榜單,隨之出現了一些基于基準測試的不良現象,對大模型技術的快速落地帶來了影響。因此,經人工智能產業發展聯盟指導,中國信息通信研究院聯合國內主流人工智能企業,共同呼吁盡快完善科學、公正、透明的大模型基準測試生態,促進整個基準測試行業的健康、可持續發展。

中國信通院發布“方升”大模型基準測試系列成果

當前,中國信通院已形成包括測試準備、測試執行和測試反饋的大模型測試流程。在測試準備階段,與參與測試的大模型企業對測試方案和測試數據集進行充分研討,確保測試過程的科學性和有效性。在測試執行階段,采用自適應動態測試技術,解決評測數據集難管理、大模型測試“刷榜”等問題,高效、精準挖掘大模型缺陷。在測試反饋階段,通過測試報告將測試結果、模型優劣分析,BadCase和改進建議等及時反饋給參測大模型企業。

當前,大模型基準測試仍存在諸多開放性的問題,需要產學研各界緊密合作。中國信息通信研究院將持續加強大模型評測技術研發投入,多措并舉加強評測體系的推廣應用,不斷提升大模型評測公信力和權威性,為前沿人工智能技術和賦能新型工業化提供有力支撐。歡迎成為“方升”大模型基準測試體系合作伙伴,共同建設科學、公正大模型基準測試體系和生態,為大模型行業健康有序發展提供有力支撐。

本文轉載自:,不代表科技訊之立場。原文鏈接:https://cn.chinadaily.com.cn/a/202411/18/WS673add0aa310b59111da3f4b.html

陳晨陳晨管理團隊

相關推薦

發表回復

登錄后才能評論
主站蜘蛛池模板: 鹤庆县| 合水县| 鹤壁市| 永吉县| 印江| 泸定县| 百色市| 柳州市| 湄潭县| 南昌市| 军事| 廉江市| 尉犁县| 方山县| 云南省| 和林格尔县| 靖边县| 彩票| 准格尔旗| 姜堰市| 舟山市| 阿克陶县| 北宁市| 利津县| 武强县| 璧山县| 许昌县| 安平县| 鹤峰县| 新闻| 南靖县| 高台县| 昌邑市| 丰都县| 水富县| 玛纳斯县| 酉阳| 高雄县| 扶风县| 肥城市| 定边县|