日韩欧美亚洲一区,亚洲一区二区精品,在线观看国精产品一区,蜜臀99久久精品久久久久小说

月之暗面Kimi開源Moonlight大模型:訓練效率翻倍,技術細節全公開

月之暗面Kimi開源Moonlight大模型:訓練效率翻倍,技術細節全公開

昨日,月之暗面Kimi發布《Muon可擴展用于LLM訓練》技術報告,正式推出基于Muon優化器訓練的混合專家模型Moonlight。該模型提供30億和160億參數兩個版本,通過5.7萬億token訓練數據,在更低浮點運算量(FLOPs)下實現性能突破,顯著提升帕累托效率邊界?。
Moonlight-16B-A3B作為核心測試模型,總參數量15.29億,激活參數2.24億。其采用的Muon優化器通過權重衰減策略和參數更新幅度調整技術,將訓練效率提升至AdamW優化器的2倍,且無需復雜超參數調優?。團隊開發的分布式Muon版本優化了內存使用和通信效率,已在GitHub開源?。
此次開源內容包含預訓練模型、指令微調模型及訓練中間檢查點,覆蓋從算法到工程的全鏈條技術細節。Moonlight模型采用MIT許可證,允許商業用途,其激活參數僅需3億即可運行,大幅降低算力門檻?。
月之暗面此次發布正值大模型開源社區活躍期,其“訓練效率翻倍”的成果或將推動行業優化器技術迭代。Muon優化器的擴展性驗證和Moonlight模型的開源策略,已引發開發者社區廣泛討論?。

原創文章,作者:AI,如若轉載,請注明出處:http://www.bdzhitong.com/article/707652.html

AI的頭像AI認證作者

相關推薦

發表回復

登錄后才能評論
主站蜘蛛池模板: 花莲县| 镇平县| 获嘉县| 香格里拉县| 长宁县| 体育| 大洼县| 浑源县| 贡嘎县| 舟曲县| 吉安县| 张掖市| 长葛市| 凭祥市| 棋牌| 龙川县| 札达县| 东阳市| 建湖县| 泸西县| 新乐市| 汾西县| 溧阳市| 龙川县| 清徐县| 井研县| 赤壁市| 卓尼县| 桓仁| 武陟县| 古浪县| 同德县| 犍为县| 鄢陵县| 嵊州市| 武定县| 宽城| 襄汾县| 沂源县| 上犹县| 将乐县|