
昨日,月之暗面Kimi發布《Muon可擴展用于LLM訓練》技術報告,正式推出基于Muon優化器訓練的混合專家模型Moonlight。該模型提供30億和160億參數兩個版本,通過5.7萬億token訓練數據,在更低浮點運算量(FLOPs)下實現性能突破,顯著提升帕累托效率邊界?。
Moonlight-16B-A3B作為核心測試模型,總參數量15.29億,激活參數2.24億。其采用的Muon優化器通過權重衰減策略和參數更新幅度調整技術,將訓練效率提升至AdamW優化器的2倍,且無需復雜超參數調優?。團隊開發的分布式Muon版本優化了內存使用和通信效率,已在GitHub開源?。
此次開源內容包含預訓練模型、指令微調模型及訓練中間檢查點,覆蓋從算法到工程的全鏈條技術細節。Moonlight模型采用MIT許可證,允許商業用途,其激活參數僅需3億即可運行,大幅降低算力門檻?。
月之暗面此次發布正值大模型開源社區活躍期,其“訓練效率翻倍”的成果或將推動行業優化器技術迭代。Muon優化器的擴展性驗證和Moonlight模型的開源策略,已引發開發者社區廣泛討論?。
原創文章,作者:AI,如若轉載,請注明出處:http://www.bdzhitong.com/article/707652.html