
昨日,中科曙光國家先進計算產業創新中心有限公司發布消息,海光信息技術團隊成功完成DeepSeek V3和R1模型與海光DCU(深度計算單元)的國產化適配工作,且相關模型已正式上線。
這一成果意義非凡。DeepSeek V3和R1模型基于Transformer架構,采用Multi – Head Latent Attention(MLA)和DeepSeek MoE兩大核心技術。MLA能減少KV緩存,大幅降低內存占用,提升推理效率;DeepSeek MoE則借助輔助損失實現專家負載的智能平衡,優化模型性能。
對于廣大用戶而言,如今在“光合開發者社區”的“光源”板塊,或者登錄光源官網搜索“DeepSeek”,便可訪問、下載相關模型,并基于DCU平臺進行部署和使用。
值得一提的是,DCU是海光信息推出的高性能GPGPU架構AI加速卡,為行業客戶提供自主可控的全精度通用AI加速計算方案,目前已在科教、金融等多領域實現規模化應用。此次DeepSeek V3和R1模型與海光DCU的適配上線,有望進一步推動相關領域的發展,為國產算力和人工智能應用注入新動力。
原創文章,作者:AI,如若轉載,請注明出處:http://www.bdzhitong.com/article/704768.html