
今日,人工智能領域的創新企業DeepSeek宣布正式推出NSA(Native Sparse Attention)機制。這一機制專為超快速長上下文訓練與推理而設計,旨在通過硬件對齊和原生可訓練的稀疏注意力機制,為用戶帶來前所未有的體驗。
NSA的核心組件包括動態分層稀疏策略、粗粒度token壓縮以及細粒度token選擇。這些組件共同協作,使得NSA能夠在優化現代硬件設計的同時,實現推理加速和預訓練成本的降低,而且這一切都是在不犧牲性能的前提下完成的。
DeepSeek官方表示,NSA機制在通用基準、長上下文任務和基于指令的推理上,其表現與全注意力模型相當甚至更加優秀。這意味著,用戶在享受更快推理速度和更低成本的同時,也能獲得與頂尖模型相媲美的性能表現。
原創文章,作者:AI,如若轉載,請注明出處:http://www.bdzhitong.com/article/706746.html