昨日,寒武紀發布第三代云端AI芯片思元370、基于思元370的兩款加速卡MLU370-S4和MLU370-X4、全新升級的Cambricon Neuware軟件棧。
基于7nm制程工藝,思元370是寒武紀首款采用chiplet(芯粒)技術的AI芯片,集成了390億個晶體管,最大算力高達256TOPS(INT8),是寒武紀第二代產品思元270算力的2倍。憑借寒武紀最新智能芯片架構MLUarch03,相較于峰值算力的提升,思元370實測性能表現更為優秀:以ResNet-50為例,MLU370-S4加速卡(半高半長)實測性能為同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全長)實測性能與同尺寸主流GPU相當,能效則大幅領先。
思元370也是國內第一顆支持LPDDR5內存的云端AI芯片,內存帶寬是上一代產品的3倍,訪存能效達GDDR6的1.5倍。
同時,寒武紀全新升級了Cambricon Neuware軟件棧,新增推理加速引擎MagicMind,實現訓推一體,顯著提升了開發部署的效率,降低用戶的學習成本、開發成本和運營成本。
新一代智能處理器架構MLUarch03
寒武紀智能處理器架構MLUarch03,擁有新一代張量運算單元,內置Supercharger模塊大幅提升各類卷積效率;采用全新的多算子硬件融合技術,在軟件融合的基礎上大幅減少算子執行時間;片上通訊帶寬是上一代MLUarch02的2倍、片上共享緩存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完備,更高效且向前兼容。
有7nm先進工藝和全新MLUarch03架構的加持,思元370芯片算力最高可達256TOPS(INT8),是上一代產品思元270算力的2倍。相較于峰值算力的提升,思元370在實測性能和能效方面的表現更為優秀:以ResNet-50為例,MLU370-S4加速卡(半高半長)實測性能為同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全長)實測性能與同尺寸主流GPU相當,能效則大幅領先。
原創文章,作者:若安丶,如若轉載,請注明出處:http://www.bdzhitong.com/article/540852.html