寒武纪官方详解云端 AI 芯片思元 370:采用新一代智能处理器架构 MLUarch03

11 月 3 日消息,本日,寒武纪公布第三代云端 AI 芯片思元 370、基于思元 370 的两款加快卡 MLU370-S4 和 MLU370-X4、斩新晋级的 Cambricon Neuware 应用栈。

▲ 寒武纪第三代云端 AI 芯片思元 370

中文国际得悉,基于 7nm 制程工艺,思元 370 是寒武纪首款接纳 chiplet(芯粒)技术的 AI 芯片,集成了 390 亿个晶体管,非常大算力高达 256TOPS (INT8),是寒武纪其次代产品思元 270 算力的 2 倍。

凭借寒武纪非常新智能芯片架构 MLUarch03,相较于峰值算力的晋升,思元 370 实测机能阐扬更为先进:以 ResNet-50 为例,MLU370-S4 加快卡(半高半长)实测机能为同尺寸合流 GPU 的 2 倍;MLU370-X4 加快卡(全高全长)实测机能与同尺寸合流 GPU 相配,能效则大幅当先。

▲ 寒武纪 MLU370-S4(左)与 MLU370-X4 加快卡

思元 370 也是国内初次颗支撑 LPDDR5 内存的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。

同时,寒武纪斩新晋级了 Cambricon Neuware 应用栈,新增推理加快引擎 MagicMind,实现训推一体,显著晋升了开发布置的服从,低落用户的借鉴老本、开发老本和运营老本。

寒武纪公布了新一代智能处分器架构 MLUarch03,领有新一代张量运算单位,内置 Supercharger 模块大幅晋升各类卷积服从;接纳斩新的多算子硬件配备技术,在应用配备的底子上大幅削减算子实行时间;片上通信带宽是上一代 MLUarch02 的 2 倍、片上互鉴缓存容量非常高是 MLUarch02 的 2.75 倍;推出斩新 MLUv03 指令集,更完备,更高效且向前兼容。

▲ Supercharger 和多算子硬件配备技术

有 7nm 先进工艺和斩新 MLUarch03 架构的加持,思元 370 芯片算力非常高可达 256TOPS (INT8),是上一代产品思元 270 算力的 2 倍。相较于峰值算力的晋升,思元 370 在实测机能和能效方面的阐扬更为先进:以 ResNet-50 为例,MLU370-S4 加快卡(半高半长)实测机能为同尺寸合流 GPU 的 2 倍;MLU370-X4 加快卡(全高全长)实测机能与同尺寸合流 GPU 相配,能效则大幅当先。

▲ 7nm 先进工艺和斩新 MLUarch03 架构加持,

思元 370 实测机能和实测能效超情况趋势合流 GPU 产品

* 测试情况:

MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 数据:ResNet-50 来自于关联产品官网,Transformer、VGG16、YOLOv3 均取自实测非常大吞吐机能。

思元 370 所有增强了 FP16、BF16 以及 FP32 的浮点算力,同时支撑推理和练习使命。别的,思元 370 或是国内初次颗支撑 LPDDR5 的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。

▲ 寒武纪智能芯片架构演进

思元 370 接纳 chiplet(芯粒)技术,在一颗芯片中封装 2 颗 AI 计较芯粒(MLU-Die),每一个 MLU-Die 具有自力的 AI 计较单位、内存、IO 以及 MLU-Fabric 掌握和接口,通过 MLU-Fabric 包管两个 MLU-Die 间的高速通信,可以通过差别 MLU-Die 组合规格多样化的产品,为用户供应适合差别场景的高性价比 AI 芯片。

▲ 思元 370 接纳 chiplet 技术,可实现差别算力、内存和编解码器的组合

MLU-Fabric 是实现芯粒技术的环节所在。它为两个 MLU-Die 供应低功耗、低延时和超高带宽的互联,支撑芯片上实现同一的内存获取和地点映射,建立虚拟通路以免历程死锁,支撑数据判断错误产生时举行数据重传,包管数据精确性。

得益于芯粒技术,思元 370 可通过差别的组合为客户供应更多样化的产品选定,这次寒武纪公布了两款加快卡,来日还将推出更多基于思元 370 的产品。

MagicMind 是寒武纪斩新打造的推理加快引擎,也是业界首个基于 MLIR 图编译技术到达贸易化布置才气的推理引擎。MagicMind 支撑跨框架的模子分析、自动后端代码生成及优化。在 MLU、GPU、CPU 练习好的算法模子上,借助 MagicMind,用户仅需投入极少的开发老本,即可将推理交易布置到寒武纪全系列产品上,并获得颇具角逐力的机能。

MagicMind 的上风不但在于可以供应极致的机能、靠得住的精度以及干脆的编程接口,让用户可以或许专一于交易本身,无需明白芯片更多底层细节就可实现模子的疾速高效布置,MagicMind 插件化的计划还可以满足在机能或功效上追求差异化角逐力的客户需要。

▲ 推理加快引擎 MagicMind 是寒武纪应用栈 Cambricon Neuware 斩新晋级的紧张构成片面

为了加快用户端到端交易落地的速率,削减模子练习研发到模子布置之间的繁琐流程,寒武纪的同一底子应用平台 Cambricon Neuware 整合了练习和推理的一切底层应用栈,包含底层驱动、运转时库、算子库以及对象链等,将 MagicMind 和深度借鉴框架 Tensorflow,Pytorch 深度配备,实现训推一体。依靠于训推一体,在寒武纪全系列计较平台上,从云端到边沿端,用户均可以无缝地实现从模子练习到推理布置的一切流程,举行天真的练习推理交易混布和潮汐式的交易切换,可疾速相应交易变更,晋升算力行使率,低落运营老本。

在通用性方面,Cambricon Neuware 支撑 FP32、FP16 混合精度、BF16 和自顺应精度练习等多种练习方法并供应天真高效的练习对象,高机能算子库已完备笼盖视觉、语音、天然说话处分和搜索保举等典范深度借鉴使用,可满足用户关于算子笼盖率以及模子精度的需要。

斩新推理加快引擎 MagicMind 和训推一体特征,将为用户带来更为方便、高效的开发体验,大幅低落借鉴老本、开发老本和运营老本。

思元 370 晋级了视频图像编解码单位,可供应更高效的视频处分才气和更优的编码品质,支撑更复杂、更沉重、低延时要求的计较机视觉使命。

解码方面,思元 370 集成了壮大的媒体机能,可支撑 132 路 1080p 视频解码或 10 路 8K 视频解码。编码方面,斩新编码器通过天真的码率优化(RDO)掌握、多参考帧、二次编码等特征组合,在相像图像品质(全高清视频 PSNR)的情况下比上一代产品节减 42% 带宽,有用低落带宽老本。

▲ 思元 370 视频编码品质显著晋升

* 测试情况:

MLU270-S4:SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz

MLU370-S4:NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz

视频内容:BQTerrace_1920x1080_60.yuv

寒武纪高在思元 370 芯片内置安全模块,确切包管用户消息安全。思元 370 是寒武纪初次颗支撑国表里合流加密规范的云端芯片,支撑用户数据、深度借鉴模子的加解密以及计较后果的加密输出,通过信托根的方法,包管 AI 芯片在启动及运转历程中加载的全部代码的安全性,还支撑长途认证,用户可在交易运转历程中长途考证 AI 情况安全性。通过多方面的安全特征,思元 370 系列产品将更好地确保用户 AI 交易安全。

▲ 安全启动考证历程

这次公布中,两款基于思元 370 的加快卡正式亮相:高密度、半高半长、功耗 75W 的 MLU370-S4 智能加快卡和高机能、全高全长、功耗 150W 的 MLU370-X4 智能加快卡。与上一代产品相比,370 系列加快卡在机能、能效方面都有更为杰出的阐扬。比方,对规范 ResNet-50v1 举行应用定制优化后,MLU370-X4 加快卡机能高达 30204fps。

▲ 寒武纪 MLU370-S4 加快卡

在 Cambricon Neuware SDK 上实测,在常用的 4 个深度借鉴网页模子上,MLU370-S4 加快卡的机能平衡靠近情况趋势合流 70W GPU 的 2 倍。而在能效方面,MLU370-S4 上风更为明显,处分相像 AI 使命相较于 70W GPU 用电量削减 50% 以上,将有力地赞助用户实现“双碳”目标。

▲ 相比合流同尺寸 GPU 产品,

MLU370-S4 加快卡机能上风明显

* 测试情况:

MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 数据来自于关联产品官网。

MLU370-S4 加快卡在解码方面具有强大角逐力,相较于同尺寸 GPU,可供应 3 倍的解码才气和 1.5 倍的编码才气。全体而言,MLU370-S4 加快卡的能效隽拔,体积精巧,可在服务器中实现高密度布置。

▲ 寒武纪 MLU370-X4 加快卡

MLU370-X4 加快卡的上风则阐扬为高机能,算力可达 256TOPS (INT8),增强了 FP16、FP32 的计较机能,新增 BF16 计较范例。

在 Cambricon Neuware SDK 上实测,常用的 4 个深度借鉴网页模子中,MLU370-X4 加快卡与情况趋势合流 150W GPU 相比,机能阐扬 2 项持平 2 项更优,实测能效则为 GPU 的 2 倍。好比 YOLOv3 网页中,MLU370-X4 的机能是 150W GPU 机能的 1.5 倍,能效为 GPU 的 2.5 倍。

▲ 相比合流 GPU 产品,MLU370-X4 机能当先

* 测试情况:

MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 数据:ResNet-50 来自于关联产品官网,Transformer、VGG16、YOLOv3 均取自实测非常大吞吐机能。

▲ MLU370-S4、MLU370-X4 加快卡规格

您可能还会对下面的文章感兴趣: