华为AI训练集群Atlas 900有多快?算力相当于50万台PC
9月18日消息,华为全联接2019大会上,华为副董事长胡厚崑公布了Atlas 900 AI练习集群。这次公布的Atlas 900 AI练习集群由数千颗昇腾910 AI处分器互联组成,是目前环球很快的AI练习集群,代表了当今环球的算力极峰。其总算力到达256P~1024P FLOPS @FP16,相配于50万台PC的计较才气。
AI算力当先
Atlas 900 AI练习集群接纳业界单芯片算力很强的昇腾910 AI处分器,每颗昇腾910 AI处分器内置32个达芬奇AI Core,单芯片供应比业界高一倍的算力。Atlas 900 AI练习集群将数千颗昇腾910 AI处分器互联,打造业界初次的算力集群。
昇腾910 AI处分器接纳SoC计划,集成“AI算力、通用算力、高速大带宽I/O”,大幅度卸载Host CPU的数据预处分使命,充裕晋升练习服从。
很佳集群网页
Atlas 900 AI练习集群接纳“HCCS、PCIe 4.0、100G以太”三类高速互联方法,百TB全互联无壅闭专属参数同步网页,低落网页时延,梯度同步时延缩短10~70%。
在AI服务器里面,昇腾910 AI处分器之间通过HCCS高速总线互联;昇腾910 AI处分器和CPU之间以很新的PCIe 4.0(速度16Gb/s)技术互联,其速度是业界合流接纳的PCIe 3.0(8.0Gb/s)技术的两倍,使得数据传输加倍疾速和高效。在集群层面,接纳面向数据中间的CloudEngine 8800系列互换机,供应单端口100Gbps的互换速度,将集群内的全部AI服务器接入高速互换网页。
创始iLossless智能无损互换算法,对集群内的网页流量举行及时的借鉴练习,实现网页0丢包与E2Eμs级时延。
体系级调优
Atlas 900 AI练习集群通过华为鸠合通讯库和功课调剂平台,整合HCCS、PCIe 4.0和100G RoCE三种高速接口,充裕开释昇腾910 AI处分器的壮大机能。
华为鸠合通讯库供应练习网页所需的漫衍式并行库,通讯库+网页拓扑+练习算法举行体系级调优,实现集群线性度>80%,极大晋升了功课调剂服从。
散热体系
古代数据中间多以风冷技术对装备举行散热,但在人工智能期间古代数据中间却面对很大的搦战。高功耗器件好比CPU和AI芯片带来更大的热岛效应要求更高效的冷却方法。液冷技术可以满足数据中间高功率、高密布置、低PUE的超高需要。
Atlas 900 AI练习集群接纳全液冷计划,创新性计划业界很强柜级密闭绝热技术,支撑>95%液冷占比。单机柜支撑高达50kW超高散热功耗,实现PUE<1.1的极致数据中间动力服从。
另外,在空间节减方面,与8kW风冷机柜比拟,节减机房空间79%。极致的液冷散热技术满足了高功率、高密装备布置、低PUE的需要,极大地低落了客户的TCO。
据打听,华为已在华为云上布置了一个Atlas 900 AI练习集群,集群范围为1024颗昇腾910 AI处分器。基于目前很典范的“ResNet-50 v1.5模子”和“ImageNet-1k数据集”,Atlas 900AI练习集群只需59.8秒就可实现练习,排名环球初次。
“ImageNet-1k数据集”包括128万张图片,精度为75.9%,在一致精度下,其余两家业界合流厂商测试成绩分别是70.2s和76.8s,Atlas 900 AI练习集群比第2名快15%。
Atlas 900 AI集群要紧为大型数据集神经网页练习供应超强算力,可宽泛使用于科学研究与贸易创新,让研究人员更快地举行图像、视频和语音等AI模子练习,让人类更高效地索求宇宙秘密、展望天色、勘察煤油和加快自动驾驶的商用历程。