阿里达摩院发布全球最大 AI 预训练模型 M6:参数跃迁至 10 万亿
11 月 8 日消息,本日,阿里巴巴达摩院公布多模态大模子 M6 非常新进展,其参数已从万亿跃迁至 10 万亿,成为环球非常大的 AI 预练习模子。
M6 是达摩院研发的通用性人工智能大模子,领有多模态、多使命才气,尤其善于计划、写作、问答,在电商、生产业、文学艺术、科学研究等平台有宽泛应用前景。
与古代 AI 相比,大模子领有成千累万倍“神经元”数目,认知和缔造才气也更胜一筹,被遍及觉得是来日的“底子模子”。但大模子的算力老本相配昂扬,练习 1750 亿参数说话大模子 GPT-3 所需能耗,相配于汽车行驶地月来回间隔。
今年 5 月,通过专家并行计谋及优化技术,达摩院 M6 团队将万亿模子能耗低落超八成、服从晋升近 11 倍。
10 月,M6 再次突破业界极限,应用 512 GPU 在 10 天内即练习出具备可用程度的 10 万亿模子。相比昨年公布的大模子 GPT-3,M6 实现一致参数规模,能耗仅为其 1%。
▲将 10 万亿参数放进 512 张 GPU
模子扩大到千亿及以上参数的超大规模时,将非常难放在一台机械上。
为了赞助多模态预练习模子举行疾速迭代练习,达摩院在阿里云 PAI 自研 Whale 框架上搭建 MoE 模子,并通过更细粒度的 CPU offload 技术,非常终实现将 10 万亿参数放进 512 张 GPU:
别的,针对练习服从疑问,M6 团队计划了 Pseudo-to-Real(互鉴解除)机制,即行使练习好的互鉴参数模子初始化大模子,让收敛服从进一步晋升 7 倍,办理大模子练习速率慢的疑问。
对比不应用该机制,预练习到达一样 loss 历时仅需 6%;和此前万亿模子相比,练习样本量仅需 40%。
作为国内首个贸易化落地的多模态大模子,M6 已在超 40 个场景中应用,日挪用量上亿。
今年,大模子初次支撑双 11,应用包含但不限于:
▲M6 计划的遨游汽车
来日,M6 将踊跃探索与科学应用的连结,通过 AI for science 让大模子的后劲充裕发扬,并增强 M6 与国产芯片的软硬一体化研究。