苹果性能最强 M1 Ultra 芯片解密:业内首个 GPU 裸片集成,如何实现?

这颗接纳 2.5D 封装的芯片非常符合其“Ultra”的名头:经历硅中介层将两个 M1 Max 裸片集成在一路,带来了惊人的 2.5TB / 秒的带宽。但亮点却在于,M1 Ultra 初次实现了两颗 GPU 裸片的集成。这是以前的几年来,AMD、英伟达、英特尔都鼓吹要做,却至今未能做到的造诣。

凭借这一突破,苹果终究如愿以偿地在 GPU 平台对英伟达组成了搦战。据苹果所说,M1 Ultra 的 GPU 性能跨越了英伟达的 GeForce RTX 3090,后者是目前市面上速率非常快的 GPU。

踏入自研芯片平台但是几年的苹果,究竟是怎样做到业内首个 GPU 裸片集成的?而这一技术的实现,又将为巨擘争霸的 GPU 环境趋势,带来甚么样的变局?

图源:苹果

AMD、英伟达纷繁折戟 GPU 裸片集成难在哪?

自 MCM(Multi Chip Module,多芯片模组)技术降生以来,像搭建乐高同样,在单纯芯片中实现差别技术节点、差别功效的裸片的集成堆叠,成为了摩尔定律以外,半导体技术开展的另一路径,其素质在于将多个裸芯片和别的元器件组装在统一块多层互连基板上。

跟着台积电、三星、英特尔的 2.5D / 3D 封装渐渐成熟、商业化,在高端处分器平台,单颗芯片中 CPU 与 Memory、GPU 与 memory 的裸片集成,已不再是鲜活事。然而,两颗 GPU 裸片的集成,在苹果 M1 Ultra 公布以前,只存在于英伟达、AMD、英特尔的 PPT 中。

今年 年,英伟达刊登论文详细注释了一种名为可组合封装 GPU(Composable On-Package Architecture GPU,COPA GPU)的架构,焦点在于将多个 GPU 模块和内存体系模块集成。同年,AMD 对外展现了由四个 GPU 裸片集成的 MCM 设计,鼓吹其性能将比其时非常大的单片 GPU 的性能高 45.5%。

COPA GPU;来源:英伟达

然而,直到后来者英特尔在2019年头提出了一种 GPU 裸片集成办理方案,英伟达和 AMD 的多裸片集成 GPU 仍未问世。固然,AMD、英伟达的 Instinct MI200 系列和 Hopper 系列据称均希望在2019年关前姗姗来迟,但鲜明,迁延症让他们在“业内首个”上输给了苹果。

这种“迁延症”背地的无奈,是环境趋势和技术两个方面的。厦门云天董事善于大全传授对笔者表示,以前对处分器的请求不辣么高,一颗 GPU 裸片就够了,两颗集成的老本过高。这也与此前少许业内概念一致。有批评乃至觉得,对 GPU 需要非常大的游戏平台,如许的设计并没有代价。

2020 年头,时任 AMD Radeon 技术奇迹部工程研发超凡副总裁的 David Wang 在接管外媒采访时就表示,多裸片集成的 GPU 险些不行能发现在 2021 年公布的 Navi 系列产物中,“咱们正在钻研 MCM 架构,”他说,“但咱们还未得出论断,这是一种能够应用于传统游戏 GPU 的架构。”

环境趋势未成天气外,技术难点则是 GPU 裸片集成的非常大痛点。据于大全说明,与 CPU+Memory 或 GPU+Memory 的裸片集成相比,GPU+GPU 的裸片集成非常大的难点在于清晰更细更密,就需要更多的接口(I / O),为此,就需要将用于引出裸片灯号的凸点间距收缩到 50/40um 规格以下。

红框标注为凸点;图源:英特尔

后来者苹果弯道超车 台积电无凸点技术帮了大忙?

从目前业内非常前沿技术来看,凸点间距收缩到 20um 以下已成为 2.5D / 3D 封装的一大门槛,英特尔、台积电均已将此作为先进封装的研发重点,比方英特尔的 Foveros 就将凸点间距收缩到 10um,而台积电的年头加倍跨越,提出了“无凸点”互连技巧 SoIC,而这大概恰是赞助苹果弯道超车的利器。

从 C4 凸点到无凸点;图源:台积电

凭据台积电此前说明,SoIC 是对前道芯片堆叠技术的统称,要紧特性是不再应用后道集成所用的凸点技术,转而干脆将裸片堆叠到一路。这种技巧除了没有“凸点间距”这一紧箍咒外,还能大大低落热阻,但是坏处是务必在芯片非常首先设计时就要一路被断定,技术请求天然更高。

据于大全说明,苹果非常早就首先与台积电配合钻研无凸点连接技巧,所以其也猜测,恰是这种技术,赞助苹果 M1 Ultra 实现了 GPU 裸片集成。“(裸片与裸片间互联)非常终的办理方案即是无凸点,即是高低裸片之间铜对铜、介质层对介质层的这种键合。”于大全说。

这种引申是有理由建立的。固然苹果在通稿中仅吐露应用了在 2.5D 封装常用的硅中介层,但结合苹果官方给出的宣传视频和动画模子来看,宛若应用了某种小型 Si 桥,在制造中现实上与英特尔的 EMIB 或 AMD 的 Elevated Fanout Bridge (EFB)类似,两者均无凸点设计。

除此以外,苹果是否为其 GPU 裸片集成设计了新的接口 IP 也让人浮想。这一点在苹果的消息通稿中未置一词,但从技术实现上来看,接口 IP 的紧张性险些仅次于微凸点和 TSV 技术。于大全也表示,接口 I / O 变多,务必要接纳新的办理方案。这也是英伟达、AMD 此前的紧张发力点。

AMD 于 2020 年头揭露,将 Infinity Fabric 总线互联技术晋级至 Infinity Architecture,除了支持 CPU-CPU 集成外,还支持至多 8 个 GPU 芯片的连接以及 CPU-GPU 集成。同时表示,其新一代 El Capitan 超级计算机将搭载 Infinity Architecture,Genoa EPYC 基于 Zen 4 架构,1 个 CPU 与 4 个 GPU 裸片集成。

英伟达早在 2014 年即推出了 NVLINK,实现了芯片层级的 GPU 的高速互联,2016 年,公布了搭载 NVLINK 的初次款产物 P100,今后接续进行更新换代,并在 NVLINK 的底子上推出了 NVIDIA NVSwitch,可在单个服务器节点中支持 8-16 个全互联的 GPU,实现更高速率的通讯。

需要指出的是,在这一层面上,苹果方面的进展目前只能停顿在猜测阶段,但苹果历来不会在技术不成熟的时分就推出产物,能够试图揣度,苹果固然并未在消息稿中提到接口 IP,但并不代表其在此方面并没有突破,更大的不妨其对环节技术仍旧有所保存。

写在非常后

无论怎样,M1 Ultra 的推出,除了再次拔高外界对苹果芯片才气的预期以外,还将 GPU 才气的扩大真正与先进封装绑定了起来,固然 GPU 进来多裸片集成时代是早就被展望的,但被产物搭载进来商业化量产是彻底差别的概念,且实现这一指标的是这一环境趋势的新入者苹果,就加倍回味无穷。

这大概将意味着,在 GPU 平台,先进封装希望成为 X 成分,冲破目前英特尔、AMD、英伟达三强争霸的款式,而掌握非常高端先进封装技术的台积电亦还是英特尔,将领有更大的话语权。

您可能还会对下面的文章感兴趣: