近年来,超算等高性能系统的功率密度,始终保持着高速增长。不过台积电在其年度技术研讨会上表示 —— 计算领域的一个明显趋势,就是每个芯片和机架单元的功耗,并不会坐等受到传统风冷散热的限制。显然,晶体管功耗的降低,并没有其尺寸缩减那样快。由于芯片制造商不会放弃性能上的定期增长,HPC 领域的晶体管功率正在飞涨。
(via AnandTech)
另一方面,小芯片技术正在为构建更强大的芯片铺平道路。但在性能与延迟优势之外,其在散热方面遇到的问题也不容忽视。
以台积电为例,这家芯片代工巨头拥有 CoWoS 和 InFO 等现代技术,允许芯片制造商突破传统标线限制、构建集成更多芯片的系统级封装(SiP)。
通过将四个标线大小的芯片结合到一起,其复杂性也会迎来巨大的增长 —— 每个 SiP 或拥有超过 3000 亿个晶体管。但在性能增长的同时,台积电及其合作伙伴也付出了功耗与发热方面的代价。
至于英伟达的 H100 加速卡,此类旗舰产品的峰值性能功耗动辄超过 700W,所以在单封装系统里使用多个 GH100 芯片的难度也是可想而知。
如果找不到更好的办法,未来我们需要为 1kW 及以上的多芯片 SiP 做好准备,以应对功耗 / 散热方面的严峻挑战。
除了 700W 的英伟达 H100,英特尔 Ponte Vecchio 和 AMD Instinct MI250X 的故事也大致相同,且传统水冷散热方案也有其局限性。
当芯片封装功率迈过 1000W 的关口时,台积电设想数据中心需要为此类极端的 AI / HPC 处理器使用浸没式的液冷散热系统,结果就是需要彻底重新改造数据中心的结构。
尽管面临着短期和持续性挑战,英特尔等科技巨头还是相当看好浸没式液冷散热方案,并希望推动这项技术变得更加主流。
此外去年,台积电有透露其已尝试过片上水冷方案,甚至据说可应对 2.6 kW 的 SiP 散热需求。
对于愿意为此买单的客户(比如超大规模云数据中心的运营商们)来说,其有望推动究极 AI / HPC 解决方案的发展,但缺点是技术复杂性和成本都相当高昂。
此前我们已经在 Cerebras 的大型“晶圆级”处理器产品上看到过相关演示(需要高功率压缩机来为芯片散热),但初期台积电还是会继续打磨 CoWoS 和 InFO 等封装工艺,以突破传统芯片设计的标线限制。