ITBear旗下自媒体矩阵:

谷歌揭秘:未来AI网络将如何重塑计算行业

   时间:2025-08-22 16:59:04 来源:半导体行业观察编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在科技领域,摩尔定律长久以来一直指引着计算技术的发展方向。每两年晶体管数量翻倍,价格减半,这一规律不仅推动了CMOS芯片时代的变革,还使得计算引擎的年度性能提升达到40%。然而,随着Web 2.0时代的到来,传统的共享内存扩展方式如SMP和NUMA已难以满足日益增长的计算需求。分布式计算集群的兴起,成为了解决这一难题的关键。

如今,我们正步入分布式计算的第五个时代,以GenAI工作负载为代表的新兴需求对计算性能提出了前所未有的挑战。谷歌人工智能和基础设施的负责人阿明·瓦达特在Hot Interconnects 32会议上指出,计算行业必须重新审视网络架构,以应对这一变革。

瓦达特强调,随着计算技术的每一次飞跃,应用程序间交互时间都在显著缩短。从FTP/Email/Telnet时代的100毫秒,到当前机器学习时代的10微秒,这一趋势对网络提出了更高要求。特别是AI训练过程中,GPU的计算能力常因等待数据交换而大打折扣,这凸显了网络瓶颈的严重性。

面对这一挑战,瓦达特提出了几个关键的网络假设,包括毫秒级同步、周期性线速突发、延迟敏感、可预测性、单租户工作负载以及加速器效率的重要性。他指出,未来的网络必须能够提供海量突发带宽、低延迟、超低抖动以及极高的可靠性。

计算需求增长趋势

为了实现这些目标,谷歌正在研发一系列创新技术。其中,Firefly网络时钟同步技术尤为引人注目。通过同步网络接口卡(NIC)至10纳秒以内的精度,Firefly使得网络流量的调度成为可能,从而避免了拥塞,提高了数据传输的确定性和可靠性。

谷歌还开发了Swift拥塞控制技术和Falcon硬件传输层,以进一步优化网络性能。Swift通过维护细粒度的排队信息并调整发送速率,实现了对突发流量的有效处理。而Falcon则旨在提供比现有传输层更高的操作速度和更低的尾部延迟,从而满足AI和HPC工作负载的严苛要求。

瓦达特还提到了落后者检测技术,该技术能够快速识别并隔离网络中的故障节点,确保AI训练过程的顺利进行。他指出,在AI和HPC工作负载中,任何一个节点的故障都可能导致整个训练或模拟的失败,因此快速故障检测和恢复至关重要。

落后者检测技术

尽管这些技术目前还处于研发阶段,但它们已经展现出了巨大的潜力。随着分布式计算第五个时代的到来,我们有理由相信,这些创新将推动计算行业进入一个全新的发展阶段,为AI和HPC等前沿领域提供更加强大的支持。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version