ITBear旗下自媒体矩阵:

百度智能云点亮昆仑芯三代万卡集群,AI算力领域迈出大步

   时间:2025-02-05 11:52:07 来源:雷递作者:雷递编辑:快讯团队 发表评论无障碍通道

百度智能云近期宣布了一项重大进展,成功点亮了国内首个自研万卡集群——昆仑芯三代。这一里程碑式的成就标志着百度在人工智能算力领域的实力得到了显著提升,并且公司计划进一步扩展至3万卡集群规模。

昆仑芯三代万卡集群的建成,不仅为百度内部提供了强大的算力支持,更为整个行业带来了模型降本的新趋势。在过去的一年里,大模型的使用成本一直是行业关注的焦点,而算力紧张是导致成本居高不下的关键因素之一。百度通过自主研发芯片和构建大规模集群,不仅解决了自身的算力瓶颈,也为行业探索出了一条新的道路。

从技术层面来看,昆仑芯三代万卡集群的超大规模并行计算能力,实现了训练效率的飞跃。这一集群能够大幅降低千亿参数模型的训练周期,满足AI原生应用快速迭代的需求。同时,它还支持更大规模的模型和更复杂的任务,以及多模态数据的处理,为Sora类应用的开发提供了有力支撑。

昆仑芯三代万卡集群还具备多任务并发能力。通过动态资源切分,单个集群可以同时训练多个轻量化模型。结合通信优化与容错机制,这一集群能够显著减少算力浪费,实现训练成本的指数级下降。随着国产大模型的兴起,昆仑芯三代万卡集群逐渐从“单任务算力消耗”向“集群效能最大化”过渡,通过智能调度任务,提升了集群的综合利用率,降低了单位算力成本。

在昆仑芯三代万卡集群的建设过程中,百度百舸AI异构计算平台4.0发挥了至关重要的作用。该平台突破了硬件扩展性瓶颈,解决了卡间互联的拓扑限制和通信带宽问题。同时,针对万卡规模集群的高功耗问题,百舸平台采用了创新性散热方案,有效解决了能效与散热难题。在模型训练方面,百舸平台完善了分布式训练优化策略,提升了主流开源模型的训练效率。

为了保障万卡集群的稳定性,百舸平台4.0还提供了容错与稳定性机制。这一机制避免了由于单卡故障率随规模指数上升而造成的集群有效性大幅下降问题,保障了有效训练率达到98%以上。针对机间通信带宽需求,百舸平台建设了超大规模HPN高性能网络,优化了拓扑结构,降低了通信瓶颈,带宽有效性达到90%以上。

百舸4.0在构建超大规模HPN高性能网络方面取得了显著成果。它针对跨地域通信中的高延迟问题,通过优化的拓扑结构、多路径负载均衡策略及通信策略,实现了几十公里的跨地域高效通信。在通信效率上,百舸平台采用了先进的拥塞控制算法和集合通信算法策略,实现了完全无阻塞通信,并通过高精度网络监控保障了网络的稳定性。

在多芯混训方面,百舸平台展现了强大的资源整合能力。它能够将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池。当业务提交工作负载时,百舸平台可自动进行芯片选型,依据集群剩余的芯片资源选择性价比最高的芯片来运行任务。这一机制最大化地利用了集群的剩余资源,实现了高达95%的万卡多芯混合训练效能。

在集群稳定性保障方面,百舸平台提供了全面的故障诊断手段。它能够快速自动侦测到导致训练任务异常的节点故障,并通过百度自研的BCCL(百度集合通信库)快速定位故障并提供自动化的容错能力。这一机制将故障恢复时间从小时级降低到分钟级,显著提高了集群的可靠性和可用性。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version