【ITBEAR科技资讯】7月29日消息,meta公司近日披露了一份研究报告,揭示了其在进行超大规模人工智能模型训练过程中遭遇的技术挑战。报告显示,meta为训练拥有4050亿参数的Llama 3模型,动用了16384个英伟达H100显卡组成的庞大集群。然而,在长达54天的训练周期内,该集群竟出现了高达419次的意外故障,平均每三小时就发生一次,这无疑对训练进程的稳定性提出了严峻挑战。
报告详细分析了故障的原因,发现其中超过一半的故障源自于显卡或其配备的高带宽内存(HBM3)。考虑到整个系统的庞大规模和高度的任务同步性,即便是单个显卡的故障也可能导致整个训练任务被迫中断,进而需要从头开始。尽管如此,meta团队依然成功地维持了超过90%的有效训练时间,显示出其卓越的技术实力和应变能力。
据ITBEAR科技资讯了解,在整个预训练期间,工作中断总计达到了466次,其中计划内的中断为47次,主要源于自动化维护;而剩余的419次则为意外中断,大多由硬件问题引发。特别是GPU相关的问题,占据了意外中断的近六成比例。在所有的意外中断中,仅有三起事件需要人工进行大量干预,其余均通过自动化系统得到妥善处理。
进一步分析意外中断的具体原因,我们发现其中有148次是由GPU故障(包含NVLink故障)导致的,占比约30.1%;而由GPU的HBM3内存故障引起的中断则达到了72次,占比17.2%。有趣的是,在长达54天的训练过程中,仅有两个CPU出现故障。此外,还有近四成的意外中断是由包括软件错误、网络电缆及适配器问题在内的多种因素共同造成的。
为了提升训练效率,meta团队不仅优化了任务启动和检查点时间,还借助PyTorch的NCCL飞行记录器等工具迅速诊断并解决性能瓶颈。同时,团队还密切关注了环境因素对训练过程的影响,比如温度波动对GPU性能的影响,以及大量GPU同时运行时对数据中心电网的压力。
然而,随着AI模型参数量的持续增长,对计算资源的需求也在不断攀升。以meta的xAI计划为例,该计划预计将使用多达10万块H100显卡的集群。在此背景下,故障率有可能会成倍增加,这无疑为未来AI训练带来了巨大的挑战。面对这些挑战,meta及整个AI行业都需要不断探索和创新,以确保训练过程的稳定性和效率。