在算力市场的风云变幻中,一场由AIGC驱动的智能算力革命正悄然上演。据《中国算力发展报告(2024年)》揭示,全球算力规模在2023年底已达到910EFLOPS(FP32),年度增长率高达40%。尤为引人注目的是,智能算力规模的增长更为迅猛,同比增长达到了136%,远超整体算力市场的增速。
这股算力洪流不仅吸引了云服务商等传统算力供应商的加码投入,还促使众多传统企业纷纷跨界入局算力租赁领域。数据显示,仅在2023年下半年,就有包括鸿博股份、莲花控股、锦鸡股份在内的近40家上市公司涉足这一领域,算力市场的热度可见一斑。
然而,好景不长,算力市场的热潮并未持续太久。部分企业在短短一年内便主动终止了跨界项目,算力租赁市场的降温速度令人咋舌。究其原因,主要是对算力市场的资金投入、技术门槛等关键因素估计不足,导致在激烈的市场竞争中败下阵来。
算力市场的这一波动,也引发了行业内的深刻变革。鸿博股份CFO兼英博数科CEO浦威指出,国内智算行业正经历着前所未有的变化。从通用大模型训练算力集群的规模来看,已从千卡级别跃升至万卡级别,垂直大模型的算力使用也从定量模式转向弹性模式。随着大模型的商业化落地和多模态模型的普及,推理需求迅速增长,算力市场正逐渐从训练阶段转向推理阶段。
在通用大模型训练方面,国内外科技巨头纷纷建设大规模算力集群,如OpenAI和xAI的十万卡集群,以及国内字节跳动、阿里、百度等企业的数万甚至十万卡规模。对于更多厂商而言,万卡集群已成为当下能够触及的天花板。浦威表示,在国家的有序引导下,新的智算中心正朝着万卡规模发展,没有万卡级别的通用模型将难以进一步迭代。
与通用大模型相比,垂直大模型主要面向科研、教育、金融等细分行业,其算力需求更具分散性、临时性和动态变化的特点。因此,垂直大模型正逐步从大规模定量模式向可伸缩、弹性的算力模式转变,以兼顾成本和体验。浦威指出,许多企业正在基于基座模型进行大量的行业精调和微调,他们的算力需求非常分散,仅在模型微调等操作时才使用算力,对成本也极为关注。
随着大模型的商业化落地和多模态模型的普及,推理算力需求迅速增长。相关数据显示,从2022年到2027年,中国AI服务器的推理工作负载比例预计将从58.4%增长至72.6%,逐步取代训练成为主导。多模态模型的普及推动了文本生成、图像生成、视频生成等广泛的推理需求,AI模型应用也从通用模型延展至垂直行业。
面对算力市场的这一变化,算力服务商需要与时俱进。英博数科副总裁宋琛表示,虽然大模型企业的格局相对稳定,但核心算力需求并未遇冷。她指出,仍在做预训练的大模型企业,其训练规模反而越来越大,对集群的规模要求也在增加。因此,算力产业不会缩减,但会用变化淘汰反应不及的厂商。
为了应对算力需求的变化,英博云专注于为头部客户提供量身定制的集群选型、建设、运维等整体解决方案,同时为有弹性算力需求的中小客户提供GPU和CPU资源混合的弹性K8S集群服务。宋琛表示,英博云更专注于GPU算力云领域,为客户提供灵活定制服务以及精准把控成本,填补了细分市场的空白。
为了评估算力服务的质量,英博云还提出了“单位有效算力成本”的成本评估框架。通过算力投入成本与有效计算能力的比值,可以客观评价算力服务的质量。英博数科副总裁秦伟俊表示,英博云对整个链条通盘考虑,从IDC建设到训练过程中的折损、故障,再到模型框架的选择和训练效率,都为客户提供算力提升的空间。
在智算中心的核心网络难题方面,英博数科CTO李少鹏指出,只有在单一物理空间内,使用高功率机柜,通过统一的计算网和存储网,将所有GPU服务器组成单一集群,才能实现万卡级别的并行训练。他强调,当前算力成本主要来自设备采购、机电支持和运维费用,而算力资源的实际利用率普遍偏低,这与硬件匹配、调度策略以及训推框架配置等因素密切相关。
为了提升算力资源的利用率和降低成本,英博数科还提供了算力实验室,对主流算力卡和设备进行测评,以便提供更适配于客户业务类型的服务。例如,某3D视频生成企业此前一直使用英伟达A卡进行训练,但在英博数科的测评和建议下,改用H卡进行训练,整体测试效率提升了两倍以上,同时性价比也远远优于A卡。
在投融资层面,智算中心建设作为资本密集型行业,英博数科也在建设产业孵化器,对AI垂直应用公司给予相应的扶持。扶持内容不仅包括资金,还包括算力、人才培养等,旨在帮助繁荣和建立整个AI应用的生态。