【ITBEAR】清华大学高性能计算研究中心的背景为清程极智的创立奠定了坚实的基础。这支来自清华大学计算机系的团队,凭借其在超大规模算力集群方面的丰富经验,决定投身AI Infra赛道,致力于解决AI算力系统的核心问题。清程极智由汤雄超博士担任CEO,翟季冬教授作为首席科学家,自去年年底成立以来,已经在商业化方面取得了显著进展,与多家芯片厂商、算力中心、AI应用开发商以及基础模型预训练厂商达成了合作。
清程极智的核心技术壁垒在于其超大规模集群的调优能力,这使得他们在国产算力生态中具有显著的优势。据汤雄超介绍,目前国内AI Infra赛道中,只有他们的团队具备十万台服务器规模的国产算力集群使用和调优经验。这种能力对于智算中心来说至关重要,尤其是在面临大规模算力需求时。他认为,未来的智算中心可能会回归同一型号GPU的架构,以获得更高的效率,而AI大模型训练的核心仍然在于大规模算力系统本身。
除了AI训练面临的挑战,清程极智也看到了推理侧的机会。他们认为,训推一体机很难满足未来的AI业务全部需求,因为训练和推理两种业务对算力系统的需求区别较大。因此,清程极智选择为推理业务量身定制相应的软硬一体化算力系统,并通过云端算力提供MaaS大模型推理服务。
在商业化方面,清程极智已经与多家芯片厂商、算力中心、AI应用开发商以及基础模型预训练厂商达成了合作。云厂商也是他们的合作对象之一。汤雄超认为,云厂商过去解决的问题与现在需要解决的问题并不完全相同,他们在分布式资源合并方面的经验市场上还较为稀缺,而这恰好是清程极智团队的优势所在。
对于国内芯片厂商的差异化,汤雄超也有深刻的体会。他认为,随着国产芯片市场的发展,未来国产芯片市场会有一定程度的收敛,但不会完全集中到一家,并且国产芯片的性价比超越海外产品也只是时间问题。
清程极智的MaaS平台提供了文本对话和文生图等多种大模型服务能力,并且支持国产算力平台,成本控制较低。他们相信,大模型应用一定会起量,并且在一个足够大的市场里,同一个细分市场可以容得下好几家厂商。因此,他们并不担心与通用大模型公司的竞争,而是专注于提供高性能的推理加速能力和多样化的产品交付形式。
在谈到国产芯片厂商和异构混训时,汤雄超表示,他们也在做异构混训的工作,但认为同构集群可能是更高效的解决方案。他认为,随着国产芯片产能的提升,智算中心最终会回归到同构的基础架构里。对于国内GPU芯片厂商的未来,他认为可能会出现一定程度的集中和收敛,但不太可能出现一家独大的情况。
在谈到算力硬件的最优解时,汤雄超认为,从目前的大模型形态来看,GPU或类GPU架构是较好的选择。然而,他也指出,如果上层应用发生巨变的话,底层的算力也会受到影响。对于国内而言,他认为专用芯片与通用芯片并存是一个可能的发展趋势。
最后,对于如何找到国产算力的护城河,汤雄超认为,应该从上层应用的需求出发,有针对性地进行补全和提升。他相信,国产算力系统在未来会有一些突破机会,而不需要完全复制CUDA生态。
总的来说,清程极智凭借其在超大规模集群调优方面的技术优势,以及在推理侧业务的定制化解决方案,已经在AI Infra赛道上取得了显著的进展。他们相信,随着国产算力生态的发展和完善,未来会有更多的机会和挑战等待着他们。