在人工智能领域的激烈竞争中,新的王者似乎总是在不断更迭。近期,阿里巴巴的通义千问QwQ-32B模型成为了算力供应端的新宠,被视为即将大规模应用的推理模型。
国家超算互联网平台近日宣布接入了阿里巴巴的通义千问大模型,并向外界提供QwQ-32B的API服务,用户可免费获取高达100万次的tokens。这一举措标志着QwQ-32B在产业应用上的重要一步。
不仅如此,众多国产算力厂商也积极响应,纷纷推出或计划推出针对QwQ-32B的算力部署方案。壁仞科技推出了基于壁砺TM106全系列一体机的解决方案,全面支持QwQ-32B大模型的推理。摩尔线程则利用大语言模型高速推理框架vLLM和MT Transformer推理引擎,成功部署了QwQ-32B。中国RISC-V芯片公司算能的SophNet云平台、东南大学的昇腾国产算力平台以及青云科技的AI算力云,也都接入了QwQ-32B模型。
业内人士指出,作为推理模型,QwQ-32B的性价比成为行业关注的焦点。此前,DeepSeek-R1已经在大模型推理场景中得到了广泛应用,但后续的模型必须提供更为出色的效果和成本数据,才能取代DeepSeek-R1的地位。阿里巴巴官方透露,通义团队在冷启动基础上,针对数学和编程任务、通用能力进行了两轮大规模强化学习,使得QwQ-32B在32B的模型尺寸上,既能提供强大的推理能力,又能满足较低的资源消耗需求,适合快速响应或对数据安全要求高的应用场景。
在一系列权威基准测试中,QwQ-32B模型的表现令人瞩目。它不仅在数学能力的AIME24评测集上,以及在评估代码能力的LiveCodeBench中,与DeepSeek-R1表现相当,还远超OpenAI的o1-mini及相同尺寸的R1蒸馏模型。QwQ-32B还集成了与智能体Agent相关的能力,能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
值得注意的是,一体机市场虽然因DeepSeek的火爆而迅速崛起,但业内人士认为,一体机可能并非最适合DeepSeek-R1的部署模式。与QwQ-32B的稠密架构模型不同,DeepSeek采用的是稀疏MoE模型路线。以满血版R1为例,其6710亿参数至少需要671GB显存,但每次推理时,只有约0.55%的参数被激活,导致一体机中的大量算力未能高效利用。而QwQ-32B则遵循Apache 2.0协议开源,且可在消费级显卡上部署,这对于国产芯片来说,无疑是一个巨大的利好。
云计算行业分析师指出,自ChatGPT推出以来,生成式AI已成为云服务收入增长的重要驱动力。AI不再是云计算的应用子集,而是推动云战略演进的核心。以大模型与算力的相互促进为例,大模型的发展已从单纯的技术摸高,转变为技术摸高与工程创新并行;算力结构也从单一的“预训练”,发展为“预训练+后训练+推理”的多元化结构,算力需求持续增长。
阿里云作为行业内的佼佼者,其遵循“AI驱动,公共云优先”的战略,将开源的千问大模型作为云计算的重要抓手。在最新一季的财报中,阿里云的AI收入已连续六个季度实现三位数增长,并推动云收入重回两位数增长,达到317亿元。云+AI的估值逻辑,也带动了阿里巴巴股价的大幅上涨,市值飙升逾1100亿美元。通过开源,阿里通义千问已成为国产算力平台支持最多的大模型之一,并在海外被多家企业部署上云,提供API服务。
目前,通义千问在全球最大AI社区HuggingFace的热门大模型榜上稳居榜首,衍生模型数量超过10万个,超越美国llama,成为全球采用最广泛的AI大模型。