ITBear旗下自媒体矩阵:

阿里巴巴Qwen3八款齐发,问鼎全球最强开源模型,DeepSeek R2压力山大?

   时间:2025-04-29 08:01:02 来源:钛媒体APP编辑:快讯团队 发表评论无障碍通道

在万众瞩目之下,阿里巴巴旗下的通义千问系列迎来了最新成员——Qwen3,这款开源模型一经发布便迅速登顶全球最强开源模型榜单,引发了业界的广泛关注。

4月29日凌晨,阿里巴巴正式推出了Qwen3(简称千问3),其旗舰模型Qwen3-235B-A22B凭借仅为DeepSeek-R1三分之一的参数量,实现了总参数量235B、激活仅需22B的惊人效率。在性能上,千问3全面超越了R1、OpenAI-o1等顶尖模型,成为新晋的全球最强开源模型。

千问3在预训练数据量上达到了36T的惊人规模,并在后训练阶段通过多轮强化学习,将快思考与慢思考模式无缝融合。这一创新不仅使得千问3在推理、指令遵循、工具调用、多语言能力等方面均取得了显著增强,还创下了国产模型及全球开源模型性能的新高度。

此次发布的千问3系列共计八款模型,涵盖了从0.6B到235B的不同参数量级别,包括两款30B、235B的MoE模型以及六款密集模型。每款模型均在其同尺寸类别中取得了SOTA(最佳性能)的优异成绩。

其中,千问3的30B参数MoE模型实现了模型性能的十倍杠杆提升,仅需激活3B参数即可媲美上一代Qwen2.5-32B模型的性能。而千问3的密集模型也在性能上继续突破,如32B版本的千问3模型在性能上甚至超越了Qwen2.5-72B模型。

4月作为大模型集中发布的一个月,业界竞争异常激烈。OpenAI发布了GPT-4.1 o3、o4 mini系列模型,谷歌则推出了Gemini 2.5 Flash Preview混合推理模型。同时,国内也涌现出了如豆包的1.5·深度思考模型等优秀作品。尽管有传言称DeepSeek R2模型即将发布,但目前仍缺乏确凿的证据。

然而,千问3的“先发制人”策略使其在这场竞争中占据了先机。作为国内首个混合推理思考模型,千问3不仅增强了Agent能力,还支持MCP协议,大大节省了算力消耗。其混合推理模式使得模型在面对简单需求时能够快速响应,而在处理复杂问题时则能够进行多步骤的深度思考。

在性能评测中,千问3同样表现出色。在奥数水平的AIME25测评中,千问3斩获了81.5分的高分,刷新了开源纪录。在考察代码能力的LiveCodeBench评测中,千问3也突破了70分大关,表现甚至超过了Grok3。在评估模型人类偏好对齐的ArenaHard评测中,千问3更是以95.6分的高分超越了OpenAI-o1及DeepSeek-R1。

除了性能上的显著提升外,千问3的部署成本也大幅下降。仅需4张H20即可部署千问3满血版,且显存占用仅为性能相近模型的三分之一。这一优势使得千问3在企业大规模部署和个人开发者使用方面均具备极高的吸引力。

千问3还支持多达119种语言和方言,并在Apache 2.0许可下开源。目前,这些模型已在Hugging Face、ModelScope和Kaggle等平台上开放使用。阿里巴巴还推荐使用SGLang和vLLM等框架进行部署,同时支持Ollama、LMStudio、MLX、llama.cpp和KTransformers等多种本地使用工具。

在智能体Agent和大模型应用落地方面,千问3同样表现出色。在评估模型Agent能力的BFCL评测中,千问3创下了70.8的新高,超越了Gemini2.5-Pro、OpenAI-o1等顶尖模型。同时,千问3原生支持MCP协议,并具备强大的工具调用能力,大大降低了编码复杂性,实现了高效的手机及电脑Agent操作等任务。

在预训练方面,Qwen3的数据集相比Qwen2.5有了显著扩展。Qwen3使用了约36万亿个token的数据进行预训练,几乎是Qwen2.5的两倍。为了构建这一庞大的数据集,千问团队不仅从网络上收集数据,还从PDF文档中提取信息,并利用专家模型合成数学和代码数据。

后训练方面,千问团队实施了一个四阶段的训练流程,包括长思维链冷启动、长思维链强化学习、思维模式融合以及通用强化学习。这一流程使得千问3在具备思考推理能力的同时,也能够快速响应简单需求。

目前,个人用户已经可以通过通义APP直接体验千问3的强大功能,而夸克也即将全线接入千问3。阿里巴巴通义已经开源了200余个模型,全球下载量超过3亿次,千问衍生模型数更是超过10万个,成功超越了美国的Llama,成为全球第一的开源模型。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version