在2024年的云栖大会上,阿里云CTO周靖人揭晓了通义千问的新一代开源模型——Qwen2.5。这一全新模型系列覆盖了多种尺寸的大语言模型、多模态模型、数学模型以及代码模型,且每一尺寸模型都提供了基础版、指令跟随版及量化版,累计发布了超过100个模型。
值得一提的是,旗舰版模型Qwen2.5-72B在性能上已超越了拥有4050亿参数的Llama 405B,展现了卓越的能力。在MMLU-rudex、MBPP及MATH三大基准测试中,Qwen2.5-72B分别取得了86.8、88.2和83.1的高分,显示出其强大的通用知识、编程及数学能力。
据ITBEAR了解,与Qwen2相比,Qwen2.5系列的所有模型均在18T tokens的数据集上进行了预训练,从而实现了整体性能18%以上的提升。这些模型不仅增强了知识储备,还在编程和数学方面展现出更高的能力。特别是Qwen2.5-72B模型,其上下文长度可达128K,生成内容最多为8K,并支持包括中文、英文、法文等在内的29种以上语言。
在专项模型领域,Qwen2.5也取得了显著进步。例如,专为编程设计的Qwen2.5-Coder在5.5T tokens的编程数据上进行了训练,并开源了1.5B和7B两个版本,未来计划开源32B版本。同时,Qwen2.5-Math模型则能够运用思维链和工具集成推理(TIR)解决中英双语的数学问题,目前已开源了1.5B、7B、72B三个尺寸及一款数学奖励模型Qwen2.5-Math-RM。
此外,阿里云还宣布开源了视觉语言模型Qwen2-VL-72B。该模型能够识别各种分辨率和长宽比的图片,理解超过20分钟的长视频,并具备操作手机和机器人的视觉智能体能力。
阿里云通过不断创新和优化其AI模型,正逐步巩固其在全球开源大模型领域的领先地位。Qwen2.5系列的推出,无疑为AI技术的发展注入了新的活力。
#阿里云# #Qwen2.5# #开源模型# #人工智能# #AI技术#