阿里云通义团队近日震撼发布并开源了其最新研发的AI推理模型QwQ-32B-Preview,这一举动在AI领域掀起了波澜。
据官方介绍,QwQ(Qwen with Questions)在科学推理能力上表现出色,特别是在数学和编程领域,其预览版本已展现出研究生级别的实力。在多项评测中,QwQ的表现均可与OpenAI的o1系列模型相抗衡。在GPQA评测集中,QwQ的准确率高达65.2%,而在AIME评测中,它则以50%的胜率证明了其在解决数学问题上的强大能力。
不仅如此,QwQ在MATH-500评测中以90.6%的高分超越了o1-preview和o1-mini,同时在LiveCodeBench评测中也答对了一半的题目,编程竞赛题场景同样难不倒它。QwQ之所以能够取得如此优异的成绩,得益于其深度自省和质疑自身假设的能力,通过深思熟虑的自我对话,仔细审视推理过程的每一步。
QwQ作为阿里云通义千问Qwen大模型的实验性研究模型,一经发布便在魔搭社区和HuggingFace等平台上引起了全球开发者的广泛关注。开发者们对QwQ的评价极高,认为它是“完全没有预料到的疯狂的跃进”、“今年开源领域最重大的突破”,并称赞这一模型让中国在开源大模型和AI推理上占据了先机。
然而,通义团队也坦诚地指出了QwQ目前存在的局限性,如不同语言的混合使用、偶有不恰当偏见以及对专业领域问题的不了解等。但团队表示,随着研究的深入和模型的迭代,这些问题将逐步得到解决。