阿里云通义团队近日震撼发布了一款全新的AI推理模型QwQ-32B-Preview,并慷慨宣布将其开源。这款模型在多个评测中展现出卓越的能力,尤其在数学和编程领域表现突出,令人瞩目。
QwQ,全称为Qwen with Questions,是通义千问Qwen大模型系列中的一款实验性研究模型,也是阿里云首次对外开源的AI推理模型。研究团队发现,通过给予模型足够的时间进行思考和自我反思,可以显著提升其在数学和编程领域的理解能力,进而实现解决复杂问题的突破性进展。
在多个专业评测中,QwQ均表现出色。在GPQA评测集上,QwQ以65.2%的准确率展现了研究生水平的科学推理能力;在AIME评测中,QwQ以50%的胜率证明了其解决数学问题的丰富技能;在MATH-500评测中,QwQ更是以90.6%的高分一举超越OpenAI的o1-preview和o1-mini;在LiveCodeBench评测中,QwQ也展现出了高难度代码生成的能力。
QwQ在面对复杂问题时,展现出了深度自省的能力。它会质疑自身的假设,进行深思熟虑的自我对话,并仔细审视推理过程的每一步。这种能力在解决经典智力题“猜牌问题”时得到了充分体现,QwQ通过梳理对话并推演现实情况,最终得出了正确答案。
目前,QwQ-32B-Preview已在魔搭社区和HuggingFace等平台上开源,引发了全球开发者的热烈反响。许多开发者认为,这款模型是开源领域的一次重大突破,让中国在开源大模型和AI推理领域占据了先机。
HuggingFace开源地址