阿里通义千问Qwen团队近日发布了一项令人瞩目的技术进展,他们推出了名为QVQ-72B-Preview的开源视觉推理模型。这款模型基于Qwen2-VL-72B构建,旨在解决复杂的物理问题,通过逻辑推理找到解决方案,仿佛拥有物理学大师般的智慧。
为了全面评估QVQ-72B-Preview的能力,阿里通义千问团队在四个数据集上进行了测试。首先是MMMU,这是一个涵盖多学科、多模态的大学级别评测集,用于检验模型在视觉相关综合理解和推理方面的表现。其次是MathVista,一个专注于数学视觉推理的测试集,要求模型在拼图测试图形的逻辑推理、函数图的代数推理以及学术论文图形的科学推理等方面展现能力。接下来是MathVision,一个来自真实数学竞赛的高质量多模态数学推理测试集,其问题多样性和学科广度相较于MathVista更为丰富。最后是OlympiadBench,这是一个奥林匹克竞赛级别的双语多模态科学基准测试集,包含了8476个来自奥林匹克数学和物理竞赛的问题,甚至包括中国高考题目,每个问题都附有专家级别的详细推理步骤。
测试结果显示,QVQ-72B-Preview在MMMU基准测试中取得了70.3的高分,这一成绩显著超越了其前身Qwen2-VL-72B-Instruct。同时,在MathVista、MathVision和OlympiadBench这三个专注于数学和科学问题的基准测试中,QVQ-72B-Preview也展现出了卓越的性能,有效缩小了与当前最先进的o1模型之间的差距。
然而,阿里通义千问Qwen团队也坦诚地指出了QVQ-72B-Preview目前存在的限制。在语言处理方面,模型可能会意外地混合或切换语言,从而影响响应的清晰度。在逻辑推理方面,模型可能会陷入循环逻辑模式,导致产生冗长的响应而无法得出明确的结论。从安全和伦理的角度考虑,模型还需要进一步增强安全措施,以确保其性能和使用的可靠性及安全性,用户在部署时应格外谨慎。
尽管QVQ-72B-Preview在视觉推理方面取得了显著的进步,但团队也强调,它并不能完全替代Qwen2-VL-72B的能力。特别是在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致产生幻觉现象。因此,团队将继续对这一模型进行改进和优化,以期在未来实现更加精准和高效的视觉推理。