ITBear旗下自媒体矩阵:

阿里通义千问新推QVQ-72B-Preview,视觉推理能力能否媲美物理大师?

   时间:2024-12-26 14:14:45 来源:IT之家作者:IT之家编辑:快讯团队 发表评论无障碍通道

阿里通义千问Qwen团队近日发布了一项令人瞩目的技术进展,他们推出了名为QVQ-72B-Preview的开源视觉推理模型。这款模型基于Qwen2-VL-72B构建,旨在解决复杂的物理问题,通过逻辑推理找到解决方案,仿佛拥有物理学大师般的智慧。

为了全面评估QVQ-72B-Preview的能力,阿里通义千问团队在四个数据集上进行了测试。首先是MMMU,这是一个涵盖多学科、多模态的大学级别评测集,用于检验模型在视觉相关综合理解和推理方面的表现。其次是MathVista,一个专注于数学视觉推理的测试集,要求模型在拼图测试图形的逻辑推理、函数图的代数推理以及学术论文图形的科学推理等方面展现能力。接下来是MathVision,一个来自真实数学竞赛的高质量多模态数学推理测试集,其问题多样性和学科广度相较于MathVista更为丰富。最后是OlympiadBench,这是一个奥林匹克竞赛级别的双语多模态科学基准测试集,包含了8476个来自奥林匹克数学和物理竞赛的问题,甚至包括中国高考题目,每个问题都附有专家级别的详细推理步骤。

测试结果显示,QVQ-72B-Preview在MMMU基准测试中取得了70.3的高分,这一成绩显著超越了其前身Qwen2-VL-72B-Instruct。同时,在MathVista、MathVision和OlympiadBench这三个专注于数学和科学问题的基准测试中,QVQ-72B-Preview也展现出了卓越的性能,有效缩小了与当前最先进的o1模型之间的差距。

然而,阿里通义千问Qwen团队也坦诚地指出了QVQ-72B-Preview目前存在的限制。在语言处理方面,模型可能会意外地混合或切换语言,从而影响响应的清晰度。在逻辑推理方面,模型可能会陷入循环逻辑模式,导致产生冗长的响应而无法得出明确的结论。从安全和伦理的角度考虑,模型还需要进一步增强安全措施,以确保其性能和使用的可靠性及安全性,用户在部署时应格外谨慎。

尽管QVQ-72B-Preview在视觉推理方面取得了显著的进步,但团队也强调,它并不能完全替代Qwen2-VL-72B的能力。特别是在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致产生幻觉现象。因此,团队将继续对这一模型进行改进和优化,以期在未来实现更加精准和高效的视觉推理。

 
举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version