滚动资讯

当前位置：财经 > 信息流 > 正文内容

阿里通义千问新推QVQ-72B-Preview，视觉推理能力能否媲美物理大师？

时间：2024-12-26 14:14:45 来源：IT之家作者：IT之家编辑：快讯团队 发表评论无障碍通道

阿里通义千问Qwen团队近日发布了一项令人瞩目的技术进展，他们推出了名为QVQ-72B-Preview的开源视觉推理模型。这款模型基于Qwen2-VL-72B构建，旨在解决复杂的物理问题，通过逻辑推理找到解决方案，仿佛拥有物理学大师般的智慧。

为了全面评估QVQ-72B-Preview的能力，阿里通义千问团队在四个数据集上进行了测试。首先是MMMU，这是一个涵盖多学科、多模态的大学级别评测集，用于检验模型在视觉相关综合理解和推理方面的表现。其次是MathVista，一个专注于数学视觉推理的测试集，要求模型在拼图测试图形的逻辑推理、函数图的代数推理以及学术论文图形的科学推理等方面展现能力。接下来是MathVision，一个来自真实数学竞赛的高质量多模态数学推理测试集，其问题多样性和学科广度相较于MathVista更为丰富。最后是OlympiadBench，这是一个奥林匹克竞赛级别的双语多模态科学基准测试集，包含了8476个来自奥林匹克数学和物理竞赛的问题，甚至包括中国高考题目，每个问题都附有专家级别的详细推理步骤。

测试结果显示，QVQ-72B-Preview在MMMU基准测试中取得了70.3的高分，这一成绩显著超越了其前身Qwen2-VL-72B-Instruct。同时，在MathVista、MathVision和OlympiadBench这三个专注于数学和科学问题的基准测试中，QVQ-72B-Preview也展现出了卓越的性能，有效缩小了与当前最先进的o1模型之间的差距。

然而，阿里通义千问Qwen团队也坦诚地指出了QVQ-72B-Preview目前存在的限制。在语言处理方面，模型可能会意外地混合或切换语言，从而影响响应的清晰度。在逻辑推理方面，模型可能会陷入循环逻辑模式，导致产生冗长的响应而无法得出明确的结论。从安全和伦理的角度考虑，模型还需要进一步增强安全措施，以确保其性能和使用的可靠性及安全性，用户在部署时应格外谨慎。

尽管QVQ-72B-Preview在视觉推理方面取得了显著的进步，但团队也强调，它并不能完全替代Qwen2-VL-72B的能力。特别是在多步骤视觉推理过程中，模型可能会逐渐失去对图像内容的关注，导致产生幻觉现象。因此，团队将继续对这一模型进行改进和优化，以期在未来实现更加精准和高效的视觉推理。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

高文院士荣获IEEE大奖，中国人工智能与视频编码领域再添辉煌！

12-26

月球标准之争：美国欲“一统”，中国21颗卫星方案如何应对？

12-26

韦伯望远镜揭秘：宇宙早期“萤火虫闪光”星系酷似银河系

12-26

李湘晒合照后秒删，李现王诗龄同框引猜测

圣诞节这天，一向喜欢晒优渥生活的李湘，一如既往地晒出了一组照片，罕见的是，这组照片不只出现了王诗龄、王岳伦，还有刘亦菲、李现和VOGUE中国主编刘冲。王诗龄的肤色也比较黯淡，她确实变瘦了不少，颜值变高了很多…

12-26

特斯拉Tesla Bot摆件遭疯抢，二手价飙至上千元！

12-26

光伏业：从价格战到全球布局，企业如何走出新路径？

12-26

大润发和沃尔玛开始走便利店的路了

12-26

A股风云再起！蓝筹回调小盘反弹，新能源光通信赛道批量涨停潮！

12-26

迈安德：以全球视野布局，书写中国粮油设备海外新篇章

12-26

中国天宫VS国际空间站：重量差300吨，天宫有何独特优势？

12-26

霍尼韦尔携手庞巴迪，共创航空新纪元，170亿美金合作大幕拉开

12-26

AI自主发现人工生命：科学新突破，伦理新挑战

12-26

超导磁测新突破：揭秘物质磁性，摆脱地球磁场干扰

12-26

墨尔本大学生物科学硕士：课程详解与就业前景全览

12-26

牛顿VS爱因斯坦：物理学巅峰王者之争，谁对人类贡献更胜一筹？

12-26

点击查看更多 +

全站最新

芯片设计产业迎爆发期，国产替代加速，哪些公司将脱颖而出？

A股新趋势：平稳布局，核心资产与新质生产力成长期优选！

人工智能概念股集体上扬，中证AI主题ETF跟涨近3%

李湘晒合照后秒删，李现王诗龄同框引猜测

京东涨薪不停歇，逆势而为的背后有何秘诀？

支付创新如何赋能服务端？汇付天下CEO详解支付机构“出海”新路径

热门内容

本栏最新

李湘晒合照后秒删，李现王诗龄同框引猜测

特斯拉Tesla Bot摆件遭疯抢，二手价飙至上千元！

大润发和沃尔玛开始走便利店的路了

A股风云再起！蓝筹回调小盘反弹，新能源光通信赛道批量涨停潮！

迈安德：以全球视野布局，书写中国粮油设备海外新篇章

中国天宫VS国际空间站：重量差300吨，天宫有何独特优势？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.