滚动资讯

当前位置：财经 > 企业动态 > 正文内容

阿里云通义千问再升级：Qwen-VL视觉理解模型推出Max版本，多模态大模型研究获突破

时间：2024-01-26 13:49:50 来源：ITBEAR编辑：快讯团队 IP：北京 发表评论无障碍通道

【ITBEAR科技资讯】1月26日消息，阿里云今日宣布在多模态大模型研究领域取得显著进展。据透露，通义千问的视觉理解模型Qwen-VL已经进行了重要升级，继之前的Plus版本后，再次推出了更为强大的Max版本。这一升级版模型在视觉推理和中文理解方面展现出了更为出色的能力，可以识别图片中的人物、回答问题、进行创作以及编写代码。在多个权威测评中，Qwen-VL-Plus和Qwen-VL-Max均取得了优异成绩，整体性能与GPT-4V和Gemini Ultra不相上下。

在各项评估中，Qwen-VL的两个升级版模型表现抢眼。它们在MMMU、MathVista等测评中远超业内其他开源模型，尤其在文档分析(DocVQA)和中文图像相关任务(MM-Bench-CN)上，更是超越了GPT-4V，达到了业界领先水平。这些模型不仅能够准确描述和识别图片中的信息，还能根据图片内容进行推理和创作，甚至具备了对画面指定区域进行问答的视觉定位能力。

在视觉推理方面，Qwen-VL-Plus和Qwen-VL-Max展现出了强大的能力。它们能够理解流程图等复杂形式的图片，分析复杂图标，并且能够看图做题、看图作文、看图写代码。在图像文本处理方面，升级版Qwen-VL的中英文文本识别能力也得到了显著提升，支持处理百万像素以上的高清分辨率图和极端宽高比的图像，既能完整复现密集文本，也能从表格和文档中提取所需信息。

Qwen-VL-Max看图做题

据ITBEAR科技资讯了解，多模态是当前大模型领域最具共识的发展方向。过去半年来，OpenAI、谷歌等科技巨头纷纷推出了自己的多模态模型。阿里云也在2023年8月发布了具备图文理解能力的Qwen-VL模型，并将其开源。该模型在同期表现中远超同等规模的通用模型，展现了强大的实力。

Qwen-VL-Max复现密集文本

视觉作为多模态能力中最重要的模态之一，占据了人类感知和认知世界信息的80%。通义千问的视觉语言模型基于通义千问LLM开发，通过将视觉表示学习模型与LLM对齐，为AI赋予了理解视觉信息的能力。这一创新在大语言模型的基础上开辟了一扇视觉的“窗”，为AI带来了更广阔的应用前景。

与LLM相比，多模态大模型在应用方面拥有更大的想象力。研究者们正在探索将多模态大模型与自动驾驶场景相结合，为实现“完全自动驾驶”寻找新的技术路径。同时，多模态模型还可以被部署到手机、机器人、智能音箱等端侧设备中，让智能设备能够自动理解物理世界的信息。此外，基于多模态模型开发的应用还可以辅助视力障碍群体的日常生活，为他们提供更多的便利。

目前，Qwen-VL-Plus和Qwen-VL-Max已经限时免费开放给用户使用。用户可以在通义千问的官网和APP上直接体验Max版本模型的能力，也可以通过阿里云的灵积平台(DashScope)调用模型的API进行使用。

标签： 通义千问

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

「华云安」完成数千万元B+轮融资，加速构建「平台化」+「智能化」安全防御体系

近日，北京华云安信息技术有限公司(以下简称「华云安」)宣布完成数千万元的B+轮融资，主要投资方为首发展集团，航行资本担任财务顾问。本轮融资将主要用于产品研发，驱动整体安全产品升级。作为国内智能安全领域的开拓者，「华云安」以漏洞和智能化攻防技术为核心，基于

06-23

富德生命人寿河北分公司：守护居家养老心愿，共筑美好养老生活

对中国人而言,“家”是心之所向,也是情之所系。在千百年农耕文化的熏陶下,家成为了传统理念中的核心。尽管经济社会的发展和观念的转变让养老方式日趋多元化,但对大部分老人来说,居家养老、共享天伦之乐依然是最主流的选择。然而,老龄化程度的加深正挑战着这一传统模

06-23

泓基控股2025年度分红方案实施金融监管总局实施穿透式监管

【本报讯】中国证监会主席吴清曾在接受中央广播电视总台专访时强调：一、坚持以人民为中心的价值取向，更加有效保护投资者特别是中小投资者合法权益;二、充分体现强监管、防风险、促高质量发展的主线，要坚持稳为基调，强本强基，严监严管;三、新'国九条'的核心

06-18

泓基控股股东分红进入 “双保险” 泓基控股如何托举全民持股未来

当 “共同富裕” 的温暖阳光洒向神州大地，全民持股制度宛如一座桥梁，连接着千家万户对美好生活的向往与国家经济发展的宏伟蓝图。如今，泓基控股集团 2025 年度股东分红工作稳步推进，就像一场及时雨，润泽着每一位持股群众的心田。曾经停留在文件里的政策构想，正化作

06-18

泓基控股迈出关键步伐国家政策全民持股是否能依靠“股东分红“完美落地？

近日，泓基控股完成关键阶段的对接工作，标志着国家全民持股政策的重要一步正式迈入实质性推进阶段。这一进展不仅关乎广大参与者的切身利益，也被多家财经研究机构与监管专家视为全民股权计划顺利落实的重要开端。《第一财经周刊》在深度报道中援引内部调研数据指出：此

06-18

情绪消费新趋势：品牌如何成为年轻人的“情绪充电桩”？

06-14

AI应用热潮退却，那些爆火的名字如今何在？

06-14

宜家召回压蒜器背后：中国市场挑战加剧，如何破局？

06-14

火山引擎AI云：激进增长背后的技术布局与市场策略

06-14

卧安机器人：从“手指”到AI具身机器人独角兽，赴港IPO估值超40亿

06-14

人力资源管理：八大误区，你的组织是否也在其中迷失？

06-14

AI助阵高考志愿填报，能否成就“人均志愿填报专家”？

06-14

童装股安奈儿易主，地产大佬世纪金源黄涛有何新布局？

06-14

动画行业AI应用：变革进行时，新机遇何在？

06-14

混变小游戏内购激增，小游戏市场加速奔向长线运营时代

06-14

点击查看更多 +

全站最新

雷军揭秘小米YU7定价：科学定价，发布会揭晓是否合理

雷军回应小米YU7价格猜测：贵两三万不实，明日发布会揭晓真相

曲江文旅控股股东涉债超5亿，股份遭司法过户，一季度亏损再扩大

6月25日股市盘点：哪些个股与概念板块领跑沪深两市？

来伊份员工持股计划受挫，回购股份能否重启激励新篇章？

中邮证券力荐工业富联：AI服务器增长强劲，买入评级不变！

热门内容

本栏最新

火山引擎AI云：激进增长背后的技术布局与市场策略

卧安机器人：从“手指”到AI具身机器人独角兽，赴港IPO估值超40亿

动画行业AI应用：变革进行时，新机遇何在？

Labubu爆火背后：泡泡玛特的造星神话能否持续？

宠物猫品种背后，藏着你的消费能力秘密？

90后刘靖康：影石上市背后的十年创业路

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.