阿里巴巴通义千问发布新一代多模态视觉模型Qwen2-VL-72B，突破长视频理解能力

阿里巴巴旗下的通义千问近日发布了其最新的视觉语言模型Qwen2-VL，并在阿里云的百炼平台上线了其旗舰版本Qwen2-VL-72B的API。

根据相关信息，Qwen2-VL在多项权威测评中表现卓越，多模态模型的多个指标上刷新了纪录，部分性能甚至超越了GPT-4o和Claude 3.5-Sonnet等闭源模型。

早在2023年8月，通义千问便开源了第一代视觉语言模型Qwen-VL，并迅速成为开源社区内最受欢迎的多模态模型之一。短短一年时间内，该模型的下载量已突破千万次。目前，多模态模型在手机、汽车等视觉识别场景中的应用正在快速推进，Qwen-VL的迭代更新也受到开发者和企业的高度关注。

相较于上一代模型，Qwen2-VL的基础性能大幅提升，不仅能够精准解析各种分辨率和长宽比的图像，还在MathVista、DocVQA、RealWorldQA、MTVQA等多个基准测试中取得了全球领先的成绩。

更值得关注的是，Qwen2-VL能够理解超过20分钟的长视频，并支持基于视频的问答、对话及内容创作等多种应用。此外，该模型还具备强大的视觉智能体功能，能够自主操作手机和机器人，借助复杂推理与决策能力，实现基于视觉环境和文字指令的自动化操作。

在语言理解方面，Qwen2-VL还能够识别和理解图像及视频中的多语言文本，包括中文、英文、主要欧洲语言、日语、韩语、阿拉伯语及越南语等。

通义千问团队从六个维度对模型的能力进行了全面评估，包括综合大学题目、数学能力、多语言文档表格文字图像的理解、通用场景问答、视频理解以及智能体功能。Qwen2-VL-72B在大部分指标上表现出色，尤其是在文档理解领域展现出明显优势，仅在综合大学题目方面稍逊于GPT-4o。