当前位置: 科技先知道 » 人工智能 » 阿里巴巴通义千问发布新一代多模态视觉模型Qwen2-VL-72B,突破长视频理解能力

阿里巴巴通义千问发布新一代多模态视觉模型Qwen2-VL-72B,突破长视频理解能力

阿里巴巴旗下的通义千问近日发布了其最新的视觉语言模型Qwen2-VL,并在阿里云的百炼平台上线了其旗舰版本Qwen2-VL-72B的API。

根据相关信息,Qwen2-VL在多项权威测评中表现卓越,多模态模型的多个指标上刷新了纪录,部分性能甚至超越了GPT-4o和Claude 3.5-Sonnet等闭源模型。

早在2023年8月,通义千问便开源了第一代视觉语言模型Qwen-VL,并迅速成为开源社区内最受欢迎的多模态模型之一。短短一年时间内,该模型的下载量已突破千万次。目前,多模态模型在手机、汽车等视觉识别场景中的应用正在快速推进,Qwen-VL的迭代更新也受到开发者和企业的高度关注。

相较于上一代模型,Qwen2-VL的基础性能大幅提升,不仅能够精准解析各种分辨率和长宽比的图像,还在MathVista、DocVQA、RealWorldQA、MTVQA等多个基准测试中取得了全球领先的成绩。

更值得关注的是,Qwen2-VL能够理解超过20分钟的长视频,并支持基于视频的问答、对话及内容创作等多种应用。此外,该模型还具备强大的视觉智能体功能,能够自主操作手机和机器人,借助复杂推理与决策能力,实现基于视觉环境和文字指令的自动化操作。

在语言理解方面,Qwen2-VL还能够识别和理解图像及视频中的多语言文本,包括中文、英文、主要欧洲语言、日语、韩语、阿拉伯语及越南语等。

通义千问团队从六个维度对模型的能力进行了全面评估,包括综合大学题目、数学能力、多语言文档表格文字图像的理解、通用场景问答、视频理解以及智能体功能。Qwen2-VL-72B在大部分指标上表现出色,尤其是在文档理解领域展现出明显优势,仅在综合大学题目方面稍逊于GPT-4o。

阿里巴巴通义千问发布新一代多模态视觉模型Qwen2-VL-72B,突破长视频理解能力
未经允许不得转载:科技先知道 » 阿里巴巴通义千问发布新一代多模态视觉模型Qwen2-VL-72B,突破长视频理解能力

相关文章

My title