Qwen2.5-VL是由阿里巴巴云Qwen团队开发的一款开源多模态大模型,能够同时处理文本、图像、视频和文档等多模态数据。作为Qwen2-VL的升级版,它基于更强大的Qwen2.5语言模型构建。
与前代相比,Qwen2.5-VL主要在以下方面有显著提升:
- 文档解析能力增强,能够更好地提取手写文字、表格、图表和化学公式
- 视频理解能力提升,支持时长超过一小时的超长视频分析,并能精确定位到秒级的事件片段
- 智能代理功能优化,可以更准确地通过视觉和文字指令控制电脑或手机
- 支持更大参数规模的模型(最高达72B),适合不同算力需求的应用场景
- 性能指标方面,在多项测试中表现优异,部分指标甚至超过闭源模型
この答えは記事から得たものである。Qwen2.5-VL:画像・ビデオ文書解析のためのオープンソース・マルチモーダルラージモデルについて