InternLM-XComposer概述
InternLM-XComposer是由InternLM团队开发的开源图文多模态大模型项目,托管于GitHub。它基于InternLM语言模型,能够处理文本、图像、视频等多模态数据,广泛应用于图文创作、图像理解和视频分析等领域。
核心功能
- 超长上下文输出:支持处理长达96K的图文混合内容
- 高分辨率图像理解:支持从336像素到4K的图像分析
- 细粒度视频理解:将视频分解为多帧图像进行动态细节捕捉
- 图文创作:根据指令生成图文并茂的内容
- 多轮多图对话:支持多张图片的连续对话分析
- 开源支持:提供多种模型权重和微调代码
- 多模态流媒体交互:OmniLive版本支持长时间视频/音频处理
该模型仅用7B参数即可媲美GPT-4V性能,具有高效、多功能的特点。
本答案来源于文章《InternLM-XComposer:输出超长文本与图像视频理解的多模态大模型》