Long-VITA是由VITA-MLLM团队开发的开源多模态大模型,专注于处理超长上下文的视觉和语言任务。主要功能包括:
- 超长上下文处理:支持高达100万token或4K帧的输入
- 多模态理解:可同时分析图像、视频和文本数据
- 分布式推理:通过上下文并行技术实现高效计算
- 跨平台支持:兼容Ascend NPU和Nvidia GPU硬件
该模型由腾讯优图实验室、南京大学和厦门大学联合研发,完全基于开源数据集训练,适合视频理解、高分辨率图像解析等复杂场景。
本答案来源于文章《Long-VITA:支持超长上下文输出的视觉语言模型》