Long-VITA是由VITA-MLLM团队开发的开源多模态大模型,专注于处理超长上下文的视觉和语言任务。主要功能包括:
- Processamento de contexto extremamente longo:支持高达100万token或4K帧的输入
- compreensão multimodal:可同时分析图像、视频和文本数据
- inferência distribuída:通过上下文并行技术实现高效计算
- Suporte a várias plataformas:兼容Ascend NPU和Nvidia GPU硬件
该模型由腾讯优图实验室、南京大学和厦门大学联合研发,完全基于开源数据集训练,适合视频理解、高分辨率图像解析等复杂场景。
Essa resposta foi extraída do artigoLong-VITA: um modelo de linguagem visual que suporta saídas contextuais muito longasO