Long-VITA是由VITA-MLLM团队开发的开源多模态大模型,专注于处理超长上下文的视觉和语言任务。主要功能包括:
- Extrem lange Kontextverarbeitung:支持高达100万token或4K帧的输入
- multimodales Verständnis:可同时分析图像、视频和文本数据
- verteilte Schlussfolgerung:通过上下文并行技术实现高效计算
- Plattformübergreifende Unterstützung:兼容Ascend NPU和Nvidia GPU硬件
该模型由腾讯优图实验室、南京大学和厦门大学联合研发,完全基于开源数据集训练,适合视频理解、高分辨率图像解析等复杂场景。
Diese Antwort stammt aus dem ArtikelLong-VITA: Ein visuelles Sprachmodell, das sehr lange kontextuelle Ausgaben unterstütztDie