Long-VITA是由VITA-MLLM团队开发的开源多模态大模型,专注于处理超长上下文的视觉和语言任务。主要功能包括:
- 非常に長いコンテキスト処理:支持高达100万token或4K帧的输入
- マルチモーダル理解:可同时分析图像、视频和文本数据
- 分散推論:通过上下文并行技术实现高效计算
- クロスプラットフォーム対応:兼容Ascend NPU和Nvidia GPU硬件
该模型由腾讯优图实验室、南京大学和厦门大学联合研发,完全基于开源数据集训练,适合视频理解、高分辨率图像解析等复杂场景。
この答えは記事から得たものである。Long-VITA:非常に長い文脈出力をサポートする視覚言語モデルについて