Long-VITA在三个维度实现技术突破:
- Context length:100万token处理能力是当前开源模型的5-10倍,采用创新的上下文并行架构
- Training methodology:基于1700万公开样本的纯开源训练,确保完全可复现性
- performance balancing:通过短上下文优化模块,在MMBench等基准测试中保持传统任务的SOTA性能
具体而言,在1M token长度的Video-MME评测中,其准确率比LLaVA-1.5高出29%,而16K长度下仍保持相当精度。
This answer comes from the articleLong-VITA: A Visual Language Model Supporting Very Long Contextual OutputsThe