Long-VITA在三个维度实现技术突破:
- Länge des Kontexts:100万token处理能力是当前开源模型的5-10倍,采用创新的上下文并行架构
- Methodik der Ausbildung:基于1700万公开样本的纯开源训练,确保完全可复现性
- Leistungsbilanzierung:通过短上下文优化模块,在MMBench等基准测试中保持传统任务的SOTA性能
具体而言,在1M token长度的Video-MME评测中,其准确率比LLaVA-1.5高出29%,而16K长度下仍保持相当精度。
Diese Antwort stammt aus dem ArtikelLong-VITA: Ein visuelles Sprachmodell, das sehr lange kontextuelle Ausgaben unterstütztDie