Long-VITA在三个维度实现技术突破:
- コンテキストの長さ:100万token处理能力是当前开源模型的5-10倍,采用创新的上下文并行架构
- トレーニング方法:基于1700万公开样本的纯开源训练,确保完全可复现性
- パフォーマンス・バランシング:通过短上下文优化模块,在MMBench等基准测试中保持传统任务的SOTA性能
具体而言,在1M token长度的Video-MME评测中,其准确率比LLaVA-1.5高出29%,而16K长度下仍保持相当精度。
この答えは記事から得たものである。Long-VITA:非常に長い文脈出力をサポートする視覚言語モデルについて