ターシャ2-7B、複数の映像理解課題でトップレベルに到達

2025-08-25

1.4 K

モデル性能における技術的ブレークスルー

シリーズのフラッグシップモデルであるTarsier2-7Bは、70億のパラメータを持つ先進的なアーキテクチャを採用し、映像説明生成、クロスモーダルQ&A、ゼロサンプル字幕生成などのコアタスクにおいて優れた性能を発揮します。その技術的優位性は主に3つの次元に反映されている：

具体的な例では、典型的な生活シーンの動画（コーヒーを飲む、運動する、など）に対して、このモデルはアクションシーケンス、オブジェクト属性、シーンコンテキストを正確に認識し、人間の言語規則に準拠した説明テキストを出力する。この性能は革新的な学習戦略によるものである：