Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Tarsier ist eine Familie von Open-Source-Videosprachmodellen, die von ByteDance

2025-08-25 1.3 K

Hintergrund und Positionierung bei der Entwicklung des Tarsier-Modells

Tarsier ist eine Familie von selbst entwickelten Open-Source-Modellen für das Verstehen von Videos unter ByteDance (Bytedance), deren Hauptaufgabe darin besteht, eine qualitativ hochwertige Analyse von Videoinhalten durch crossmodale Technologie zu erreichen. Die Modellfamilie nutzt das CLIP-ViT-Framework zur Verarbeitung visueller Informationen, kombiniert mit der Fähigkeit zur Analyse zeitlicher Beziehungen des großen Sprachmodells, und bildet damit ein vollständiges System zur Verarbeitung von Videosprache. In der neuesten Version, die im Januar 2025 veröffentlicht wurde, hat Tarsier2-7B in 16 internationalen öffentlichen Benchmarks branchenführende Werte erreicht und damit seine Stärke im Wettbewerb mit Spitzenmodellen wie GPT-4o unter Beweis gestellt.

  • Technische Architektur: basierend auf visuell-verbalem bimodalem Design
  • Versionsentwicklung: Leistungsverbesserungen von der ersten Version bis zu Tarsier 2-7B
  • Open-Source-Strategie: vollständige Offenlegung der Modellgewichte, des Trainingscodes und der Bewertungswerkzeuge

Besonders hervorzuheben ist, dass das Projekt nicht nur das Modell selbst bereitstellt, sondern auch die Veröffentlichung des DREAM-1K-Benchmark-Datensatzes begleitet, der 1.000 professionell kommentierte Videoclips enthält und der Industrie ein standardisiertes Bewertungssystem bietet.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch