Derzeitige Position:Abb. Anfang " AI-Antworten

Was ist der Qwen 2.5-VL und welche Verbesserungen bietet er gegenüber seinem Vorgänger?

2025-09-10

1.8 K

Qwen2.5-VL ist ein vom Alibaba Cloud Qwen-Team entwickeltes quelloffenes multimodales Big Model, das multimodale Daten wie Text, Bilder, Videos und Dokumente gleichzeitig verarbeiten kann. Als aktualisierte Version von Qwen2-VL basiert es auf dem leistungsfähigeren Sprachmodell Qwen2.5.

Im Vergleich zu seinem Vorgänger bietet der Qwen 2.5-VL erhebliche Verbesserungen in den folgenden Hauptbereichen:

Verbesserte Funktionen zur Analyse von Dokumenten, um handgeschriebenen Text, Tabellen, Diagramme und chemische Formeln besser zu extrahieren
Verbessertes Videoverständnis, das die Analyse von ultralangen Videos mit einer Länge von über einer Stunde und die Lokalisierung von Ereignisclips bis auf die zweite Ebene unterstützt
Intelligente Agentenfunktionen, die für eine genauere Steuerung Ihres Computers oder Mobiltelefons durch visuelle und textuelle Befehle optimiert wurden
Unterstützt Modelle mit größeren Parametergrößen (bis zu 72B), geeignet für Anwendungsszenarien mit unterschiedlichen arithmetischen Anforderungen
In Bezug auf die Leistungskennzahlen schneidet es in einer Reihe von Tests gut ab und übertrifft in einigen Bereichen sogar die Closed-Source-Modelle

Diese Antwort stammt aus dem ArtikelQwen2.5-VL: Ein quelloffenes multimodales Großmodell für die Analyse von Bild- und VideodokumentenDie

Darf nicht ohne Genehmigung vervielfältigt werden:KI-Produktivitätswerkzeuge " Was ist der Qwen 2.5-VL und welche Verbesserungen bietet er gegenüber seinem Vorgänger?