Analyse des cross-modalen Verständnisses und der generativen Fähigkeiten
Die multimodale Engine von GLM-4.5 macht es zu einem der wenigen großen Open-Source-Modelle, die sowohl Text als auch Bilder verarbeiten können. Für die technische Umsetzung verwendet das Modell eine duale Encoder-Architektur: Der Textzweig basiert auf dem autoregressiven Transformator, und der visuelle Zweig verwendet ein verbessertes ViT-Modell, das die Informationsfusion durch einen cross-modalen Aufmerksamkeitsmechanismus erreicht. Seine multimodalen Fähigkeiten manifestieren sich in drei Dimensionen: erstens, grafische Q&A, wie z.B. das Parsen von Bildern mathematischer Probleme und die Angabe von Lösungsschritten; zweitens, Inhaltsgenerierung, Ausgabe strukturierter Berichte auf der Grundlage von Textbeschreibungen und automatischem Abgleich von Illustrationen; und drittens, Dokumentenverständnis, Unterstützung des semantischen Parsens von PDF/PPT und anderen Formaten.
In der Praxis erreicht das Modell beim TextVQA-Benchmark-Test eine Genauigkeit von 78,2% und ist damit deutlich besser als Open-Source-Modelle mit derselben Parametergröße. In Bezug auf kommerzielle Anwendungen ist die Fähigkeit besonders geeignet für intelligenten Kundenservice (automatisches Parsen von Produktdiagrammen), Bildungstechnologie (grafische Lösung von Mathematikaufgaben), Inhaltsprüfung (grafische Konsistenzprüfung) und andere Szenarien. Es ist erwähnenswert, dass die aktuelle Version vorerst keine Videoverarbeitung unterstützt, was einen der Hauptunterschiede zu den führenden Closed-Source-Modellen darstellt.
Diese Antwort stammt aus dem ArtikelGLM-4.5: Open Source Multimodale Großmodelle zur Unterstützung intelligenter Schlussfolgerungen und CodegenerierungDie