GLM-4.5V: Ein multimodales Dialogmodell, das Bilder und Videos versteht und Code erzeugt
GLM-4.5V ist eine neue Generation des von Zhipu AI (Z.AI) entwickelten Visual Language Megamodel (VLM). Das Modell basiert auf dem Flaggschiff-Textmodell GLM-4.5-Air unter Verwendung der MOE-Architektur, mit 106 Milliarden Gesamtreferenzen, einschließlich 12 Milliarden Aktivierungsparametern.GLM-4.5V verarbeitet nicht nur Bilder und Texte, sondern versteht auch visuelle...
ARC-Hunyuan-Video-7B: Ein intelligentes Modell zum Verstehen kurzer Videoinhalte
ARC-Hunyuan-Video-7B ist ein vom ARC-Labor von Tencent entwickeltes, quelloffenes multimodales Modell, das sich auf das Verständnis von nutzergenerierten kurzen Videoinhalten konzentriert. Es bietet eine tiefgreifende strukturierte Analyse durch die Integration von visuellen, Audio- und Textinformationen von Videos. Das Modell kann komplexe visuelle Elemente, Audioinformationen mit hoher Dichte...
GLM-4.1V-Thinking: ein quelloffenes visuelles Inferenzmodell zur Unterstützung komplexer multimodaler Aufgaben
GLM-4.1V-Thinking ist ein quelloffenes visuelles Sprachmodell, das vom KEG Lab der Tsinghua Universität (THUDM) entwickelt wurde und sich auf multimodale Argumentationsfähigkeiten konzentriert. Basierend auf dem Basismodell GLM-4-9B-0414 verwendet GLM-4.1V-Thinking Verstärkungslernen und "chain-of-mind"-Schlussfolgernde Mechanismen,...
VideoMind
VideoMind ist ein quelloffenes, multimodales KI-Tool, das sich auf Schlussfolgerungen, Fragen und Antworten sowie die Erstellung von Zusammenfassungen für lange Videos konzentriert. Entwickelt wurde es von Ye Liu von der Polytechnischen Universität Hongkong und einem Team des Show Lab an der Nationalen Universität von Singapur. Das Tool ahmt die Art und Weise nach, wie Menschen Videos verstehen, indem es die Aufgabe in Planung, Positionierung, Überprüfung...
DeepSeek-VL2
DeepSeek-VL2 ist eine Reihe von fortschrittlichen Mixture-of-Experts (MoE) visuellen Sprachmodellen, die die Leistung des Vorgängers DeepSeek-VL deutlich verbessern. Die Modelle zeichnen sich durch Aufgaben wie visuelle Frage und Antwort, optische Zeichenerkennung, Verstehen von Dokumenten/Tabellen/Diagrammen und visuelle Lokalisierung aus....
Reka: Bereitstellung multimodaler KI-Modelle, Unterstützung mehrsprachiger Verarbeitung, Optimierung der Datenanalyse und Verbesserung des visuellen Verständnisses
Reka ist ein Unternehmen, das sich der Bereitstellung einer neuen Generation von multimodalen KI-Lösungen verschrieben hat. Seine Produkte umfassen Reka Core-, Flash-, Edge- und Spark-Modelle, die die Verarbeitung von Text-, Code-, Bild-, Video- und Audiodaten unterstützen. Die Modelle von Reka verfügen über leistungsstarke Argumentationsfähigkeiten und mehrsprachige...
zurück zum Anfang