
GLM-4.5V: Ein multimodales Dialogmodell, das Bilder und Videos versteht und Code erzeugt
GLM-4.5V ist eine neue Generation des von Zhipu AI (Z.AI) entwickelten Visual Language Megamodel (VLM). Das Modell basiert auf dem Flaggschiff-Textmodell GLM-4.5-Air unter Verwendung der MOE-Architektur, mit 106 Milliarden Gesamtreferenzen, einschließlich 12 Milliarden Aktivierungsparametern.GLM-4.5V verarbeitet nicht nur Bilder und Texte, sondern versteht auch visuelle...

ARC-Hunyuan-Video-7B: Ein intelligentes Modell zum Verstehen kurzer Videoinhalte
ARC-Hunyuan-Video-7B 是一个由腾讯 ARC 实验室开发的开源多模态模型,专注于理解用户生成的短视频内容。它通过整合视频的视觉、音频和文本信息,提供深度的结构化分析。该模型能处理复杂视觉元素、高密度音频信息和快速节奏的短视...

GLM-4.1V-Thinking: ein quelloffenes visuelles Inferenzmodell zur Unterstützung komplexer multimodaler Aufgaben
GLM-4.1V-Thinking ist ein quelloffenes visuelles Sprachmodell, das vom KEG Lab der Tsinghua Universität (THUDM) entwickelt wurde und sich auf multimodale Argumentationsfähigkeiten konzentriert. Basierend auf dem Basismodell GLM-4-9B-0414 verwendet GLM-4.1V-Thinking Verstärkungslernen und "chain-of-mind"-Schlussfolgernde Mechanismen,...

VideoMind
VideoMind ist ein quelloffenes, multimodales KI-Tool, das sich auf Schlussfolgerungen, Fragen und Antworten sowie die Erstellung von Zusammenfassungen für lange Videos konzentriert. Entwickelt wurde es von Ye Liu von der Polytechnischen Universität Hongkong und einem Team des Show Lab an der Nationalen Universität von Singapur. Das Tool ahmt die Art und Weise nach, wie Menschen Videos verstehen, indem es die Aufgabe in Schritte wie Planung, Positionierung, Verifizierung und Beantwortung aufteilt, einen nach dem anderen.

DeepSeek-VL2
DeepSeek-VL2 ist eine Reihe von fortschrittlichen Mixture-of-Experts (MoE) visuellen Sprachmodellen, die die Leistung des Vorgängers DeepSeek-VL deutlich verbessern. Die Modelle zeichnen sich durch Aufgaben wie visuelle Frage und Antwort, optische Zeichenerkennung, Verstehen von Dokumenten/Tabellen/Diagrammen und visuelle Lokalisierung aus....

Reka: Bereitstellung multimodaler KI-Modelle, Unterstützung mehrsprachiger Verarbeitung, Optimierung der Datenanalyse und Verbesserung des visuellen Verständnisses
Reka ist ein Unternehmen, das sich der Bereitstellung einer neuen Generation von multimodalen KI-Lösungen verschrieben hat. Zu den Produkten gehören Reka Core-, Flash-, Edge- und Spark-Modelle, die die Verarbeitung von Text-, Code-, Bild-, Video- und Audiodaten unterstützen. Die Modelle von Reka verfügen über leistungsstarke Argumentationsfähigkeiten und mehrsprachige Unterstützung für eine Vielzahl von Einsatzschleifen.
zurück zum Anfang