Grundmodell

 Website einreichen

GLM-4.5V: Ein multimodales Dialogmodell, das Bilder und Videos versteht und Code erzeugt
GLM-4.5V ist eine neue Generation des von Zhipu AI (Z.AI) entwickelten Visual Language Megamodel (VLM). Das Modell basiert auf dem Flaggschiff-Textmodell GLM-4.5-Air unter Verwendung der MOE-Architektur, mit 106 Milliarden Gesamtreferenzen, einschließlich 12 Milliarden Aktivierungsparametern.GLM-4.5V verarbeitet nicht nur Bilder und Texte, sondern versteht auch visuelle...
5.3 Kdurch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
ARC-Hunyuan-Video-7B: Ein intelligentes Modell zum Verstehen kurzer Videoinhalte
ARC-Hunyuan-Video-7B ist ein quelloffenes multimodales Modell, das vom ARC Lab von Tencent entwickelt wurde und sich auf das Verständnis von nutzergenerierten kurzen Videoinhalten konzentriert. Es bietet eine tiefgreifende strukturierte Analyse durch die Integration von visuellen, Audio- und Textinformationen aus Videos. Das Modell kann mit komplexen visuellen Elementen, dichten Audioinformationen und schnellen kurzen Videos umgehen...
3.5 Kdurch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
GLM-4.1V-Thinking: ein quelloffenes visuelles Inferenzmodell zur Unterstützung komplexer multimodaler Aufgaben
GLM-4.1V-Thinking ist ein quelloffenes visuelles Sprachmodell, das vom KEG Lab der Tsinghua Universität (THUDM) entwickelt wurde und sich auf multimodale Argumentationsfähigkeiten konzentriert. Basierend auf dem Basismodell GLM-4-9B-0414 verwendet GLM-4.1V-Thinking Verstärkungslernen und "chain-of-mind"-Schlussfolgernde Mechanismen,...
3.5 Kdurch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
VideoMind
VideoMind ist ein quelloffenes, multimodales KI-Tool, das sich auf Schlussfolgerungen, Fragen und Antworten sowie die Erstellung von Zusammenfassungen für lange Videos konzentriert. Entwickelt wurde es von Ye Liu von der Polytechnischen Universität Hongkong und einem Team des Show Lab an der Nationalen Universität von Singapur. Das Tool ahmt die Art und Weise nach, wie Menschen Videos verstehen, indem es die Aufgabe in Schritte wie Planung, Positionierung, Verifizierung und Beantwortung aufteilt, einen nach dem anderen.
4.8 Kdurch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
DeepSeek-VL2
DeepSeek-VL2 ist eine Reihe von fortschrittlichen Mixture-of-Experts (MoE) visuellen Sprachmodellen, die die Leistung des Vorgängers DeepSeek-VL deutlich verbessern. Die Modelle zeichnen sich durch Aufgaben wie visuelle Frage und Antwort, optische Zeichenerkennung, Verstehen von Dokumenten/Tabellen/Diagrammen und visuelle Lokalisierung aus....
4.5 Kdurch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
Reka: Bereitstellung multimodaler KI-Modelle, Unterstützung mehrsprachiger Verarbeitung, Optimierung der Datenanalyse und Verbesserung des visuellen Verständnisses
Reka ist ein Unternehmen, das sich der Bereitstellung einer neuen Generation von multimodalen KI-Lösungen verschrieben hat. Zu den Produkten gehören Reka Core-, Flash-, Edge- und Spark-Modelle, die die Verarbeitung von Text-, Code-, Bild-, Video- und Audiodaten unterstützen. Die Modelle von Reka verfügen über leistungsstarke Argumentationsfähigkeiten und mehrsprachige Unterstützung für eine Vielzahl von Einsatzschleifen.
4.7 Kdurch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen

Grundmodell

Schnellabfragestation AI-Tool