
GLM-4.5V: Ein multimodales Dialogmodell, das Bilder und Videos versteht und Code erzeugt
GLM-4.5V ist eine neue Generation des von Zhipu AI (Z.AI) entwickelten Visual Language Megamodel (VLM). Das Modell basiert auf dem Flaggschiff-Textmodell GLM-4.5-Air unter Verwendung der MOE-Architektur, mit 106 Milliarden Gesamtreferenzen, einschließlich 12 Milliarden Aktivierungsparametern.GLM-4.5V verarbeitet nicht nur Bilder und Texte, sondern versteht auch visuelle...

ARC-Hunyuan-Video-7B: Ein intelligentes Modell zum Verstehen kurzer Videoinhalte
ARC-Hunyuan-Video-7B 是一个由腾讯 ARC 实验室开发的开源多模态模型,专注于理解用户生成的短视频内容。它通过整合视频的视觉、音频和文本信息,提供深度的结构化分析。该模型能处理复杂视觉元素、高密度音频信息和快速节奏的短视...

GLM-4.1V-Thinking: ein quelloffenes visuelles Inferenzmodell zur Unterstützung komplexer multimodaler Aufgaben
GLM-4.1V-Thinking ist ein quelloffenes visuelles Sprachmodell, das vom KEG Lab der Tsinghua Universität (THUDM) entwickelt wurde und sich auf multimodale Argumentationsfähigkeiten konzentriert. Basierend auf dem Basismodell GLM-4-9B-0414 verwendet GLM-4.1V-Thinking Verstärkungslernen und "chain-of-mind"-Schlussfolgernde Mechanismen,...

VideoMind
VideoMind 是一个开源的多模态AI工具,专注于长视频的推理、问答和摘要生成。它由香港理工大学的刘晔(Ye Liu)和新加坡国立大学Show Lab的团队共同开发。工具模仿人类理解视频的方式,把任务拆成规划、定位、验证和回答等步骤,逐...

DeepSeek-VL2
DeepSeek-VL2 ist eine Reihe von fortschrittlichen Mixture-of-Experts (MoE) visuellen Sprachmodellen, die die Leistung des Vorgängers DeepSeek-VL deutlich verbessern. Die Modelle zeichnen sich durch Aufgaben wie visuelle Frage und Antwort, optische Zeichenerkennung, Verstehen von Dokumenten/Tabellen/Diagrammen und visuelle Lokalisierung aus....

Reka: Bereitstellung multimodaler KI-Modelle, Unterstützung mehrsprachiger Verarbeitung, Optimierung der Datenanalyse und Verbesserung des visuellen Verständnisses
Reka 是一家致力于提供新一代多模态AI解决方案的公司。其产品包括Reka Core、Flash、Edge和Spark等多种型号,支持文本、代码、图像、视频和音频数据的处理。Reka 的模型具有强大的推理能力和多语言支持,适用于各种部署环...
zurück zum Anfang