
GLM-4.5V: Ein multimodales Dialogmodell, das Bilder und Videos versteht und Code erzeugt
GLM-4.5V ist eine neue Generation des von Zhipu AI (Z.AI) entwickelten Visual Language Megamodel (VLM). Das Modell basiert auf dem Flaggschiff-Textmodell GLM-4.5-Air unter Verwendung der MOE-Architektur, mit 106 Milliarden Gesamtreferenzen, einschließlich 12 Milliarden Aktivierungsparametern.GLM-4.5V verarbeitet nicht nur Bilder und Texte, sondern versteht auch visuelle...

Schritt 3: Effiziente Generierung von quelloffenen Makromodellen für multimodale Inhalte
Step3 ist ein Open-Source-Projekt zur multimodalen Makromodellierung, das von StepFun entwickelt und auf GitHub gehostet wird. Es zielt darauf ab, effiziente und kostengünstige Funktionen zur Generierung von Text-, Bild- und Sprachinhalten bereitzustellen. Im Mittelpunkt des Projekts steht ein Mixed Expert Model (MoE) mit 32,1 Milliarden Parametern (3,8 Milliarden aktive Parameter), das auf Inferenzgeschwindigkeit und Leistung optimiert ist und sich für...

AutoArk: Eine Multi-Intelligenz-KI-Plattform für die Zusammenarbeit bei komplexen Aufgaben
AutoArk ist ein Unternehmen, das sich auf die Technologie der künstlichen Intelligenz konzentriert, deren Kernstück das selbst entwickelte multimodale End-to-End-Modell EVA-1 ist, das GPT-4o in vielen internationalen Benchmarks übertrifft. Auf der Grundlage des EVA-1-Modells hat AutoArk ein multimodales Framework namens “ArkAgentOS” weiterentwickelt Auf der Grundlage des EVA-1-Modells hat Boundless Ark ein Multi-Intelligenz-Framework namens "ArkAgentOS" weiterentwickelt. Auf der Grundlage des EVA-1-Modells hat Boundless Ark ein Multi-Intelligenz-Framework namens "ArkAgentOS" entwickelt, das...

GLM-4.1V-Thinking: ein quelloffenes visuelles Inferenzmodell zur Unterstützung komplexer multimodaler Aufgaben
GLM-4.1V-Thinking ist ein quelloffenes visuelles Sprachmodell, das vom KEG Lab der Tsinghua Universität (THUDM) entwickelt wurde und sich auf multimodale Argumentationsfähigkeiten konzentriert. Basierend auf dem Basismodell GLM-4-9B-0414 verwendet GLM-4.1V-Thinking Verstärkungslernen und "chain-of-mind"-Schlussfolgernde Mechanismen,...

Gemma 3n
Mit der Veröffentlichung von Gemma 3 und Gemma 3 QAT, Open-Source-Modellen, die auf einem einzigen Cloud- oder Desktop-Beschleuniger laufen, erweitert Google seinen Fußabdruck für integrative KI. Wenn Gemma 3 den Entwicklern leistungsstarke Cloud- und Desktop-Funktionen bot, so wird diese Version vom 20. Mai 2025...

BAGEL
BAGEL ist ein vom ByteDance Seed-Team entwickeltes und auf GitHub gehostetes Open-Source-Multimodal-Basismodell, das Textverständnis, Bilderzeugung und Editierfunktionen zur Unterstützung crossmodaler Aufgaben integriert. Das Modell hat 7B aktive Parameter (14B Parameter insgesamt) und verwendet Mixture-of-Tra...

MoshiVis
MoshiVis ist ein Open-Source-Projekt, das von Kyutai Labs entwickelt und auf GitHub gehostet wird. Es basiert auf dem Moshi-Sprache-zu-Text-Modell (7B-Parameter), mit etwa 206 Millionen neuen Anpassungsparametern und dem eingefrorenen PaliGemma2-Visual-Coder (400M-Parameter), der es dem Modell ermöglicht,...

Qwen2.5-Omni
Qwen2.5-Omni ist ein Open-Source-Modell für multimodale KI, das vom Alibaba Cloud Qwen-Team entwickelt wurde. Es kann mehrere Eingaben wie Text, Bilder, Audio und Video verarbeiten und Antworten in Text oder natürlicher Sprache in Echtzeit erzeugen. Das Modell wurde am 26. März 2025 veröffentlicht, und der Code und die Modelldateien werden auf GitHu...

Step-Audio
Step-Audio ist ein Open-Source-Framework für intelligente Sprachinteraktion, das entwickelt wurde, um sofort einsetzbare Sprachverstehens- und -erzeugungsfunktionen für Produktionsumgebungen bereitzustellen. Das Framework unterstützt mehrsprachige Dialoge (z.B. Chinesisch, Englisch, Japanisch), emotionale Sprache (z.B. fröhlich, traurig), regionale Dialekte (z.B. Kantonesisch, Sichuan), einstellbare Sprechgeschwindigkeit und rhythmischen Stil (z.B. Rap).Step-...

VITA
VITA ist ein führendes Open-Source-Projekt zur interaktiven multimodalen Modellierung großer Sprachen, das Pionierarbeit bei der Realisierung echter multimodaler Interaktion leistet. Das Projekt startete VITA-1.0 im August 2024 und leistete damit Pionierarbeit für das erste quelloffene interaktive vollmodale große Sprachmodell.

Megrez-3B-Omni
Infini-Megrez ist eine Edge-Intelligence-Lösung, die von der unquestioned core dome (Infinigence AI) entwickelt wurde und darauf abzielt, ein effizientes multimodales Verstehen und Analysieren durch Hardware- und Software-Co-Design zu erreichen. Kernstück des Projekts ist das Megrez-3B-Modell, das integriertes Bild-, Text- und Audioverständnis mit hoher Genauigkeit und schneller Inferenz unterstützt...
zurück zum Anfang