Gemma 3n
Mit der Veröffentlichung von Gemma 3 und Gemma 3 QAT, Open-Source-Modellen, die auf einem einzigen Cloud- oder Desktop-Beschleuniger laufen, erweitert Google seinen Fußabdruck für integrative KI. Wenn Gemma 3 den Entwicklern leistungsstarke Cloud- und Desktop-Funktionen bot, so wird diese Version vom 20. Mai 2025...
MoviiGen 1.1
MoviiGen 1.1 ist ein Open-Source-KI-Tool, das von ZuluVision entwickelt wurde und sich auf die Erstellung hochwertiger Videos aus Text konzentriert. Es unterstützt Auflösungen von 720P und 1080P und ist besonders für die professionelle Videoproduktion geeignet, die visuelle Kinoeffekte erfordert. Benutzer können Videos aus einfachen Textbeschreibungen mit natürlichen dynamischen Effekten generieren...
HiDream-I1
HiDream-I1 ist ein Open-Source-Basismodell für die Bilderzeugung mit 17 Milliarden Parametern, mit dem sich schnell Bilder in hoher Qualität erzeugen lassen. Benutzer müssen nur eine Textbeschreibung eingeben, und das Modell kann Bilder in einer Vielzahl von Stilen erzeugen, darunter realistisch, Cartoon und künstlerisch. Das vom HiDream.ai-Team entwickelte und auf GitHub gehostete Projekt wählt...
Bilder 4
Das kürzlich von Google DeepMind vorgestellte Modell Imagen 4, die neueste Iteration seiner Bilderzeugungstechnologie, rückt schnell in den Fokus der Branche. Das Modell hat erhebliche Fortschritte bei der Verbesserung des Reichtums, der Detailgenauigkeit und der Geschwindigkeit der Bilderzeugung gemacht, um die Fantasie des Nutzers auf eine Weise zum Leben zu erwecken wie nie zuvor...
BAGEL
BAGEL ist ein vom ByteDance Seed-Team entwickeltes und auf GitHub gehostetes Open-Source-Multimodal-Basismodell, das Textverständnis, Bilderzeugung und Editierfunktionen zur Unterstützung crossmodaler Aufgaben integriert. Das Modell hat 7B aktive Parameter (14B Parameter insgesamt) und verwendet Mixture-of-Tra...
MiniMax Speech 02
Mit der kontinuierlichen Weiterentwicklung der KI-Technologien ist die personalisierte und sehr natürliche Sprachinteraktion zu einer Schlüsselanforderung für viele intelligente Anwendungen geworden. Bestehende Text-to-Speech (TTS)-Technologien stehen jedoch immer noch vor der Herausforderung, personalisierte Töne in großem Maßstab, eine mehrsprachige Abdeckung und einen äußerst realistischen Emotionsausdruck zu erreichen. Um diese Probleme zu lösen...
Windsurf SWE-1
SWE-1: Eine neue Generation modernster Modelle für das Software-Engineering Vor kurzem wurde die mit Spannung erwartete Modellfamilie SWE-1 veröffentlicht. Diese Modellfamilie wurde entwickelt, um den gesamten Softwareentwicklungsprozess zu optimieren, und geht weit über die traditionelle Aufgabe des Codeschreibens hinaus. Derzeit besteht die SWE-1-Familie aus drei gut positionierten Modellen:...
VideoMind
VideoMind ist ein quelloffenes, multimodales KI-Tool, das sich auf Schlussfolgerungen, Fragen und Antworten sowie die Erstellung von Zusammenfassungen für lange Videos konzentriert. Entwickelt wurde es von Ye Liu von der Polytechnischen Universität Hongkong und einem Team des Show Lab an der Nationalen Universität von Singapur. Das Tool ahmt die Art und Weise nach, wie Menschen Videos verstehen, indem es die Aufgabe in Planung, Positionierung, Überprüfung...
MoshiVis
MoshiVis ist ein Open-Source-Projekt, das von Kyutai Labs entwickelt und auf GitHub gehostet wird. Es basiert auf dem Moshi-Sprache-zu-Text-Modell (7B-Parameter), mit etwa 206 Millionen neuen Anpassungsparametern und dem eingefrorenen PaliGemma2-Visual-Coder (400M-Parameter), der es dem Modell ermöglicht,...
Qwen2.5-Omni
Qwen2.5-Omni ist ein Open-Source-Modell für multimodale KI, das vom Alibaba Cloud Qwen-Team entwickelt wurde. Es kann mehrere Eingaben wie Text, Bilder, Audio und Video verarbeiten und Antworten in Text oder natürlicher Sprache in Echtzeit erzeugen. Das Modell wurde am 26. März 2025 veröffentlicht, und der Code und die Modelldateien werden auf GitH.... gehostet.
StarVector
StarVector ist ein Open-Source-Projekt, das von Entwicklern wie Juan A. Rodriguez ins Leben gerufen wurde, um Bilder und Text in skalierbare Vektorgrafiken (SVG) zu konvertieren. Dieses Tool verwendet ein visuelles Sprachmodell, das Bildinhalte und Textanweisungen versteht, um hochwertigen SVG-Code zu erzeugen. Sein Kern...
LaWGPT
LaWGPT ist ein Open-Source-Projekt, das von der Forschungsgruppe für maschinelles Lernen und Data Mining der Universität Nanjing unterstützt wird und sich dem Aufbau eines großen Sprachmodells auf der Grundlage des chinesischen Rechtswissens widmet. Es erweitert die proprietären Wortlisten im juristischen Bereich auf der Grundlage generischer chinesischer Modelle (z. B. Chinese-LLaMA und ChatGLM) und durch groß angelegte...
Baichuan-Audio
Baichuan-Audio ist ein von Baichuan Intelligence (baichuan-inc) entwickeltes Open-Source-Projekt, das auf GitHub gehostet wird und sich auf End-to-End-Sprachinteraktionstechnologie konzentriert. Das Projekt bietet ein komplettes Audio-Verarbeitungs-Framework, das Spracheingabe in diskrete Audio-Token umwandeln kann, und dann durch ein großes Modell, um ein Paar von ...
Schritt-Audio
Step-Audio ist ein Open-Source-Framework für intelligente Sprachinteraktion, das entwickelt wurde, um sofort einsetzbare Sprachverstehens- und -erzeugungsfunktionen für Produktionsumgebungen bereitzustellen. Das Framework unterstützt mehrsprachige Dialoge (z. B. Chinesisch, Englisch, Japanisch), emotionale Sprache (z. B. fröhlich, traurig), regionale Dialekte (z. B. Kantonesisch, Sichuan), einstellbare Sprachgeschwindigkeit...
DeepSeek-VL2
DeepSeek-VL2 ist eine Reihe von fortschrittlichen Mixture-of-Experts (MoE) visuellen Sprachmodellen, die die Leistung des Vorgängers DeepSeek-VL deutlich verbessern. Die Modelle zeichnen sich durch Aufgaben wie visuelle Frage und Antwort, optische Zeichenerkennung, Verstehen von Dokumenten/Tabellen/Diagrammen und visuelle Lokalisierung aus....
VITA
VITA ist ein führendes quelloffenes, interaktives, multimodales Projekt zur Modellierung großer Sprachen, das Pionierarbeit bei der Verwirklichung echter, vollständig multimodaler Interaktion leistet. Das Projekt startete VITA-1.0 im August 2024 und leistete damit Pionierarbeit für das erste quelloffene, interaktive, vollständig modale große Sprachmodell. Im Dezember 2024 startete das Projekt ein großes Upgrade...
AnyText
AnyText是一个革命性的多语言视觉文本生成和编辑工具,基于扩散模型开发。它能够在图像中生成自然、高质量的多语种文本,并支持灵活的文本编辑功能。该项目由研究团队开发,并在ICLR 2024会议上获得Spotlight荣誉...
Megrez-3B-Omni
Infini-Megrez ist eine Edge-Intelligence-Lösung, die vom unquestioned core dome (Infinigence AI) entwickelt wurde und darauf abzielt, ein effizientes multimodales Verstehen und Analysieren durch gemeinsames Design von Hardware und Software zu erreichen. Das Herzstück des Projekts ist das Megrez-3B-Modell, das ein integriertes Bild-, Text- und Audioverständnis mit hoher Genauigkeit und schneller...
OmniGen
OmniGen 是一个由 VectorSpaceLab(智源) 开发的“通用”图像生成模型,允许用户通过简单的文本提示或多模态输入来创建多样化且具有上下文丰富的视觉效果。它特别适合于需要识别人物和一致性角色渲染的场景。用户...