CosyVoice: Ali quelloffenes mehrsprachiges Klon- und Generierungswerkzeug
CosyVoice ist ein quelloffenes, mehrsprachiges Spracherzeugungsmodell mit Schwerpunkt auf hochwertiger Text-to-Speech (TTS)-Technologie. Es unterstützt die Sprachsynthese in mehreren Sprachen und bietet Funktionen wie Null-Sample-Sprachgenerierung, sprachübergreifendes Sprachklonen und feinkörnige Sentiment-Kontrolle.Cos- yVoice 2.0 vergleicht die Vorgängerversion...
Qwen-TTS: Ein Sprachsynthesewerkzeug mit chinesischem Dialekt und zweisprachiger Unterstützung
Qwen-TTS ist ein Text-to-Speech-Tool (TTS), das vom Alibaba Cloud Qwen-Team entwickelt und über die Qwen-API bereitgestellt wird. Es wurde auf einem umfangreichen Sprachdatensatz trainiert und bietet eine natürliche und ausdrucksstarke Sprachausgabe, die automatisch Intonation, Sprechgeschwindigkeit und Emotionen anpasst....
Kyutai: Werkzeug zur Umwandlung von Sprache in Text in Echtzeit
Das Delayed-Streams-Modelling-Projekt von Kyutai Labs ist ein Open-Source-Framework für die Umwandlung von Sprache in Text, dessen Kern auf der Delayed-Stream-Modelling-Technologie (DSM) basiert. Es unterstützt Echtzeit-Sprache-zu-Text- (STT) und Text-zu-Sprache- (TTS) Funktionen, die für die Entwicklung effizienter Sprachinteraktionsanwendungen geeignet sind. Das Projekt bietet P...
DeepSeek-TNG-R1T2-Chimera: DeepSeek-Erweiterungen von TNG Deutschland veröffentlicht
DeepSeek-TNG-R1T2-Chimera ist ein Open-Source-Großsprachenmodell, das von der TNG Technology Consulting GmbH entwickelt und auf der Hugging Face-Plattform gehostet wird. Das Modell wurde am 2. Juli 2025 veröffentlicht und ist ein Teil des D...
Index-AniSora: Bilibili, ein Open-Source-Tool zur Erstellung von Anime-Videos
Index-AniSora ist ein Anime-Video-Generierungsmodell, das von Bilibili entwickelt und auf GitHub gehostet wird. Es verwendet CogVideoX-5B und Wan2.1-14B als Basismodell und unterstützt die Erzeugung von verschiedenen Anime-Stil Videos, einschließlich Anime-Episoden, inländische Original-Animation, Manga-Adaptionen, VTube...
GLM-4.1V-Thinking: ein quelloffenes visuelles Inferenzmodell zur Unterstützung komplexer multimodaler Aufgaben
GLM-4.1V-Thinking ist ein quelloffenes visuelles Sprachmodell, das vom KEG Lab der Tsinghua Universität (THUDM) entwickelt wurde und sich auf multimodale Argumentationsfähigkeiten konzentriert. Basierend auf dem Basismodell GLM-4-9B-0414 verwendet GLM-4.1V-Thinking Verstärkungslernen und "chain-of-mind"-Schlussfolgernde Mechanismen,...
ERNIE 4.5
ERNIE 4.5 ist eine Open-Source-Modellfamilie, die von Baidu auf der Grundlage des PaddlePaddle-Frameworks entwickelt wurde und eine breite Palette von Modellen mit 0,3B bis 424B Parametern abdeckt, die Textverarbeitung, Bilderzeugung und multimodale Aufgaben unterstützen. Das Projekt wird auf GitHub gehostet, kombiniert mit Hugging Face, um Modelle zu liefern ...
Hunyuan-A13B: Effiziente Open-Source-Großsprachmodelle für ultralange Kontexte und intelligentes Reasoning
Hunyuan-A13B ist ein Open-Source-Modell für große Sprachen, das von Tencents Hybrid-Team entwickelt wurde und auf der Mixed-Expert-Architektur (MoE) basiert. Das Modell hat 8 Milliarden Parameter, von denen 1,3 Milliarden aktive Parameter sind, unter Berücksichtigung der hohen Leistung und niedrigen Rechenkosten.Hunyuan-A13B unterstützt 256K ultra-langen Kontext Verarbeitung, geeignet für...
Einführung von FLUX.1 Kontext und BFL Playground
Heute sind wir stolz darauf, FLUX.1 Kontext zu veröffentlichen - eine Reihe von generativen Flow-Matching-Modelle zur Unterstützung der Bilderzeugung und Bearbeitung. Im Gegensatz zu bestehenden textbasierten Bildgenerierungsmodellen unterstützt die FLUX.1 Kontext-Familie kontextabhängige...
PartCrafter: Generierung bearbeitbarer 3D-Teilemodelle aus einem einzigen Bild
PartCrafter ist ein innovatives Open-Source-Projekt, das sich auf die Erzeugung editierbarer 3D-Teilemodelle aus einem einzigen RGB-Bild konzentriert. Es verwendet eine fortschrittliche strukturierte 3D-Generierungstechnologie, um mehrere semantisch sinnvolle 3D-Teile gleichzeitig aus einem einzigen Bild zu generieren, die für die Spieleentwicklung, das Produktdesign und andere Bereiche geeignet sind. Das Projekt basiert auf Pre-Training...
Seedance 1.0
Seedance 1.0 ist ein vom Seed-Team bei ByteDance entwickeltes Tool zur Erzeugung von KI-Videos, das sich auf die Umwandlung von Text oder Bildern in hochwertige Videoinhalte konzentriert. Benutzer müssen nur eine Textbeschreibung eingeben oder ein Bild hochladen, und Seedance kann Videos mit einer Auflösung von bis zu 1080p generieren, die für die Erstellung kreativer Inhalte geeignet sind, .....
Gemma 3n
Mit der Veröffentlichung von Gemma 3 und Gemma 3 QAT, Open-Source-Modellen, die auf einem einzigen Cloud- oder Desktop-Beschleuniger laufen, erweitert Google seinen Fußabdruck für integrative KI. Wenn Gemma 3 den Entwicklern leistungsstarke Cloud- und Desktop-Funktionen bot, so wird diese Version vom 20. Mai 2025...
MoviiGen 1.1
MoviiGen 1.1 ist ein Open-Source-KI-Tool, das von ZuluVision entwickelt wurde und sich auf die Erstellung hochwertiger Videos aus Text konzentriert. Es unterstützt Auflösungen von 720P und 1080P und ist besonders für die professionelle Videoproduktion geeignet, die visuelle Kinoeffekte erfordert. Benutzer können Videos aus einfachen Textbeschreibungen mit natürlichen dynamischen Effekten generieren...
HiDream-I1
HiDream-I1 ist ein Open-Source-Basismodell für die Bilderzeugung mit 17 Milliarden Parametern, mit dem sich schnell Bilder in hoher Qualität erzeugen lassen. Benutzer müssen nur eine Textbeschreibung eingeben, und das Modell kann Bilder in einer Vielzahl von Stilen erzeugen, darunter realistisch, Cartoon und künstlerisch. Das vom HiDream.ai-Team entwickelte und auf GitHub gehostete Projekt wählt...
Bilder 4
Das kürzlich von Google DeepMind vorgestellte Modell Imagen 4, die neueste Iteration seiner Bilderzeugungstechnologie, rückt schnell in den Fokus der Branche. Das Modell hat erhebliche Fortschritte bei der Verbesserung des Reichtums, der Detailgenauigkeit und der Geschwindigkeit der Bilderzeugung gemacht, um die Fantasie des Nutzers auf eine Weise zum Leben zu erwecken wie nie zuvor...
BAGEL
BAGEL ist ein vom ByteDance Seed-Team entwickeltes und auf GitHub gehostetes Open-Source-Multimodal-Basismodell, das Textverständnis, Bilderzeugung und Editierfunktionen zur Unterstützung crossmodaler Aufgaben integriert. Das Modell hat 7B aktive Parameter (14B Parameter insgesamt) und verwendet Mixture-of-Tra...
MiniMax Speech 02
Mit der kontinuierlichen Weiterentwicklung der KI-Technologien ist die personalisierte und sehr natürliche Sprachinteraktion zu einer Schlüsselanforderung für viele intelligente Anwendungen geworden. Bestehende Text-to-Speech (TTS)-Technologien stehen jedoch immer noch vor der Herausforderung, personalisierte Töne in großem Maßstab, eine mehrsprachige Abdeckung und einen äußerst realistischen Emotionsausdruck zu erreichen. Um diese Probleme zu lösen...
Windsurf SWE-1
SWE-1: Eine neue Generation modernster Modelle für das Software-Engineering Vor kurzem wurde die mit Spannung erwartete Modellfamilie SWE-1 veröffentlicht. Diese Modellfamilie wurde entwickelt, um den gesamten Softwareentwicklungsprozess zu optimieren, und geht weit über die traditionelle Aufgabe des Codeschreibens hinaus. Derzeit besteht die SWE-1-Familie aus drei gut positionierten Modellen:...
Qwen3 veröffentlicht: Eine neue Generation von Big Language-Modellen für tiefgreifendes Denken und schnelles Reagieren
Der Bereich der großen Sprachmodelle hat ein neues Mitglied. Kürzlich hat die Qwen-Familie großer Sprachmodelle ihre neueste Version, Qwen3, veröffentlicht. Nach Angaben des Entwicklerteams hat sich das Flaggschiffmodell, Qwen3-235B-A22B, in Benchmarks für Codierung, mathematische und allgemeine Fähigkeiten als vergleichbar mit DeepSeek-R1 , o1 , o3 erwiesen...