
xAI Grok Imagine API: sofort einsatzbereiter multimodaler Audio- und Videogenerierungsdienst für Produktionsumgebungen
Im Januar 2026 stellte xAI offiziell die Grok Imagine API vor, einen produktionsreifen multimodalen Videogenerierungsdienst für Entwickler und Unternehmen. Basierend auf dem von xAI intern entwickelten “Aurora”-Modell besteht die Kernfunktion des Dienstes in der Fähigkeit, Text auf Basis von...

DeepSeek-OCR: Ein Open-Source-Werkzeug für die optische Zeichenerkennung (OCR)
DeepSeek-OCR ist ein optisches Zeichenerkennungswerkzeug (OCR), das von DeepSeek-AI entwickelt und als Open Source zur Verfügung gestellt wird. Es schlägt einen neuen Ansatz namens “Contextual Optical Compression” vor, der die Rolle des visuellen Codierers aus der Perspektive des Large Language Model (LLM) neu überdenkt. Das Werkzeug erkennt nicht einfach die ...

OmniInsert: Ein Werkzeug zum Einfügen beliebiger Referenzbilder in Videos ohne Maskierung
OmniInsert ist ein Forschungsprojekt, das vom ByteDance Intelligent Creation Lab entwickelt wurde. Es handelt sich um ein Werkzeug, mit dem jedes beliebige Referenzobjekt nahtlos in ein Video eingefügt werden kann, ohne eine Maske zu verwenden. Wenn Sie bei der herkömmlichen Videobearbeitung ein neues Objekt in das Video einfügen möchten, müssen Sie in der Regel manuell eine präzise “Maske” erstellen, um den Rahmen...

Wan2.2-S2V-14B: Videogenerierungsmodell für die sprachgesteuerte Synchronisation von Zeichenmündern
Wan2.2-S2V-14B ist ein umfangreiches KI-Modell, das vom Wan-AI-Team speziell für die Erstellung hochwertiger Videos auf der Grundlage von Audio, Text und Bildern entwickelt wurde. Es verwendet eine innovative Mixed Expert (MoE)-Architektur mit insgesamt 27B Modellparametern, von denen jedoch nur 14B zur Laufzeit aktiviert werden, wodurch ein effektiver Ausgleich zwischen Leistung und Rechenkosten erreicht wird. ...

SpatialLM: Durchstöbern Sie den Raum und AI zeichnet automatisch das 3D-Modell für Sie!
SpatialLM ist ein umfangreiches Sprachmodell, das speziell für die Verarbeitung dreidimensionaler (3D) Punktwolkendaten entwickelt wurde. Seine Hauptfunktion besteht darin, unstrukturierte geometrische 3D-Daten zu verstehen und sie in strukturierte 3D-Szenendarstellungen umzuwandeln. Diese strukturierten Ausgaben enthalten architektonische Elemente (z. B. Wände, Türen, Fenster) sowie Objektbegrenzungsrahmen mit Orientierung und ihren semantischen Kategorien. Im Gegensatz zu den vielen Anforderungen ...

VibeVoice-1.5B: Ein Spracherzeugungsmodell für lange Audio-Mehrsprachendialoge von Microsoft
VibeVoice-1.5B ist ein innovatives Open-Source Text-to-Speech (TTS) Modell, das von Microsoft Research veröffentlicht wurde. Es wurde speziell für die Erzeugung von ausdrucksstarken, langen Dialogen mit mehreren Zeichen entwickelt, z. B. für Podcasts oder Hörbücher. Die Kerninnovation von VibeVoice ist die Verwendung eines 7...

Grok-2: xAIs Open Source Hybrid Expert Large Language Model
Grok-2 ist ein Makrosprachenmodell der zweiten Generation, das von Elon Musks xAI im Jahr 2024 entwickelt wurde. Ein Hauptmerkmal des Modells ist seine Mixture-of-Experts (MoE)-Architektur, die darauf ausgelegt ist, Informationen effizienter zu verarbeiten. Einfach ausgedrückt, gibt es innerhalb des Modells mehrere "Experten"...

Baichuan-M2: Ein großes Sprachmodell für Augmented Reasoning im Gesundheitswesen
Baichuan-M2 ist ein quelloffenes großes Sprachmodell mit 32 Milliarden (32B) Parametern von Baichuan Intelligence. Das Modell konzentriert sich auf den medizinischen Bereich und ist für die Bearbeitung realer medizinischer Schlussfolgerungen konzipiert. Es basiert auf dem Qwen2.5-32B-Modell, das durch die Einführung eines innovativen “Large Language Model” entwickelt ...

Genie 3: Generierung virtueller Welten, mit denen man in Echtzeit interagieren kann
Genie 3 ist ein generisches Weltmodell (Weltmodell), das von Google DeepMind veröffentlicht wurde und den neuesten Fortschritt in der KI bei der Simulation und Erstellung virtueller Umgebungen darstellt. Das Hauptmerkmal dieses Modells ist, dass es eine vielfältige und dynamische Welt generieren kann, die Echtzeit-Interaktionen allein auf der Grundlage einer textuellen Beschreibung unterstützt. Benutzer können diese...

Seed-OSS: Open Source Large Language Models für Long Context Reasoning und vielseitige Anwendungen
Seed-OSS 是由字节跳动(ByteDance)Seed 团队开发的一系列开源大语言模型,专注于长上下文处理、推理能力和代理任务优化。模型包含 360 亿参数,仅用 12 万亿 token 训练,性能在多个主流基准测试中表现出色,支持 ...

HRM: Hierarchische Begründungsmodelle für komplexes Begründen
HRM (Hierarchical Reasoning Model) 是一个仅有2700万参数的层级式推理模型,旨在解决人工智能领域中复杂的推理任务。该模型的设计灵感来源于人脑的层级式、多时间尺度的信息处理方式。 它通过一个高层模块(负责缓...

DeepSeek-V3.1-Base: ein umfangreiches Sprachmodell zur effizienten Bearbeitung komplexer Aufgaben
DeepSeek-V3.1-Base ist ein Open-Source-Sprachmodell, das von DeepSeek entwickelt und auf der Hugging-Face-Plattform veröffentlicht wurde und für die Verarbeitung natürlicher Sprache konzipiert ist. Es hat 685 Milliarden Parameter, unterstützt mehrere Datentypen (BF16, F8_E4M3, F32), und kann...

Qwen-Image-Edit: KI-Modell zur Bearbeitung von Bildern auf der Grundlage von Textbefehlen
Qwen-Image-Edit ist ein vom Alibaba Tongyi Qianqian-Team entwickeltes KI-Modell zur Bildbearbeitung. Es wurde auf der Grundlage des Qwen-Image-Modells mit 20 Milliarden Parametern trainiert und seine Kernfunktion besteht darin, den Nutzern die Änderung von Bildern durch einfache chinesische oder englische Textbefehle zu ermöglichen. Dieses Modell nutzt sowohl das visuelle semantische Verständnis als auch...

GLM-4.5V: Ein multimodales Dialogmodell, das Bilder und Videos versteht und Code erzeugt
GLM-4.5V ist eine neue Generation des von Zhipu AI (Z.AI) entwickelten Visual Language Megamodel (VLM). Das Modell basiert auf dem Flaggschiff-Textmodell GLM-4.5-Air unter Verwendung der MOE-Architektur, mit 106 Milliarden Gesamtreferenzen, einschließlich 12 Milliarden Aktivierungsparametern.GLM-4.5V verarbeitet nicht nur Bilder und Texte, sondern versteht auch visuelle...

Qwen-Image: ein KI-Tool für die Erstellung naturgetreuer Bilder mit präziser Textwiedergabe
Qwen-Image 是一个由 Qwen 团队开发的 20B 参数多模态扩散模型(MMDiT),专注于高保真图像生成和精准文本渲染。它在复杂文本处理(尤其是中文和英文)以及图像编辑方面表现卓越。模型支持多种艺术风格,如写实、动漫和高清海报,...

MiniMax veröffentlicht Speech 2.5: Sprachsynthesetechnologie bringt Durchbruch bei Mehrsprachigkeit und Tonwiedergabe
Am 7. August kündigte MiniMax sein Sprachgenerierungsmodell der nächsten Generation, Speech 2.5, an, das nach offiziellen Angaben seinen Vorgänger Speech 02 in Bezug auf die mehrsprachige Ausdruckskraft, die Genauigkeit der Klangfarbenwiedergabe und die Anzahl der unterstützten Sprachen verbessert. Im Bereich der durch künstliche Intelligenz generierten Inhalte (AIGC) ist der Text...

KittenTTS: Ein leichtgewichtiges Text-to-Speech-Modell
KittenTTS ist ein Open-Source-Text-to-Speech (TTS)-Modell, das auf Leichtigkeit und Effizienz ausgerichtet ist. Es benötigt weniger als 25 MB Speicherplatz, hat etwa 15 Millionen Parameter und läuft auf Low-End-Geräten ohne GPU-Unterstützung.KittenTTS wurde vom KittenML-Team entwickelt und bietet mehrere...

GPT-OSS: OpenAIs quelloffenes großes Modell für effizientes Reasoning
GPT-OSS ist eine Familie von Open-Source-Sprachmodellen von OpenAI, einschließlich gpt-oss-120b und gpt-oss-20b, mit 117 Milliarden bzw. 210 Milliarden Parametern, die unter der Apache-2.0-Lizenz lizenziert sind, die es Entwicklern erlaubt, sie kostenlos herunterzuladen, zu verändern und einzusetzen. gpt-oss...

SongGeneration: ein quelloffenes KI-Modell zur Erzeugung hochwertiger Musik und Liedtexte
SongGeneration ist ein Musikgenerierungsmodell, das vom Tencent AI Lab entwickelt und freigegeben wurde. Es konzentriert sich auf die Generierung von qualitativ hochwertigen Songs, einschließlich Text, Begleitung und Gesang. Es basiert auf dem LeVo-Framework und kombiniert das Sprachmodell LeLM und Musik-Codecs, um die Songgenerierung in Englisch und Chinesisch zu unterstützen. Das Modell wurde mit einem Datensatz von einer Million Liedern trainiert und kann...
zurück zum Anfang