Wan2.2-S2V-14B: Videogenerierungsmodell für die sprachgesteuerte Synchronisation von Zeichenmündern
Wan2.2-S2V-14B是Wan-AI团队开发的一款大型AI模型,专门用于根据音频、文字和图像生成高质量的视频。 它采用了创新的混合专家(MoE)架构,模型总参数量达到27B,但在运行时只激活其中14B参数,有效平衡了性能和...
SpatialLM: Durchstöbern Sie den Raum und AI zeichnet automatisch das 3D-Modell für Sie!
SpatialLM是一个专门为处理三维(3D)点云数据而设计的大语言模型。它的核心功能是理解非结构化的3D几何数据,并将其转化为结构化的3D场景表示。这些结构化输出包含了建筑元素(如墙壁、门、窗)以及带方向的物体...
VibeVoice-1.5B: Ein Spracherzeugungsmodell für lange Audio-Mehrsprachendialoge von Microsoft
VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音(Text-to-Speech, TTS)模型。 它专门用于生成富有表现力的、长篇幅的、多角色对话音频,例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...
Grok-2: xAIs Open Source Hybrid Expert Large Language Model
Grok-2 是由埃隆·马斯克的 xAI 公司于 2024 年开发的第二代大语言模型。该模型的一大特点是采用了“混合专家(Mixture-of-Experts, MoE)”架构,这种设计可以更高效地处理信息。简单来说,模型内部有多个“专家”...
Baichuan-M2: Ein großes Sprachmodell für Augmented Reasoning im Gesundheitswesen
Baichuan-M2 是百川智能公司推出的一个参数量为320亿(32B)的开源大语言模型。 该模型专注于医疗领域,旨在处理真实世界的医疗推理任务。它基于Qwen2.5-32B模型进行二次开发,通过引入创新的“大型验证器系统”(L...
Genie 3: Generierung virtueller Welten, mit denen man in Echtzeit interagieren kann
Genie 3 ist ein generisches Weltmodell (Weltmodell), das von Google DeepMind veröffentlicht wurde und den neuesten Fortschritt in der KI zur Simulation und Erstellung virtueller Umgebungen darstellt. Die wichtigste Eigenschaft des Modells ist, dass es eine vielfältige und dynamische Welt generieren kann, die Echtzeit-Interaktion auf der Grundlage einer textuellen Beschreibung unterstützt...
Seed-OSS: Open Source Large Language Models für Long Context Reasoning und vielseitige Anwendungen
Seed-OSS ist eine Reihe von quelloffenen großen Sprachmodellen, die vom Seed-Team bei ByteDance entwickelt wurden und sich auf die Verarbeitung langer Kontexte, schlussfolgernde Fähigkeiten und die Optimierung von Agentenaufgaben konzentrieren. Die Modelle enthalten 36 Milliarden Parameter, werden mit nur 12 Billionen Token trainiert, schneiden in mehreren Mainstream-Benchmarks gut ab und unterstützen ......
HRM: Hierarchische Begründungsmodelle für komplexes Begründen
HRM (Hierarchical Reasoning Model) ist ein hierarchisches Denkmodell mit nur 27 Millionen Parametern, das für die Lösung komplexer Denkaufgaben im Bereich der künstlichen Intelligenz entwickelt wurde. Das Design des Modells ist inspiriert von der hierarchischen, mehrzeitskaligen Informationsverarbeitung des menschlichen Gehirns. Es wird durch ein High-Level-Modul modelliert (negative .....
DeepSeek-V3.1-Base: ein umfangreiches Sprachmodell zur effizienten Bearbeitung komplexer Aufgaben
DeepSeek-V3.1-Base ist ein Open-Source-Sprachmodell, das von DeepSeek entwickelt und auf der Hugging-Face-Plattform veröffentlicht wurde und für die Verarbeitung natürlicher Sprache konzipiert ist. Es hat 685 Milliarden Parameter, unterstützt mehrere Datentypen (BF16, F8_E4M3, F32), und kann...
Qwen-Image-Edit: KI-Modell zur Bearbeitung von Bildern auf der Grundlage von Textbefehlen
Qwen-Image-Edit ist ein vom Alibaba Tongyi Qianqian-Team entwickeltes KI-Modell zur Bildbearbeitung. Es wurde auf der Grundlage des Qwen-Image-Modells mit 20 Milliarden Parametern trainiert und seine Kernfunktion besteht darin, dass Benutzer Bilder durch einfache chinesische oder englische Textbefehle ändern können. Dieses Modell nutzt auch visuelle...
GLM-4.5V: Ein multimodales Dialogmodell, das Bilder und Videos versteht und Code erzeugt
GLM-4.5V ist eine neue Generation des von Zhipu AI (Z.AI) entwickelten Visual Language Megamodel (VLM). Das Modell basiert auf dem Flaggschiff-Textmodell GLM-4.5-Air unter Verwendung der MOE-Architektur, mit 106 Milliarden Gesamtreferenzen, einschließlich 12 Milliarden Aktivierungsparametern.GLM-4.5V verarbeitet nicht nur Bilder und Texte, sondern versteht auch visuelle...
Qwen-Image: ein KI-Tool für die Erstellung naturgetreuer Bilder mit präziser Textwiedergabe
Qwen-Image ist ein 20B parametrisches multimodales Diffusionsmodell (MMDiT), das vom Qwen-Team entwickelt wurde und sich auf die originalgetreue Bilderzeugung und die genaue Textwiedergabe konzentriert. Es zeichnet sich durch komplexe Textverarbeitung (insbesondere Chinesisch und Englisch) und Bildbearbeitung aus. Das Modell unterstützt eine Vielzahl von Kunststilen wie z. B. realistische,...
MiniMax veröffentlicht Speech 2.5: Sprachsynthesetechnologie bringt Durchbruch bei Mehrsprachigkeit und Tonwiedergabe
Am 7. August kündigte MiniMax sein Sprachgenerierungsmodell der nächsten Generation, Speech 2.5, an, das nach offiziellen Angaben seinen Vorgänger Speech 02 in Bezug auf die mehrsprachige Ausdruckskraft, die Genauigkeit der Klangfarbenwiedergabe und die Anzahl der unterstützten Sprachen verbessert. Im Bereich der durch künstliche Intelligenz erzeugten Inhalte (AIGC)...
KittenTTS: Ein leichtgewichtiges Text-to-Speech-Modell
KittenTTS ist ein Open-Source-Text-to-Speech (TTS)-Modell, das auf Leichtigkeit und Effizienz ausgerichtet ist. Es benötigt weniger als 25 MB Speicherplatz, hat etwa 15 Millionen Parameter und läuft auf Low-End-Geräten ohne GPU-Unterstützung.KittenTTS wurde vom KittenML-Team entwickelt und bietet mehrere...
GPT-OSS: OpenAIs quelloffenes großes Modell für effizientes Reasoning
GPT-OSS ist eine Familie von Open-Source-Sprachmodellen von OpenAI, einschließlich gpt-oss-120b und gpt-oss-20b, mit 117 Milliarden bzw. 210 Milliarden Parametern, die unter der Apache-2.0-Lizenz lizenziert sind, die es Entwicklern erlaubt, sie kostenlos herunterzuladen, zu verändern und einzusetzen. gpt-oss...
SongGeneration: ein quelloffenes KI-Modell zur Erzeugung hochwertiger Musik und Liedtexte
SongGeneration ist ein Musikgenerierungsmodell, das vom Tencent AI Lab entwickelt und freigegeben wurde. Es konzentriert sich auf die Generierung von qualitativ hochwertigen Songs, einschließlich Text, Begleitung und Gesang. Es basiert auf dem LeVo-Framework und kombiniert das Sprachmodell LeLM und Musik-Codecs, um die Songgenerierung in Englisch und Chinesisch zu unterstützen. Das Modell basiert auf einem Datensatz von Millionen von Liedern...
Schritt 3: Effiziente Generierung von quelloffenen Makromodellen für multimodale Inhalte
Step3 ist ein von StepFun entwickeltes Open-Source-Projekt zur multimodalen Makromodellierung, das auf GitHub gehostet wird und darauf abzielt, effiziente und kostengünstige Funktionen zur Erzeugung von Text-, Bild- und Sprachinhalten bereitzustellen. Das Projekt konzentriert sich auf ein 32,1 Milliarden Parameter (3,8 Milliarden aktive Parameter) gemischtes Expertenmodell (MoE), das für die Geschwindigkeit der Inferenz optimiert ist...
Seed Diffusion: Validierung von Hochgeschwindigkeits-Sprachmodellen für Architekturen der nächsten Generation
Seed Diffusion ist ein experimentelles Sprachmodell, das vom ByteDance Seed Team in Zusammenarbeit mit der Academy of Intelligent Industry Research (AIR) an der Tsinghua Universität entwickelt wurde. Diese Website ist eine Technologie-Demonstrationsplattform für das Modell. Das Modell basiert auf der diskreten Diffusionstechnik, und das Hauptziel besteht darin, den zugrunde liegenden Rahmen des Sprachmodells der nächsten Generation zu erforschen, das...
SkyworkUniPic: Ein Open-Source-Modell für einheitliche Bildverarbeitung und -erzeugung
SkyworkUniPic ist ein von SkyworkAI entwickeltes multimodales Open-Source-Modell, das sich auf das Verstehen von Bildern, textgenerierten Bildern und die Bildbearbeitung konzentriert. Es integriert drei visuelle Sprachaufgaben unter Verwendung einer einzigen Architektur mit 150 Millionen Parametern. Benutzer können 102 auf Consumer-GPUs wie RTX 4090 ausführen...
zurück zum Anfang