
DeepSeek-OCR: Ein Open-Source-Werkzeug für die optische Zeichenerkennung (OCR)
DeepSeek-OCR 是由深度求索(DeepSeek-AI)公司开发并开源的一款光学字符识别(OCR)工具。 它提出了一个名为“上下文光学压缩”的新方法,从大语言模型(LLM)的角度来重新看待视觉编码器的角色。 这个工具不是简单地识别图...

OmniInsert: Ein Werkzeug zum Einfügen beliebiger Referenzbilder in Videos ohne Maskierung
OmniInsert 是一个由字节跳动智能创作实验室开发的研究项目。它是一个无需使用蒙版(Mask)就能将任意参考对象无缝插入到视频中的工具。传统的视频编辑流程中,如果想在视频里加入一个新对象,通常需要手动创建一个精确的“蒙版”来框出这个对...

Wan2.2-S2V-14B: Videogenerierungsmodell für die sprachgesteuerte Synchronisation von Zeichenmündern
Wan2.2-S2V-14B是Wan-AI团队开发的一款大型AI模型,专门用于根据音频、文字和图像生成高质量的视频。 它采用了创新的混合专家(MoE)架构,模型总参数量达到27B,但在运行时只激活其中14B参数,有效平衡了性能和计算成本。 ...

SpatialLM: Durchstöbern Sie den Raum und AI zeichnet automatisch das 3D-Modell für Sie!
SpatialLM是一个专门为处理三维(3D)点云数据而设计的大语言模型。它的核心功能是理解非结构化的3D几何数据,并将其转化为结构化的3D场景表示。这些结构化输出包含了建筑元素(如墙壁、门、窗)以及带方向的物体边界框及其语义类别。与许多需...

VibeVoice-1.5B: Ein Spracherzeugungsmodell für lange Audio-Mehrsprachendialoge von Microsoft
VibeVoice-1.5B ist ein innovatives Open-Source Text-to-Speech (TTS) Modell, das von Microsoft Research veröffentlicht wurde. Es wurde speziell für die Erzeugung von ausdrucksstarken, langen Dialogen mit mehreren Zeichen entwickelt, z. B. für Podcasts oder Hörbücher. Die Kerninnovation von VibeVoice ist die Verwendung eines 7...

Grok-2: xAIs Open Source Hybrid Expert Large Language Model
Grok-2 ist ein Makrosprachenmodell der zweiten Generation, das von Elon Musks xAI im Jahr 2024 entwickelt wurde. Ein Hauptmerkmal des Modells ist seine Mixture-of-Experts (MoE)-Architektur, die darauf ausgelegt ist, Informationen effizienter zu verarbeiten. Einfach ausgedrückt, gibt es innerhalb des Modells mehrere "Experten"...

Baichuan-M2: Ein großes Sprachmodell für Augmented Reasoning im Gesundheitswesen
Baichuan-M2 是百川智能公司推出的一个参数量为320亿(32B)的开源大语言模型。 该模型专注于医疗领域,旨在处理真实世界的医疗推理任务。它基于Qwen2.5-32B模型进行二次开发,通过引入创新的“大型验证器系统”(Large ...

Genie 3: Generierung virtueller Welten, mit denen man in Echtzeit interagieren kann
Genie 3是谷歌DeepMind发布的一款通用世界模型(world model),它代表了AI在模拟和创建虚拟环境方面的最新进展。这款模型最核心的特点是,它可以仅仅根据一段文字描述,生成一个多样化且支持实时交互的动态世界。用户可以在这个...

Seed-OSS: Open Source Large Language Models für Long Context Reasoning und vielseitige Anwendungen
Seed-OSS 是由字节跳动(ByteDance)Seed 团队开发的一系列开源大语言模型,专注于长上下文处理、推理能力和代理任务优化。模型包含 360 亿参数,仅用 12 万亿 token 训练,性能在多个主流基准测试中表现出色,支持 ...

HRM: Hierarchische Begründungsmodelle für komplexes Begründen
HRM (Hierarchical Reasoning Model) 是一个仅有2700万参数的层级式推理模型,旨在解决人工智能领域中复杂的推理任务。该模型的设计灵感来源于人脑的层级式、多时间尺度的信息处理方式。 它通过一个高层模块(负责缓...

DeepSeek-V3.1-Base: ein umfangreiches Sprachmodell zur effizienten Bearbeitung komplexer Aufgaben
DeepSeek-V3.1-Base ist ein Open-Source-Sprachmodell, das von DeepSeek entwickelt und auf der Hugging-Face-Plattform veröffentlicht wurde und für die Verarbeitung natürlicher Sprache konzipiert ist. Es hat 685 Milliarden Parameter, unterstützt mehrere Datentypen (BF16, F8_E4M3, F32), und kann...

Qwen-Image-Edit: KI-Modell zur Bearbeitung von Bildern auf der Grundlage von Textbefehlen
Qwen-Image-Edit 是由阿里巴巴通义千问团队开发的一款图像编辑AI模型。 它基于拥有200亿参数的Qwen-Image模型进行训练,核心功能是让用户通过简单的中文或英文文字指令,对图片进行修改。 这款模型同时利用了视觉语义理解和...

GLM-4.5V: Ein multimodales Dialogmodell, das Bilder und Videos versteht und Code erzeugt
GLM-4.5V ist eine neue Generation des von Zhipu AI (Z.AI) entwickelten Visual Language Megamodel (VLM). Das Modell basiert auf dem Flaggschiff-Textmodell GLM-4.5-Air unter Verwendung der MOE-Architektur, mit 106 Milliarden Gesamtreferenzen, einschließlich 12 Milliarden Aktivierungsparametern.GLM-4.5V verarbeitet nicht nur Bilder und Texte, sondern versteht auch visuelle...

Qwen-Image: ein KI-Tool für die Erstellung naturgetreuer Bilder mit präziser Textwiedergabe
Qwen-Image 是一个由 Qwen 团队开发的 20B 参数多模态扩散模型(MMDiT),专注于高保真图像生成和精准文本渲染。它在复杂文本处理(尤其是中文和英文)以及图像编辑方面表现卓越。模型支持多种艺术风格,如写实、动漫和高清海报,...

MiniMax veröffentlicht Speech 2.5: Sprachsynthesetechnologie bringt Durchbruch bei Mehrsprachigkeit und Tonwiedergabe
8月7日,MiniMax 公司发布了其新一代语音生成模型 Speech 2.5。据官方资料显示,该模型在前代 Speech 02 的基础上,于多语种表现力、音色复刻精度以及支持的语种数量上实现了提升。 在人工智能生成内容(AIGC)领域,文...

KittenTTS: Ein leichtgewichtiges Text-to-Speech-Modell
KittenTTS ist ein Open-Source-Text-to-Speech (TTS)-Modell, das auf Leichtigkeit und Effizienz ausgerichtet ist. Es benötigt weniger als 25 MB Speicherplatz, hat etwa 15 Millionen Parameter und läuft auf Low-End-Geräten ohne GPU-Unterstützung.KittenTTS wurde vom KittenML-Team entwickelt und bietet mehrere...

GPT-OSS: OpenAIs quelloffenes großes Modell für effizientes Reasoning
GPT-OSS ist eine Familie von Open-Source-Sprachmodellen von OpenAI, einschließlich gpt-oss-120b und gpt-oss-20b, mit 117 Milliarden bzw. 210 Milliarden Parametern, die unter der Apache-2.0-Lizenz lizenziert sind, die es Entwicklern erlaubt, sie kostenlos herunterzuladen, zu verändern und einzusetzen. gpt-oss...

SongGeneration: ein quelloffenes KI-Modell zur Erzeugung hochwertiger Musik und Liedtexte
SongGeneration 是由腾讯 AI Lab 开发并开源的音乐生成模型,专注于生成高品质的歌曲,包括歌词、伴奏和人声。它基于 LeVo 框架,结合语言模型 LeLM 和音乐编解码器,支持中英文歌曲生成。模型在百万歌曲数据集上训练,能...

Schritt 3: Effiziente Generierung von quelloffenen Makromodellen für multimodale Inhalte
Step3 是由 StepFun 开发的一个开源多模态大模型项目,托管在 GitHub 上,旨在提供高效、经济的文本、图像和语音内容生成能力。项目以 321 亿参数(38 亿活跃参数)的混合专家模型(MoE)为核心,优化了推理速度和性能,适...
zurück zum Anfang