
SpatialLM: Durchstöbern Sie den Raum und AI zeichnet automatisch das 3D-Modell für Sie!
SpatialLM ist ein umfangreiches Sprachmodell, das speziell für die Verarbeitung dreidimensionaler (3D) Punktwolkendaten entwickelt wurde. Seine Hauptfunktion besteht darin, unstrukturierte geometrische 3D-Daten zu verstehen und sie in strukturierte 3D-Szenendarstellungen umzuwandeln. Diese strukturierten Ausgaben enthalten architektonische Elemente (z. B. Wände, Türen, Fenster) sowie Objektbegrenzungsrahmen mit Orientierung und ihren semantischen Kategorien. Im Gegensatz zu den vielen Anforderungen ...

Baichuan-M2: Ein großes Sprachmodell für Augmented Reasoning im Gesundheitswesen
Baichuan-M2 ist ein quelloffenes großes Sprachmodell mit 32 Milliarden (32B) Parametern von Baichuan Intelligence. Das Modell konzentriert sich auf den medizinischen Bereich und ist für die Bearbeitung realer medizinischer Schlussfolgerungen konzipiert. Es basiert auf dem Qwen2.5-32B-Modell, das durch die Einführung eines innovativen “Large Language Model” entwickelt ...

Genie 3: Generierung virtueller Welten, mit denen man in Echtzeit interagieren kann
Genie 3 ist ein generisches Weltmodell (Weltmodell), das von Google DeepMind veröffentlicht wurde und den neuesten Fortschritt in der KI bei der Simulation und Erstellung virtueller Umgebungen darstellt. Das Hauptmerkmal dieses Modells ist, dass es eine vielfältige und dynamische Welt generieren kann, die Echtzeit-Interaktionen allein auf der Grundlage einer textuellen Beschreibung unterstützt. Benutzer können diese...

HRM: Hierarchische Begründungsmodelle für komplexes Begründen
HRM (Hierarchical Reasoning Model) ist ein hierarchisches Denkmodell mit nur 27 Millionen Parametern, das für die Lösung komplexer Denkaufgaben im Bereich der künstlichen Intelligenz entwickelt wurde. Das Design des Modells ist inspiriert von der hierarchischen, mehrzeitskaligen Informationsverarbeitung des menschlichen Gehirns. Es tut dies durch ein High-Level-Modul (verantwortlich für die Erleichterung...

Seed Diffusion: Validierung von Hochgeschwindigkeits-Sprachmodellen für Architekturen der nächsten Generation
Seed Diffusion ist ein experimentelles Sprachmodell, das vom ByteDance Seed Team in Zusammenarbeit mit der Academy of Intelligent Industry Research (AIR) an der Tsinghua Universität entwickelt wurde. Diese Website ist eine Technologie-Demonstrationsplattform für das Modell. Das Modell basiert auf der diskreten Diffusionstechnik, und sein Hauptziel ist es, die Machbarkeit des Infrastrukturrahmens für die Sprachmodellierung der nächsten Generation zu untersuchen. Bei der Codegenerierung ist dieses ...

HunyuanWorld-1.0: Interaktive 360°-3D-Welten aus Text oder Bildern generieren
HunyuanWorld-1.0 ist ein Open-Source-Projekt, das von Tencents Hunyuan-Team entwickelt wurde und darauf abzielt, interaktive 360°-3D-Welten durch Textbeschreibungen oder Einzelbilder zu erzeugen. Es nutzt die Generierung von Panorama-Agenten, semantisches Layering und hierarchische 3D-Rekonstruktionstechniken, um qualitativ hochwertige, erkundbare 3D-Szenen zu erzeugen. Das Projekt basiert auf dem Flux-Framework und unterstützt die Interaktion mit ...

Qwen3-MT: Ein intelligentes Übersetzungsprogramm für 92 Sprachen
Qwen3-MT ist ein intelligentes Übersetzungstool, das vom Alibaba Cloud Qwen-Team entwickelt wurde und auf dem leistungsstarken Qwen3 Big Language Model basiert. Es unterstützt die Übersetzung von 92 Sprachen und wichtigen Dialekten und deckt damit mehr als 95% der Weltbevölkerung ab. Benutzer können die effizienten Übersetzungsfunktionen über die Qwen-API oder die Online-Demoseite testen...

OpenMed: eine Open-Source-Plattform für kostenlose KI-Modelle im Gesundheitswesen
OpenMed ist eine Open-Source-KI-Modellierungsplattform für das Gesundheitswesen und die Biowissenschaften, die auf Hugging Face gehostet wird und über 380 kostenlose Modelle zur Erkennung von benannten Entitäten (NER) bietet, die sich auf die Extraktion von Schlüsselinformationen wie Medikamente, Krankheiten, Gene und anatomische Strukturen aus klinischen Texten und Forschungsliteratur konzentrieren. Diese Modelle basieren alle auf...

Seed-X-7B: ein großes Modell für effiziente mehrsprachige Übersetzung
Seed-X-7B ist ein quelloffenes, mehrsprachiges Übersetzungs-Großsprachenmodell, das vom Seed-Team von ByteDance entwickelt wurde und sich auf die Bereitstellung effizienter und genauer Übersetzungsfunktionen konzentriert. Es basiert auf der Mistral-Architektur mit 7B-Parametern und unterstützt die Übersetzung in 28 Sprachen, die ein breites Spektrum von Bereichen wie Internet, Technologie, E-Commerce und Biomedizin abdecken. Das Modell funktioniert durch Vor...

Qwen3-Coder: Open-Source-Code-Generierung und intelligenter Programmierassistent
Qwen3-Coder ist eine Familie von Open-Source-Sprachmodellen in großem Maßstab, die vom Alibaba Cloud Qwen-Team entwickelt wurde und sich auf Codegenerierung und intelligente Programmierung konzentriert. Das Kernprodukt ist Qwen3-Coder-480B-A35B-Instruct, ein Hybrid Model of Expertise (MoE) mit 48 Milliarden Parametern, aktiviert...

EduChat: ein Open-Source-Modell für den Bildungsdialog
EduChat ist ein Open-Source-Dialogmodell für den Bildungsbereich, das vom ICALK-Team der East China Normal University entwickelt wurde. Es konzentriert sich auf Bildungsszenarien, unterstützt sowohl englische als auch chinesische Dialoge und zielt darauf ab, intelligente Dialogwerkzeuge für Studenten, Lehrer und Forscher bereitzustellen. Das Modell basiert auf Open-Source-Frameworks wie LLaMA und Qwen, wurde durch eine große Menge an Daten aus dem Bildungsbereich verfeinert und ist in der Lage, mit...

MedGemma: eine Sammlung von quelloffenen KI-Modellen für medizinisches Text- und Bildverständnis
MedGemma ist eine Reihe von Open-Source-KI-Modellen, die von Google auf der Hugging Face-Plattform veröffentlicht wurden und sich auf das Text- und Bildverständnis im medizinischen Bereich konzentrieren. Es basiert auf dem Modell Gemma 3 und soll Entwicklern helfen, KI-Anwendungen für das Gesundheitswesen zu entwickeln.MedGemma bietet eine Vielzahl von Modellvarianten...

Jan-nano: ein leichtes und effizientes Modell für die Texterstellung
Jan-nano ist ein auf der Qwen3-Architektur optimiertes Sprachmodell mit 4 Milliarden Parametern, das von Menlo Research entwickelt und auf der Hugging Face-Plattform gehostet wird. Es ist für eine effiziente Texterzeugung konzipiert und kombiniert geringe Größe und lange Kontextverarbeitungsfähigkeiten für lokale oder eingebettete Umgebungen. Das Modell unterstützt...

Zerank-1: Ein Umordnungsmodell zur Verbesserung der Genauigkeit von Suchergebnissen
Zerank-1 ist ein fortschrittliches Rerankermodell, das von ZeroEntropy entwickelt wurde. Es spielt eine Schlüsselrolle als “zweiter Filter” in Information Retrieval oder semantischen Suchsystemen. Zunächst wird ein anfängliches Retrievalsystem (z. B. eine Vektorsuche) schnell eine Reihe möglicher...

Windsurf SWE-1
SWE-1: Eine neue Generation modernster Modelle für das Software-Engineering Vor kurzem wurde die mit Spannung erwartete Modellfamilie SWE-1 veröffentlicht. Diese Modellfamilie wurde entwickelt, um den gesamten Softwareentwicklungsprozess zu optimieren, und geht weit über die traditionelle Aufgabe des Codeschreibens hinaus. Derzeit besteht die SWE-1-Familie aus drei gut positionierten Modellen: SWE-1: Dieses Hauptmodell...

LaWGPT
LaWGPT ist ein Open-Source-Projekt, das von der Forschungsgruppe für maschinelles Lernen und Data Mining der Universität Nanjing unterstützt wird und sich dem Aufbau eines großen Sprachmodells auf der Grundlage des chinesischen Rechtswissens widmet. Es erweitert die proprietären Wortlisten im juristischen Bereich auf der Grundlage generischer chinesischer Modelle (z. B. Chinese-LLaMA und ChatGLM) und trainiert sie mit einem großen juristischen Korpus...

Hibiki: ein Echtzeit-Sprachübersetzungsmodell, eine Streaming-Übersetzung, die die Eigenschaften der Originalstimme bewahrt
Hibiki ist ein von Kyutai Labs entwickeltes Echtzeit-Sprachübersetzungsmodell mit hoher Wiedergabetreue. Im Gegensatz zu herkömmlichen Offline-Übersetzungen ist Hibiki in der Lage, eine natürliche Sprachübersetzung der Zielsprache in Echtzeit zu generieren, während der Benutzer spricht, und auch eine Textübersetzung zu liefern. Das Modell verwendet eine Multi-Stream-Architektur, um gleichzeitig den eingegebenen Sprachstrom zu verarbeiten und die Zielsprache zu erzeugen...
zurück zum Anfang