Grok-2: xAIs Open Source Hybrid Expert Large Language Model
Grok-2 是由埃隆·马斯克的 xAI 公司于 2024 年开发的第二代大语言模型。该模型的一大特点是采用了“混合专家(Mixture-of-Experts, MoE)”架构,这种设计可以更高效地处理信息。简单来说,模型内部有多个“专家”...
Seed-OSS: Open Source Large Language Models für Long Context Reasoning und vielseitige Anwendungen
Seed-OSS ist eine Reihe von quelloffenen großen Sprachmodellen, die vom Seed-Team bei ByteDance entwickelt wurden und sich auf die Verarbeitung langer Kontexte, schlussfolgernde Fähigkeiten und die Optimierung von Agentenaufgaben konzentrieren. Die Modelle enthalten 36 Milliarden Parameter, werden mit nur 12 Billionen Token trainiert, schneiden in mehreren Mainstream-Benchmarks gut ab und unterstützen ......
DeepSeek-V3.1-Base: ein umfangreiches Sprachmodell zur effizienten Bearbeitung komplexer Aufgaben
DeepSeek-V3.1-Base ist ein Open-Source-Sprachmodell, das von DeepSeek entwickelt und auf der Hugging-Face-Plattform veröffentlicht wurde und für die Verarbeitung natürlicher Sprache konzipiert ist. Es hat 685 Milliarden Parameter, unterstützt mehrere Datentypen (BF16, F8_E4M3, F32), und kann...
GPT-OSS: OpenAIs quelloffenes großes Modell für effizientes Reasoning
GPT-OSS ist eine Familie von Open-Source-Sprachmodellen von OpenAI, einschließlich gpt-oss-120b und gpt-oss-20b, mit 117 Milliarden bzw. 210 Milliarden Parametern, die unter der Apache-2.0-Lizenz lizenziert sind, die es Entwicklern erlaubt, sie kostenlos herunterzuladen, zu verändern und einzusetzen. gpt-oss...
GLM-4.5: Open Source Multimodale Großmodelle zur Unterstützung intelligenter Schlussfolgerungen und Codegenerierung
GLM-4.5 ist ein von zai-org entwickeltes, quelloffenes multimodales Großsprachenmodell, das für intelligente Schlussfolgerungen, Codegenerierung und intelligente Körperaufgaben konzipiert ist. Es enthält GLM-4.5 (355 Milliarden Parameter, 32 Milliarden aktive Parameter), GLM-4.5-Air (106 Milliarden Parameter, 12 Milliarden aktive Parameter) und mehrere andere...
Qwen3-235B-A22B-Thinking-2507: Ein großes Sprachmodell zur Unterstützung komplexer Schlussfolgerungen
Qwen3-235B-A22B-Thinking-2507 ist ein umfangreiches Sprachmodell, das vom Alibaba Cloud Qwen-Team entwickelt, am 25. Juli 2025 veröffentlicht und auf der Hugging Face-Plattform gehostet wurde. Es konzentriert sich auf komplexe Argumentationsaufgaben und unterstützt bis zu 256K (262.144) Token...
dots.llm1: das erste große MoE-Sprachmodell, das von Little Red Book zur Verfügung gestellt wird
rednote-hilab/dots.llm1.base ist das erste große Sprachmodell dots.llm1, das von Little Red Book zur Verfügung gestellt und auf der Hugging Face-Plattform gehostet wird. Das Modell verwendet die Mixed Expert (MoE)-Architektur mit 142 Milliarden Parametern, wobei nur 14 Milliarden Parameter während der Inferenz aktiviert werden, um hohe Leistung und niedrige Kosten auszugleichen. d...
Jan-nano: ein leichtes und effizientes Modell für die Texterstellung
Jan-nano ist ein auf der Qwen3-Architektur optimiertes Sprachmodell mit 4 Milliarden Parametern, das von Menlo Research entwickelt und auf der Hugging Face-Plattform gehostet wird. Es ist für eine effiziente Texterzeugung konzipiert und kombiniert geringe Größe und lange Kontextverarbeitungsfähigkeiten für lokale oder eingebettete Umgebungen. Das Modell unterstützt...
NextCoder-32B: Ein großes Open-Source-Modell für die Codebearbeitung und Optimierungsunterstützung
NextCoder-32B ist ein Open-Source-Redaktionsmodell, das von Microsoft entwickelt und auf der Hugging Face-Plattform veröffentlicht wurde. Es basiert auf dem Qwen2.5-Modell, optimiert durch die Selective Knowledge Transfer (SeleKT)-Technologie, und ist für die Codegenerierung,...
DeepSeek-TNG-R1T2-Chimera: DeepSeek-Erweiterungen von TNG Deutschland veröffentlicht
DeepSeek-TNG-R1T2-Chimera ist ein Open-Source-Großsprachenmodell, das von der TNG Technology Consulting GmbH entwickelt und auf der Hugging Face-Plattform gehostet wird. Das Modell wurde am 2. Juli 2025 veröffentlicht und ist ein Teil des D...
ERNIE 4.5
ERNIE 4.5 ist eine Open-Source-Modellfamilie, die von Baidu auf der Grundlage des PaddlePaddle-Frameworks entwickelt wurde und eine breite Palette von Modellen mit 0,3B bis 424B Parametern abdeckt, die Textverarbeitung, Bilderzeugung und multimodale Aufgaben unterstützen. Das Projekt wird auf GitHub gehostet, kombiniert mit Hugging Face, um Modelle zu liefern ...
Hunyuan-A13B: Effiziente Open-Source-Großsprachmodelle für ultralange Kontexte und intelligentes Reasoning
Hunyuan-A13B ist ein Open-Source-Modell für große Sprachen, das von Tencents Hybrid-Team entwickelt wurde und auf der Mixed-Expert-Architektur (MoE) basiert. Das Modell hat 8 Milliarden Parameter, von denen 1,3 Milliarden aktive Parameter sind, unter Berücksichtigung der hohen Leistung und niedrigen Rechenkosten.Hunyuan-A13B unterstützt 256K ultra-langen Kontext Verarbeitung, geeignet für...
Qwen3 veröffentlicht: Eine neue Generation von Big Language-Modellen für tiefgreifendes Denken und schnelles Reagieren
Der Bereich der großen Sprachmodelle hat ein neues Mitglied. Kürzlich hat die Qwen-Familie großer Sprachmodelle ihre neueste Version, Qwen3, veröffentlicht. Nach Angaben des Entwicklerteams hat sich das Flaggschiffmodell, Qwen3-235B-A22B, in Benchmarks für Codierung, mathematische und allgemeine Fähigkeiten als vergleichbar mit DeepSeek-R1 , o1 , o3 erwiesen...
zurück zum Anfang