Textmodell

 Website einreichen

Grok-2: xAIs Open Source Hybrid Expert Large Language Model
Grok-2 ist ein Makrosprachenmodell der zweiten Generation, das von Elon Musks xAI im Jahr 2024 entwickelt wurde. Ein Hauptmerkmal des Modells ist seine Mixture-of-Experts (MoE)-Architektur, die darauf ausgelegt ist, Informationen effizienter zu verarbeiten. Einfach ausgedrückt, gibt es innerhalb des Modells mehrere "Experten"...
717durch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
Seed-OSS: Open Source Large Language Models für Long Context Reasoning und vielseitige Anwendungen
Seed-OSS ist eine Reihe von quelloffenen großen Sprachmodellen, die vom Seed-Team bei ByteDance entwickelt wurden und sich auf die Verarbeitung langer Kontexte, schlussfolgernde Fähigkeiten und die Optimierung von Agentenaufgaben konzentrieren. Die Modelle enthalten 36 Milliarden Parameter, werden mit nur 12 Billionen Token trainiert, schneiden in mehreren Mainstream-Benchmarks gut ab und unterstützen ......
1.0 Kdurch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
DeepSeek-V3.1-Base: ein umfangreiches Sprachmodell zur effizienten Bearbeitung komplexer Aufgaben
DeepSeek-V3.1-Base ist ein Open-Source-Sprachmodell, das von DeepSeek entwickelt und auf der Hugging-Face-Plattform veröffentlicht wurde und für die Verarbeitung natürlicher Sprache konzipiert ist. Es hat 685 Milliarden Parameter, unterstützt mehrere Datentypen (BF16, F8_E4M3, F32), und kann...
965durch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
GPT-OSS: OpenAIs quelloffenes großes Modell für effizientes Reasoning
GPT-OSS ist eine Familie von Open-Source-Sprachmodellen von OpenAI, einschließlich gpt-oss-120b und gpt-oss-20b, mit 117 Milliarden bzw. 210 Milliarden Parametern, die unter der Apache-2.0-Lizenz lizenziert sind, die es Entwicklern erlaubt, sie kostenlos herunterzuladen, zu verändern und einzusetzen. gpt-oss...
1.1 Kdurch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
GLM-4.5: Open Source Multimodale Großmodelle zur Unterstützung intelligenter Schlussfolgerungen und Codegenerierung
GLM-4.5 ist ein von zai-org entwickeltes, quelloffenes multimodales Großsprachenmodell, das für intelligente Schlussfolgerungen, Codegenerierung und intelligente Körperaufgaben konzipiert ist. Es enthält GLM-4.5 (355 Milliarden Parameter, 32 Milliarden aktive Parameter), GLM-4.5-Air (106 Milliarden Parameter, 12 Milliarden aktive Parameter) und mehrere andere...
1.5 K0Gelobt
0Lesezeichen
Qwen3-235B-A22B-Thinking-2507: Ein großes Sprachmodell zur Unterstützung komplexer Schlussfolgerungen
Qwen3-235B-A22B-Thinking-2507 ist ein umfangreiches Sprachmodell, das vom Alibaba Cloud Qwen-Team entwickelt, am 25. Juli 2025 veröffentlicht und auf der Hugging Face-Plattform gehostet wurde. Es konzentriert sich auf komplexe Argumentationsaufgaben und unterstützt bis zu 256K (262.144) Token...
979durch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
dots.llm1: das erste große MoE-Sprachmodell, das von Little Red Book zur Verfügung gestellt wird
rednote-hilab/dots.llm1.base ist das erste große Sprachmodell dots.llm1, das von Little Red Book zur Verfügung gestellt und auf der Hugging Face-Plattform gehostet wird. Das Modell verwendet die Mixed Expert (MoE)-Architektur mit 142 Milliarden Parametern, wobei nur 14 Milliarden Parameter während der Inferenz aktiviert werden, um hohe Leistung und niedrige Kosten auszugleichen. d...
734durch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
Jan-nano: ein leichtes und effizientes Modell für die Texterstellung
Jan-nano ist ein auf der Qwen3-Architektur optimiertes Sprachmodell mit 4 Milliarden Parametern, das von Menlo Research entwickelt und auf der Hugging Face-Plattform gehostet wird. Es ist für eine effiziente Texterzeugung konzipiert und kombiniert geringe Größe und lange Kontextverarbeitungsfähigkeiten für lokale oder eingebettete Umgebungen. Das Modell unterstützt...
857durch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
NextCoder-32B: Ein großes Open-Source-Modell für die Codebearbeitung und Optimierungsunterstützung
NextCoder-32B ist ein Open-Source-Redaktionsmodell, das von Microsoft entwickelt und auf der Hugging Face-Plattform veröffentlicht wurde. Es basiert auf dem Qwen2.5-Modell, optimiert durch die Selective Knowledge Transfer (SeleKT)-Technologie, und ist für die Codegenerierung,...
610durch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
DeepSeek-TNG-R1T2-Chimera: DeepSeek-Erweiterungen von TNG Deutschland veröffentlicht
DeepSeek-TNG-R1T2-Chimera ist ein Open-Source-Großsprachenmodell, das von der TNG Technology Consulting GmbH entwickelt und auf der Hugging Face-Plattform gehostet wird. Das Modell wurde am 2. Juli 2025 veröffentlicht und ist ein Teil des D...
2.4 Kdurch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
ERNIE 4.5
ERNIE 4.5 ist eine Open-Source-Modellfamilie, die von Baidu auf der Grundlage des PaddlePaddle-Frameworks entwickelt wurde und eine breite Palette von Modellen mit 0,3B bis 424B Parametern abdeckt, die Textverarbeitung, Bilderzeugung und multimodale Aufgaben unterstützen. Das Projekt wird auf GitHub gehostet, kombiniert mit Hugging Face, um Modelle zu liefern ...
1.1 Kdurch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
Hunyuan-A13B: Effiziente Open-Source-Großsprachmodelle für ultralange Kontexte und intelligentes Reasoning
Hunyuan-A13B ist ein Open-Source-Modell für große Sprachen, das von Tencents Hybrid-Team entwickelt wurde und auf der Mixed-Expert-Architektur (MoE) basiert. Das Modell hat 8 Milliarden Parameter, von denen 1,3 Milliarden aktive Parameter sind, unter Berücksichtigung der hohen Leistung und niedrigen Rechenkosten.Hunyuan-A13B unterstützt 256K ultra-langen Kontext Verarbeitung, geeignet für...
1.7 Kdurch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen
Qwen3 veröffentlicht: Eine neue Generation von Big Language-Modellen für tiefgreifendes Denken und schnelles Reagieren
Der Bereich der großen Sprachmodelle hat ein neues Mitglied. Kürzlich hat die Qwen-Familie großer Sprachmodelle ihre neueste Version, Qwen3, veröffentlicht. Nach Angaben des Entwicklerteams hat sich das Flaggschiffmodell, Qwen3-235B-A22B, in Benchmarks für Codierung, mathematische und allgemeine Fähigkeiten als vergleichbar mit DeepSeek-R1 , o1 , o3 erwiesen...
1.9 Kdurch (wie in "durchgehender Zug")0Gelobt
0Lesezeichen

Textmodell

Schnellabfragestation AI-Tool