DeepSeek-TNG-R1T2-Chimera: DeepSeek-Erweiterungen von TNG Deutschland veröffentlicht
DeepSeek-TNG-R1T2-Chimera ist ein Open-Source-Großsprachenmodell, das von der TNG Technology Consulting GmbH entwickelt und auf der Hugging Face-Plattform gehostet wird. Das Modell wurde am 2. Juli 2025 veröffentlicht und ist ein Teil des D...
ERNIE 4.5
ERNIE 4.5 ist eine Open-Source-Modellfamilie, die von Baidu auf der Grundlage des PaddlePaddle-Frameworks entwickelt wurde und eine breite Palette von Modellen mit 0,3B bis 424B Parametern abdeckt, die Textverarbeitung, Bilderzeugung und multimodale Aufgaben unterstützen. Das Projekt wird auf GitHub gehostet, kombiniert mit Hugging Face, um Modelle zu liefern ...
Hunyuan-A13B: Effiziente Open-Source-Großsprachmodelle für ultralange Kontexte und intelligentes Reasoning
Hunyuan-A13B ist ein Open-Source-Modell für große Sprachen, das von Tencents Hybrid-Team entwickelt wurde und auf der Mixed-Expert-Architektur (MoE) basiert. Das Modell hat 8 Milliarden Parameter, von denen 1,3 Milliarden aktive Parameter sind, unter Berücksichtigung der hohen Leistung und niedrigen Rechenkosten.Hunyuan-A13B unterstützt 256K ultra-langen Kontext Verarbeitung, geeignet für...
Qwen3 veröffentlicht: Eine neue Generation von Big Language-Modellen für tiefgreifendes Denken und schnelles Reagieren
Der Bereich der großen Sprachmodelle hat ein neues Mitglied. Kürzlich hat die Qwen-Familie großer Sprachmodelle ihre neueste Version, Qwen3, veröffentlicht. Nach Angaben des Entwicklerteams hat sich das Flaggschiffmodell, Qwen3-235B-A22B, in Benchmarks für Codierung, mathematische und allgemeine Fähigkeiten als vergleichbar mit DeepSeek-R1 , o1 , o3 erwiesen...