Eine der wichtigsten technologischen Innovationen von Unsloth ist seine einzigartige dynamische 4-Bit-Quantisierungstechnologie. Mit dieser Technologie werden erhebliche Leistungsverbesserungen während des Trainings erzielt, indem die Quantisierungsgenauigkeit der Modellparameter auf intelligente Weise angepasst wird. Dies wird durch die Tatsache belegt, dass die Modellgenauigkeit auf ein Niveau erhöht werden kann, das dem Training mit voller Präzision nahe kommt, ohne dass mehr als 10% Grafikspeicher benötigt werden.
Die Umsetzung dieser Technik stützt sich in hohem Maße auf die optimierte zugrunde liegende Rechenarchitektur von Unsloth. Sie ist in der Lage, Unterschiede in der Empfindlichkeit der Parameter jeder Schicht dynamisch zu erkennen, wobei eine höhere Genauigkeit für wichtige Parameter und eine stärkere Kompression für weniger wichtige Parameter beibehalten wird. Durch diese differenzierte Behandlung kann das Modell eine hohe Effizienz beibehalten, ohne kritische Inferenzfähigkeiten zu opfern.
In der Praxis können die Benutzer diese Funktion aktivieren, indem sie einfach quantization="dynamic_4bit" in den Trainingsparametern einstellen. Testdaten zeigen, dass LoRA-Adapter, die mit dieser Technik trainiert wurden, in mehreren Benchmarks eine Leistung erreichen, die nahe am Originalmodell liegt, während die Trainingsgeschwindigkeit und die Speichernutzung deutlich optimiert werden.
Diese Antwort stammt aus dem ArtikelUnsloth: ein Open-Source-Tool für die effiziente Feinabstimmung und das Training großer SprachmodelleDie































