Derzeitige Position:Abb. Anfang " AI-Antworten

Wie lässt sich das Problem der Gedächtnisexplosion beim multimodalen Training vermeiden?

2025-08-28

1.3 K

Eine Methodik für die Kontrolle multimodaler Trainingsverteiler

Das gemeinsame visuell-verbale Training von MiniMind-V erfordert spezielle Optimierungsstrategien:

Stufenweise Ausbildung:
1. Separates Training des visuellen CLIP-Codierers (freeze_lm=True)
2. Feste Bildverarbeitungsparameter für das Training des Sprachkopfes (freeze_vision=True)
3. Endgültige gemeinsame Feinabstimmung (Lernrate=1e-5 reduzieren)
Schlüsseltechnologien:
- Gradientenprüfpunkttechnik (-gradient_checkpointing)
- Verwendung der Blitzaufmerksamkeit2 anstelle der Standardaufmerksamkeit
- Begrenzen Sie die Auflösung bei der Bildvorverarbeitung auf höchstens 224 x 224
Optionen:
1. Verwendung der LoRA_V-Version, um nur den Vision Adapter zu trainieren
2. Verwenden Sie progressives Training, zuerst 64×64 Auflösung und dann erhöht
3. Verteiltes Training verteilt Bildverarbeitungs-/Sprachmodule auf verschiedene GPUs

Die Lösung komprimiert den Videospeicherbedarf eines 32-Bilder-Stapels von 38 GB auf 22 GB auf einer 3090-Grafikkarte und ermöglicht so das Training.