Eine Methodik für die Kontrolle multimodaler Trainingsverteiler
Das gemeinsame visuell-verbale Training von MiniMind-V erfordert spezielle Optimierungsstrategien:
- Stufenweise Ausbildung:
- Separates Training des visuellen CLIP-Codierers (freeze_lm=True)
- Feste Bildverarbeitungsparameter für das Training des Sprachkopfes (freeze_vision=True)
- Endgültige gemeinsame Feinabstimmung (Lernrate=1e-5 reduzieren)
- Schlüsseltechnologien:
- Gradientenprüfpunkttechnik (-gradient_checkpointing)
- Verwendung der Blitzaufmerksamkeit2 anstelle der Standardaufmerksamkeit
- Begrenzen Sie die Auflösung bei der Bildvorverarbeitung auf höchstens 224 x 224
- Optionen:
- Verwendung der LoRA_V-Version, um nur den Vision Adapter zu trainieren
- Verwenden Sie progressives Training, zuerst 64×64 Auflösung und dann erhöht
- Verteiltes Training verteilt Bildverarbeitungs-/Sprachmodule auf verschiedene GPUs
Die Lösung komprimiert den Videospeicherbedarf eines 32-Bilder-Stapels von 38 GB auf 22 GB auf einer 3090-Grafikkarte und ermöglicht so das Training.
Diese Antwort stammt aus dem ArtikelMiniMind: 2 Stunden Training von Grund auf 26M Parameter GPT Open Source ToolDie




























