Ressourcenoptimierung für multimodale Aufgaben
Die folgenden Speicherverwaltungsstrategien können bei der Verarbeitung multimodaler Aufgaben wie Bild + Text eingesetzt werden:
- Chunking-Technologie: Verwendung des Chunking-Parameters von ImageProcessor
from transformers import AutoImageProcessor
processor = AutoImageProcessor.from_pretrained("google/vit-base-patch16-224")
processor.feature_extractor.size = {"height":256, "width":256} - SteigungskontrollpunktAktivieren des Checkpoint-Mechanismus von PyTorch
model.gradient_checkpointing_enable()
- Gemischtes Präzisionstrainingfp16-Optimierer mit DeepSpeed
"fp16": {"enabled": "auto"}
Ein Beispiel: Bei der Verwendung von ColQwen2 für die Verarbeitung von A4-Dokumenten wird durch die Einstellung der Chunk-Größe auf 512 Pixel der erforderliche Grafikspeicher von 24 GB auf 8 GB reduziert.
Diese Antwort stammt aus dem ArtikelTransformers: Open Source Framework für maschinelles Lernen mit Unterstützung für Text-, Bild- und multimodale AufgabenDie































