Eine Komplettlösung zur Beschleunigung der Inferenzleistung
Die folgenden Optimierungsstrategien können eingesetzt werden, um den Engpass bei der Generierungsgeschwindigkeit zu beseitigen:
- Blitzlicht einschalten AchtungAusführen zum Zeitpunkt der Installation
pip install flash-attn --no-build-isolationDiese Technologie verbessert die 30%-Inferenzgeschwindigkeit (erfordert Grafikkarten der RTX 30/40-Serie oder neuer) - Optimierte Konfiguration des Videospeichers: Einstellungen
--enable_xformers Truein Verbindung mit dem Parametertorch.backends.cuda.enable_flash_sdp(True)Effiziente In-Memory-Datenverarbeitung ermöglichen - Beschleunigung auf Hardware-Ebeneauf FP8 Tensor Core-fähigen GPUs wie dem NVIDIA H100, unter Verwendung des
--precision fp8Parameter erhalten einen 2-fachen Geschwindigkeitsschub
Die Testdaten zeigen, dass die 512 x 512 Bilderzeugungszeit auf der H800-Grafikkarte von 5 Sekunden auf 2,8 Sekunden reduziert werden kann (nachdem alle Optimierungen durchgeführt wurden).
Diese Antwort stammt aus dem ArtikelStep1X-Edit: Ein Open-Source-Tool für die Bearbeitung von Bildern mit Anweisungen in natürlicher SpracheDie































