Version 1.5 von LatentSync wurde im März 2023 mit mehreren wichtigen Optimierungen für die chinesische Umgebung veröffentlicht. Die wichtigste Verbesserung ist die Verringerung des für das Training erforderlichen Grafikspeichers von über 30 GB in früheren Versionen auf 20 GB, wodurch es möglich ist, das Modelltraining mit einer Grafikkarte der RTX 3090-Klasse durchzuführen.
- Die Grafikoptimierung wird hauptsächlich durch eine verbesserte U-Net-Netzwerkarchitektur erreicht, einschließlich der Verwendung der stage2_efficient.yaml-Konfiguration
- In der Inferenzphase wird der benötigte Videospeicher auf nur noch 6,8 GB reduziert.
- Diese Version verbessert insbesondere die Erkennung chinesischer Phoneme und die Effizienz der Kodierung chinesischer Audiodaten durch eine neu gestaltete Datenverarbeitungspipeline.
Diese Verbesserungen ermöglichen es normalen Entwicklern, mit dem Tool chinesische Inhalte auf verbraucherfreundlicher Hardware zu verarbeiten, wodurch die technische Hürde deutlich gesenkt wird.
Diese Antwort stammt aus dem ArtikelLatentSync: ein Open-Source-Tool zur Erzeugung von lippensynchronem Video direkt aus AudioDie