LatentSyncのバージョン1.5が2023年3月にリリースされ、中国環境向けにいくつかの重要な最適化が行われた。最も大きな改良点は、トレーニングに必要なグラフィックス・メモリを以前のバージョンの30GB以上から20GBに削減したことで、RTX 3090クラスのグラフィックス・カードを使用してモデル・トレーニングを完了できるようになりました。
- グラフィックスの最適化は、主に、stage2_efficient.yamlコンフィギュレーションの使用を含む、改良されたU-Netネットワーク・アーキテクチャによって達成されています。
- 推論フェーズでは、必要なビデオメモリはさらに削減され、わずか6.8GBになります。
- このバージョンでは、特に中国語の音素の認識を強化し、再設計されたデータ処理パイプラインにより、中国語音声のエンコード効率を向上させました。
これらの改善により、一般の開発者がこのツールを使ってコンシューマーグレードのハードウェアで中国語コンテンツを処理できるようになり、技術的な障壁が大幅に低くなった。
この答えは記事から得たものである。LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツールについて