バージョン1.5の技術的アップグレード
2025年3月にリリースされたバージョン1.5では、3つの核となる改良が加えられている:
1.時間の一貫性の向上
- 採用TREPAテクノロジー(タイミング相対位置注意)フレーム間ジッターの低減
- 前後のフレーム間の相関を強化する新しい時間畳み込み層
- デモビデオ42%における画面ジャンプの低減
2.中国処理の最適化
- ウィスパーモデルの拡張中国語の音素認識能力
- 200時間以上の中国語ビデオサンプルをトレーニングデータに追加
- 中国リップの形状精度が78%から91%に向上
3.トレーニング効率の向上
- U-Netアーキテクチャを再構成し、ビデオメモリフットプリントを25%削減(トレーニング用に20GBを準備)
- stage2_efficient.yamlの軽量化設定を追加
- アジュバント勾配チェックポイントより安定した長時間のビデオトレーニングを可能にする技術
これらの改善により、LatentSyncは品質を維持しながら、プロフェッショナルでない開発者にも適しています。
この答えは記事から得たものである。LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツールについて