LatentSyncは、ByteDanceがStable Diffusionの潜在拡散モデルに基づいて開発したプロ仕様のAIツールです。このツールは、Whisper音声特徴抽出技術とU-Netネットワークアーキテクチャを革新的に組み合わせ、音声からビデオフレームへの直接変換を実現します。その技術的実装は、3つの核となる側面から構成されています:
- 音声中の音素の特徴は、まずWhisperモデリングによって抽出される。
- 音声の特徴は、修正U-Netネットワークを用いてビデオフレームの潜在空間にマッピングされる。
- 最後に、時間的連続性を持つビデオシーケンスを生成するために、Stable Diffusionを用いたサンプラーが使用される。
この技術路線は、従来の3Dモデリングベースのリップシンク手法から脱却し、より自然なルックを実現します。バージョン1.5では、TREPAタイミング最適化技術も導入され、生成される映像の時間的整合性が大幅に改善されました。
この答えは記事から得たものである。LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツールについて