海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

LatentSyncは、Stable Diffusionテクノロジーを使用した音声駆動型リップシンクロツールのオープンソースツールです。

2025-08-27

2.5 K

LatentSyncは、ByteDanceがStable Diffusionの潜在拡散モデルに基づいて開発したプロ仕様のAIツールです。このツールは、Whisper音声特徴抽出技術とU-Netネットワークアーキテクチャを革新的に組み合わせ、音声からビデオフレームへの直接変換を実現します。その技術的実装は、3つの核となる側面から構成されています：

音声中の音素の特徴は、まずWhisperモデリングによって抽出される。
音声の特徴は、修正U-Netネットワークを用いてビデオフレームの潜在空間にマッピングされる。
最後に、時間的連続性を持つビデオシーケンスを生成するために、Stable Diffusionを用いたサンプラーが使用される。

この技術路線は、従来の3Dモデリングベースのリップシンク手法から脱却し、より自然なルックを実現します。バージョン1.5では、TREPAタイミング最適化技術も導入され、生成される映像の時間的整合性が大幅に改善されました。

この答えは記事から得たものである。LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツールについて

関連記事

無断転載を禁じます：AI生産性ツール " LatentSyncは、Stable Diffusionテクノロジーを使用した音声駆動型リップシンクロツールのオープンソースツールです。

おすすめ

日本語