海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

LatentSyncは、Stable Diffusionテクノロジーを使用した音声駆動型リップシンクロツールのオープンソースツールです。

2025-08-27 2.4 K

LatentSyncは、ByteDanceがStable Diffusionの潜在拡散モデルに基づいて開発したプロ仕様のAIツールです。このツールは、Whisper音声特徴抽出技術とU-Netネットワークアーキテクチャを革新的に組み合わせ、音声からビデオフレームへの直接変換を実現します。その技術的実装は、3つの核となる側面から構成されています:

  • 音声中の音素の特徴は、まずWhisperモデリングによって抽出される。
  • 音声の特徴は、修正U-Netネットワークを用いてビデオフレームの潜在空間にマッピングされる。
  • 最後に、時間的連続性を持つビデオシーケンスを生成するために、Stable Diffusionを用いたサンプラーが使用される。

この技術路線は、従来の3Dモデリングベースのリップシンク手法から脱却し、より自然なルックを実現します。バージョン1.5では、TREPAタイミング最適化技術も導入され、生成される映像の時間的整合性が大幅に改善されました。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語