LatentSyncがバージョン1.5で導入したTREPA(Temporal Regularization for Parallel Attention)技術は、AIが生成したビデオにおける画面のちらつきという一般的な問題を解決します。この革新的な技術は、次の3つのポイントで動作します:
- U-Netのアテンション・メカニズムに時間的正則化項を追加し、隣接するフレームの特徴変化を制約する。
- 特別に設計された損失関数により、不自然なタイムジャンプにペナルティを与える。
- 各フレームを個別に最適化するのではなく、ポテンシャル空間でフレーム間の相関を確立する。
従来のフレーム単位の処理手法と比較して、TREPAは単一フレームの品質を維持しながら映像シーケンスの一貫性を確保する。テストによると、この手法により、計算オーバーヘッドを追加することなく、生成された動画の主観的な流暢性スコアが371 TP3T向上した。
この答えは記事から得たものである。LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツールについて