海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

Wan2.2-S2V-14B、デジタルヒューマン分野における口シンクロの技術的ブレークスルーを達成

2025-08-28 345
直接リンクモバイルビュー
qrcode

音声対口語マッピングのための技術的ソリューション

このモデルの音声同期システムは、音素-視覚結合音素モデリング技術を採用し、200以上の中国語音素を含む発音特徴ライブラリを構築する。システムのワークフローは3つのステップに分かれている。まず、音声はASRによって音素列に変換され、次に、事前に構築された音素-口形状マッピングテーブルを照会して、ベースとなる口形状を取得し、最後に、話者の参照画像の顔構造を組み合わせて、パーソナライズされた適応を実行する。このシステムは、標準中国語と複数の方言間の発音の違いや、発話速度の変化による口形状の動的な調整を自動的に処理できることは、特筆に値する。専門家による評価では、中国語の口のシンクロ精度は94.3%、英語のシンクロ精度は89.7%に達し、類似製品を15~20ポイント大きく引き離している。この技術により、バーチャルキャスターの活用シーンは、標準的な放送から、自由な対話など複雑なシーンにまで広がっている。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る