VibeVoice-1.5Bは、Microsoft Researchがリリースした最先端のオープンソースTTS(Text-to-Speech)モデルです。 特に、ポッドキャストやオーディオブックのような、表現力豊かで長文、複数文字の対話音声を生成するために設計されています。 VibeVoiceの中核となる技術革新は、7.5Hzという超低フレームレートで動作する連続音声曖昧性解消器(音響的および意味的)を使用していることで、音声の忠実度を効果的に保ちながら、長いシーケンスを処理する計算効率を大幅に向上させています。 このモデルは、テキストの文脈と対話の流れを理解するための大規模言語モデル(LLM)に基づいており、これを拡散モデルと組み合わせて、忠実度の高い音響の詳細を生成します。 VibeVoiceは、一度に最大90分の音声を合成することができ、1つの音声セグメントで最大4人の異なる話者をサポートすることができます。 このモデルは主に英語と中国語のデータを使って学習され、言語横断合成と基本的な歌唱合成の両方をサポートしています。
機能一覧
- 超ロング・オーディオ合成1回の作業で最大90分のコヒーレントな音声を生成可能。
- トーカーのサポート強化最大4つの異なるスピーカー間の自然な対話を同じ音声でシミュレートできる。
- 表情豊かな声生成された音声は、感情や表情がより自然で、従来のTTSモデルの機械的な感じを払拭しています。
- クロスランゲージと歌唱合成主な学習データは中国語と英語ですが、英語を入力すると中国語の音声が生成されるなど、ある程度の言語横断的な合成能力と、基本的な歌唱能力を備えています。
- オープンソースでアクセスしやすいこのモデルは、MITライセンスの下でオープンソース化されており、研究コミュニティーに友好的で、開発者が使用するための対応するコードベースと技術レポートを提供している。
- 効率的なアーキテクチャ革新的な音響スプリッターとセマンティックスプリッターを使用し、非常に低いフレームレートで動作させることで、長い音声シーケンスを効率的に生成します。
- 安全対策悪用を防ぐため、このモデルは自動的に「AIが生成した」可聴声明と知覚できない透かしを生成された音声に埋め込みます。
ヘルプの使用
VibeVoice-1.5Bは、主に研究者や開発者を対象としており、一般のユーザーはHugging FaceのGradioデモアプリを通じて体験することができます。開発者向けには、以下の手順でローカル環境に導入して使用することができます。
環境の準備とインストール
まず、PythonとPyTorchが環境にインストールされていることを確認する必要があります。このモデルはある程度の計算資源を必要とするため、NVIDIA GPU(10GB以上のビデオメモリを推奨)を搭載したLinuxまたはWindows(WSL2経由)環境で使用することを推奨します。
- クローン・コード・リポジトリ::
VibeVoiceのコードリポジトリをGitHubからクローンする。git clone https://github.com/microsoft/VibeVoice-Code.git cd VibeVoice-Code
- 依存関係のインストール::
コードベースは通常requirements.txt
ファイルには、必要なPython依存ライブラリがすべて含まれています。pip install -r requirements.txt
モデルダウンロード
VibeVoice-1.5BのモデルファイルはHugging Faceでホストされています。コードでモデルのパスを指定する必要があります。microsoft/VibeVoice-1.5B
ハグする顔。transformers
ライブラリは必要なモデルファイルを自動的にダウンロードします。
使い方(コード例)
VibeVoiceの核となる機能は、モデルを呼び出すためのスクリプトを書くことによって行われるテキストから音声への変換です。以下は、基本的な使い方の流れと、マルチプレイヤーダイアログの音声を生成する方法を示すコードスニペットです。
- テキスト入力の準備::
VibeVoiceは、異なる話者を区別するためにシンプルなフォーマットを使用します。各スピーカーの ID をテキストにラベル付けする必要があります。[speaker 0]
もしかしたら[speaker 1]
.text = """ [speaker 0] 你好,欢迎收听我们的AI播客。今天我们来聊聊最新的语音合成技术。 [speaker 1] 没错,特别是像VibeVoice这样的模型,它能生成长达90分钟的对话,真是太惊人了。 [speaker 0] 是的,而且它还支持最多4个不同的声音。这意味着我们可以制作更复杂的广播剧或者多人有声书了。 [speaker 1] 让我们来听听效果吧! """
- 推論スクリプトの作成::
モデルとプロセッサー(トークナイザー)をロードし、準備されたテキストを音声を生成するためにモデルに入力する必要があります。import torch from transformers import AutoProcessor, AutoModelForTextToWaveform import scipy.io.wavfile # 确定设备 device = "cuda" if torch.cuda.is_available() else "cpu" # 加载模型和处理器 processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-1.5B") model = AutoModelForTextToWaveform.from_pretrained("microsoft/VibeVoice-1.5B").to(device) # 准备输入 inputs = processor(text=text, return_tensors="pt").to(device) # 生成语音波形 with torch.no_grad(): waveform = model.generate(**inputs, do_sample=True, temperature=0.9) # 保存音频文件 # 注意:采样率需要从模型配置中获取,这里以24000为例 sampling_rate = model.config.sampling_rate scipy.io.wavfile.write("output_dialogue.wav", rate=sampling_rate, data=waveform[0].cpu().numpy()) print("音频文件已生成:output_dialogue.wav")
このスクリプトは
output_dialogue.wav
2人のスピーカーの対話を含むオーディオファイル。
注目の機能操作:一発ボイスクローニング
コミュニティから提供された多くのデモ(Demo)において、VibeVoiceは単一サンプル音声クローニングの威力を実証しています。 ユーザーはターゲットとなる音声の小さなサンプルを提供するだけで、モデルはその音声の音色を模倣し、新しいテキストを音読することができます。
Gradioのデモ・インターフェースには、通常、音声ファイルをアップロードするエリアがある。
- クローンしたい音を含む、背景ノイズのないクリアなオーディオファイル(WAVまたはMP3形式など)をアップロードします。
- テキスト入力ボックスに、この音声で読み上げさせたいテキストを入力します。
- Generate "ボタンをクリックすると、モデルはアップロードされたオーディオトーンを使用して新しい音声を合成します。
ほら
- 研究用のみこのモデルは現在のところ研究用であり、商業環境や生産環境での使用は推奨されていない。
- 言語制限このモデルは主に英語と中国語に最適化されているため、他の言語では予測できない、あるいは質の低い出力が出る可能性があります。
- バックグラウンドノイズなしこのモデルは純粋なボーカルだけを生成し、BGMやアンビエントノイズは加えません。
- 言葉が重ならない現在のバージョンでは、ロボコールのシミュレーションや、多人数での会話でよく見られる話し手の重複はサポートしていません。
アプリケーションシナリオ
- ポッドキャストとオーディオブックの制作
VibeVoiceは最大90分の音声を生成し、最大4人のキャラクターをサポートできるため、コンテンツ制作者は台本や書籍をマルチプレイヤー対話形式の音声コンテンツに効率的に変換でき、収録コストを劇的に削減できます。 - ゲームキャラクターのナレーション
ゲーム開発者は、このモデルを使用して、ノンプレイヤーキャラクター(NPC)の大量の台詞を生成することができます。その表現力豊かな機能により、キャラクターの声をより自然に聞こえさせ、ゲームへの没入感を高めることができます。 - コンテンツ・アクセシビリティ
長い記事やニュース、レポートなどを視覚障がい者向けに自然な音声に変換します。マルチスピーカー機能を使えば、引用や他の人のコメントを区別し、内容を理解しやすくすることができます。 - 語学学習
モデルは、実際の対話シナリオをシミュレートする言語学習教材を作成するために使用することができます。様々な登場人物の声を調整することで、学習者が様々なアクセントや話すスピードに適応できるようになります。
品質保証
- VibeVoice-1.5Bはどの言語に対応していますか?
このモデルは、主に英語と中国語のデータを使って訓練され、最適化された。 ある程度の言語横断的な合成能力を持つが、他の言語を扱った場合、結果が不安定になったり、満足のいくものにならない可能性がある。 - VibeVoice-1.5Bを使用するために必要なハードウェアはありますか?
はい、より良い推論速度を得るためには、少なくとも10GBのビデオメモリを持つNVIDIA GPUを搭載したデバイスで実行することをお勧めします。 CPUのみの環境で実行すると、非常に遅くなる可能性があります。 - 生成された音声は商業プロジェクトに使用できますか?
使用できません。公式の指示によると、このモデルのリリースバージョンは研究目的に限定されており、いかなる商業用途にも推奨されません。 いかなる使用も、MITライセンスとモデルカードの使用制限に従うものとします。例えば、音声のなりすましや偽情報の流布は禁止されています。 - VibeVoiceはリアルタイムで音声を生成できますか?
現在のバージョンは、電話やビデオ会議における「リアルタイム・ディープ・フェイク」のような、リアルタイムまたは低遅延の音声変換アプリケーションには適していません。 このバージョンは、長い音声をオフラインで高品質に生成することに重点を置いて設計されています。 - モデルによって生成された音声には透かしが入っていますか?
はい、悪意のある使用を防ぐために、モデルを通して合成されたすべての音声には、トレーサビリティのために、可聴AIステートメント(例えば「このセグメントはAIによって生成されました」)と知覚できないデジタル透かしが自動的に埋め込まれます。