MOSS-TTSDは中国語と英語のバイリンガルをサポートするオープンソースの対話音声生成モデルです。低ビットコーディング技術に基づき、ゼロサンプルのクローニングと最大960秒のシングルショット音声生成をサポートします。MOSS-TTSDは完全なモデル重みと推論コードを提供し、商用利用は無料です。最新バージョン(現在v0.5)はGitHub経由で入手可能で、音色切り替えとモデルの安定性を最適化しています。
機能一覧
- 自然で表現力豊かな音声を出力します。
- サンプル数ゼロの二人用音声クローニングを実現し、対話中の異なる話者を正確に区別します。
- ポッドキャストや長編コンテンツ制作に最適な、最長960秒までのロングスピーチ1本生成に対応。
- PDF、URL、長いテキストを高品質のポッドキャストに変換するポッドキャスト生成ツールPodeverを提供。
- オープンソースのモデル重み、推論コード、APIインターフェースと、無償の商用サポート。
- モデルの微調整スクリプトの提供、完全なモデルの微調整とLoRAの微調整のサポート、カスタムデータセットへの適応。
ヘルプの使用
設置プロセス
MOSS-TTSDのインストールはPythonに対応した環境で行う必要があります。以下に詳細なインストール手順を示します:
- 仮想環境の構築
他のプロジェクトと干渉しないように注意しながら、condaまたはpipを使って別のPython環境を作る。以下のコマンドを実行してください:conda create -n moss_ttsd python=3.10 -y conda activate moss_ttsd
- コードベースのクローン
MOSS-TTSDコードベースをGitHubからダウンロードする。ターミナルを開き、実行してください:git clone https://github.com/OpenMOSS/MOSS-TTSD.git cd MOSS-TTSD
- 依存関係のインストール
コードベースにはrequirements.txt
ファイルには、必要な依存関係が記載されています。依存関係をインストールします:pip install -r requirements.txt pip install flash-attn
注目してほしい:
flash-attn
はアテンション・メカニズムを加速するためのライブラリで、GPU環境でサポートされる必要がある。 - モデルウェイトのダウンロード
MOSS-TTSDのモデルウェイトはHugging FaceまたはGitHubのリリースページからダウンロードできます。推奨バージョンはv0.5です。ダウンロードしたモデルウェイトをプロジェクトのルートディレクトリまたは指定したパスに配置します。 - インストールの確認
サンプルスクリプトを実行して、環境が正しく設定されていることを確認します:python demo.py
成功すれば、簡単なダイアログ音声ファイルが生成される。
主な機能
1.対話音声の生成
MOSS-TTSDの中心的な機能は、対話テキストを音声に変換することです。ユーザーは、例のフォーマットで二人の対話が書かれたテキストファイルを用意する必要があります:
Speaker1: 你好,今天天气怎么样?
Speaker2: 很好,阳光明媚!
推論スクリプトを実行して音声を生成する:
python inference.py --model_path <path_to_model> --input_text <path_to_text_file> --output_dir <output_directory>
WAVフォーマットの音声ファイルを出力し、2つのスピーカーのトーンを自動的に区別します。
2.ボイスクローニング
MOSS-TTSDはゼロサンプル音声クローニングをサポートしています。ユーザは対象となる話者の音声(最低10秒)を提供し、モデルはその音色の対話音声を生成することができます。操作手順
- ターゲットのオーディオファイルを用意する(例
speaker1.wav
歌で応えるspeaker2.wav
). - 設定ファイルの修正
config.yaml
オーディオパスを指定します:speaker1: path/to/speaker1.wav speaker2: path/to/speaker2.wav
- 複製スクリプトを実行する:
python clone_voice.py --config config.yaml --input_text dialogue.txt --output_dir cloned_output
3.ポッドキャスト生成(Podever)
Podeverは長いテキストやPDF、URLをポッドキャストに変換するMOSS-TTSDのポッドキャスト生成ツールです。操作手順
- Podeverエクステンションをインストールします:
pip install podever
- 入力ファイル(PDFやURLなど)を用意する。
- コマンドを実行する:
python podever.py --input <input_file_or_url> --output podcast.wav
Podeverは自動的にテキストを抽出し、ポピュラーな科学コンテンツや本の読み聞かせに適した二人用対話スタイルのポッドキャストを生成します。
4.モデルの微調整
ユーザーはカスタムデータセットを使ってモデルを微調整できる。手順は以下の通り:
- 対話テキストと対応する音声を含むJSON形式のデータセットを用意する。
- 微調整スクリプトを実行する:
python finetune/finetune.py --model_path <path_to_model> --data_dir <path_to_processed_data> --output_dir <output_directory> --training_config <training_config_file>
- LoRAの微調整をサポートし、必要な計算リソースを削減:
python finetune/finetune.py --model_path <path_to_model> --data_dir <path_to_processed_data> --output_dir <output_directory> --training_config <training_config_file> --lora_config <lora_config_file>
ほら
- 音質を確保するため、入力音声のDNSMOSスコアが2.8以上であることを確認してください。
- このモデルは、短い台詞の返り(例えば "um "や "oh")に対して十分な感度を持たない可能性があるため、テキスト内で話者を明示的にラベル付けすることが推奨される。
- 実行には少なくとも12GBのGPUメモリが必要で、NVIDIA GPUを推奨。
アプリケーションシナリオ
- AIポッドキャスト制作
MOSS-TTSDは記事、書籍、ウェブコンテンツを2人用の対話型ポッドキャストに変換します。ユーザーはテキストを提供するだけで、Podeverツールは自然でスムーズな音声を生成し、セルフパブリッシングのクリエイターは素早くコンテンツを制作することができます。 - 語学学習ツール
教師はMOSS-TTSDを使ってバイリンガル対話音声を生成し、生徒のリスニングやスピーキングの練習に役立てることができます。ボイスクローン機能により、実際の人の声色をシミュレートすることができ、学習の楽しみが広がります。 - アクセシビリティ支援
MOSS-TTSDは視覚障害者向けのオーディオブックや会話ニュースキャスターを生成します。長い音声の生成は、一度に全章の出力をサポートし、操作の頻度を減らします。 - 学術研究
研究者はMOSS-TTSDのオープンソースの性質を利用して、音声合成技術を研究することができます。このモデルは微調整をサポートしており、カスタマイズされた音声アプリケーションの開発に適しています。
品質保証
- MOSS-TTSDはどの言語に対応していますか?
現在、中国語と英語のバイリンガル対話生成をサポートしており、将来的にはさらに多くの言語に拡大する可能性がある。 - スピーチ生成の質はどうすれば向上するのか?
高品質の入力音声(DNSMOS≥2.8)を使用し、ダイアログテキストが話者を明確に示すようにします。モデルを微調整することで、結果をさらに改善することができます。 - 市販されていますか?
はい、MOSS-TTSDはApache 2.0ライセンスの下でライセンスされており、法的および倫理的な遵守を条件として、自由な商用利用をサポートしています。 - モデルの実行にはどのようなハードウェアが必要ですか?
NVIDIA GPUを推奨し、最低12GBのビデオメモリを搭載すること。 CPUは動作が遅くなる可能性があり、本番環境では推奨されません。