海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする

FireRedTTS-2は、複数の話者による長いダイアログを生成するために設計された音声合成(TTS)システムです。ストリーミング技術を使用し、低遅延の音声出力を可能にすることで、ダイアログ生成プロセスを高速かつ自然なものにします。fireRedTTS-2は、中国語、英語、日本語を含む多言語をサポートし、ゼロショット音声クローニング機能を搭載しています。中国語、英語、日本語を含む多言語に対応し、あらゆる言語の音色を簡単にクローニングでき、言語間の切り替えも可能なゼロショット・サウンド・クローニング機能を搭載。また、ランダムトーン生成機能を備えており、多様な音声データを大量に生成することができる。ユーザーの利便性を考慮し、本プロジェクトでは、プログラミングに不慣れなユーザーでもすぐに始められるよう、シンプルなウェブUIを提供しています。

 

機能一覧

  • 長い対話の生成4人の異なる話者による最大3分間の対話生成をサポートし、より長い対話とより多くの話者をサポートするために学習データを拡張することができます。
  • 多言語サポート英語、中国語、日本語、韓国語、フランス語、ドイツ語、ロシア語の音声合成をサポート。
  • ゼロサンプルのサウンドクローニングトレーニングなしで指定されたサウンドをクローンし、クロスリンガルや混合言語シナリオのサウンドクローンをサポートします。
  • 超低遅延12.5Hzの新しいストリーミング音声曖昧性解消器とデュアル・トランスフォーマー・アーキテクチャーに基づき、140msという低遅延で文節間のストリーミング生成が可能。
  • 高い安定性一人対話と複数人対話の両方で、高い音声類似性と低いエラー率を実証。
  • ランダムトーン生成音声認識モデル(ASR)や音声対話システムのトレーニングに適した多様な音声データを迅速に生成することができます。
  • ウェブ・ユーザー・インターフェースの提供使いやすいウェブ・インターフェースを内蔵し、サウンド・クローニングとランダム・トーン・モードの両方をサポートし、操作プロセスを簡素化します。

ヘルプの使用

FireRedTTS-2のインストールと使用方法は比較的簡単で、環境設定、モデルのダウンロード、生成タスクの実行の3つのステップに大別されます。以下に詳細な操作ガイドを示す。

1.環境設置

まず、プロジェクトのコードベースをクローンし、システム上の他のPythonプロジェクトとの競合を避けるために、プロジェクトの必要な依存関係を管理するために別のConda環境を作成する必要があります。

ステップ1:コードベースのクローン
ターミナルを開き、プロジェクトを保存したいフォルダに移動し、以下のgitコマンドを実行します:

git clone https://github.com/FireRedTeam/FireRedTTS2.git
cd FireRedTTS2

ステップ2: Conda環境の作成と有効化
Pythonのバージョンは3.11を推奨する。以下のコマンドを実行して新しいConda環境を作成します:

conda create --name fireredtts2 python=3.11
conda activate fireredtts2

ステップ 3: PyTorchのインストール
このプロジェクトは特定のバージョンのPyTorchに依存しており、お使いのCUDAのバージョンに合わせる必要があります。お使いのデバイスがCUDA 12.6をサポートしている場合は、次のコマンドを使用して直接インストールできます:

pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu126

CUDAのバージョンが異なる場合は、PyTorchのWebサイトで対応するインストールコマンドを探してください。

ステップ 4: その他の依存関係のインストール
最後に、プロジェクトで定義されている他のPythonライブラリをインストールする:

pip install -e .
pip install -r requirements.txt```
### 2. 模型下载
FireRedTTS-2 的预训练模型存放在 Hugging Face 上,需要使用 `git lfs` 工具来下载。
首先确保你已经安装了 `git lfs`,然后执行以下命令:
```bash
git lfs install
git clone https://huggingface.co/FireRedTeam/FireRedTTS2 pretrained_models/FireRedTTS2

このコマンドは、モデルファイルをプロジェクトのルートディレクトリである pretrained_models/FireRedTTS2 フォルダの中

3.機能的なオペレーション

FireRedTTS-2は、ウェブ・ユーザー・インターフェイス(Web UI)を使う方法と、Pythonスクリプトを書く方法の2つの主な方法を提供します。

オプション1:ウェブUIを使う

最もシンプルで直感的な方法で、素早く体験し、対話を生み出すことができる。

ターミナルで fireredtts2 Condaの環境で、プロジェクトのルートディレクトリにある場合、次のコマンドを実行する:

python gradio_demo.py --pretrained-dir "./pretrained_models/FireRedTTS2"

プログラムが正常に実行されると、ターミナルにローカルURL(通常は http://127.0.0.1:7860).このURLをブラウザで開くとインターフェースが表示されます。インターフェイスでは、異なる話者のテキストを入力したり、音声サンプルをアップロードして音声を複製したり、ランダムに音声を生成することを選択し、生成ボタンをクリックして合成されたダイアログ音声を取得することができます。

方法2:Pythonスクリプトを使う

このアプローチはより柔軟で、他のプロジェクトに統合するのに適している。

1.多人数ダイアログの生成
以下は、2人の対話音声を生成するサンプルコードです。各話者のテキストと、サウンドクローン用のオーディオファイル、それに対応するテキストを用意する必要があります。

import torch
import torchaudio
from fireredtts2.fireredtts2 import FireRedTTS2
# 设置运行设备
device = "cuda"
# 初始化模型
fireredtts2 = FireRedTTS2(
pretrained_dir="./pretrained_models/FireRedTTS2",
gen_type="dialogue",
device=device,
)
# 定义对话文本列表,[S1] 和 [S2] 代表不同的说话人
text_list = [
"[S1]那可能说对对,没有去过美国来说去去看到美国线下。巴斯曼也好,沃尔玛也好,他们线下不管说,因为深圳出去的还是电子周边的会表达,会发现哇对这个价格真的是很高呀。",
"[S2]对,没错,我每次都觉得不不可思议。我什么人会买三五十美金的手机壳?但是其实在在那个target啊,就塔吉特这种超级市场,大家都是这样的,定价也很多人买。",
"[S1]对对,那这样我们再去看说亚马逊上面卖卖卖手机壳也好啊,贴膜也好,还包括说车窗也好,各种线材也好,大概就是七块九九或者说啊八块九九,这个价格才是卖的最多的啊。",
"[S2]那比如说呃除了这个可能去到海外这个调查,然后这个调研考察那肯定是最直接的了。那平时我知道你是刚才建立了一个这个叫做呃rean的这样的一个一个播客,它是一个英文的。",
]
# 提供用于克隆声音的音频文件路径
prompt_wav_list = [
"examples/chat_prompt/zh/S1.flac",
"examples/chat_prompt/zh/S2.flac",
]
# 提供克隆音频对应的文本
prompt_text_list = [
"[S1]啊,可能说更适合美国市场应该是什么样子。那这这个可能说当然如果说有有机会能亲身的去考察去了解一下,那当然是有更好的帮助。",
"[S2]比如具体一点的,他觉得最大的一个跟他预想的不一样的是在什么地方。",
]
# 生成音频
all_audio = fireredtts2.generate_dialogue(
text_list=text_list,
prompt_wav_list=prompt_wav_list,
prompt_text_list=prompt_text_list,
temperature=0.9,
topk=30,
)
# 保存生成的音频文件
torchaudio.save("chat_clone.wav", all_audio, 24000)

2.モノローグの生成
また、ランダムな音色やボイスクローニングをサポートすることで、1文や1段落のモノローグを生成することもできる。

import torch
import torchaudio
from fireredtts2.fireredtts2 import FireRedTTS2
device = "cuda"
# 待合成的文本列表(支持多语言)
lines = [
"Hello everyone, welcome to our newly launched FireRedTTS2.",
"如果你厌倦了千篇一律的AI音色,那么本项目将会成为你绝佳的工具。",
"ランダムな話者と言語を選択して合成できます",
]
# 初始化模型
fireredtts2 = FireRedTTS2(
pretrained_dir="./pretrained_models/FireRedTTS2",
gen_type="monologue",
device=device,
)
# 使用随机音色生成
for i, text in enumerate(lines):
audio = fireredtts2.generate_monologue(text=text.strip())
torchaudio.save(f"random_speaker_{i}.wav", audio.cpu(), 24000)
# 使用声音克隆生成(需要提供 prompt_wav 和 prompt_text)
# for i, text in enumerate(lines):
#     audio = fireredtts2.generate_monologue(
#         text=text.strip(),
#         prompt_wav="<path_to_your_wav>",
#         prompt_text="<text_of_your_wav>",
#     )
#     torchaudio.save(f"cloned_voice_{i}.wav", audio.cpu(), 24000)

アプリケーションシナリオ

  1. ポッドキャストとオーディオブックの制作
    複数のキャラクターが登場する会話形式のポッドキャスト番組やオーディオブックも素早く作成でき、ボイスクローン機能を使えば、クリエイティブな目的で特定のキャラクターの声を真似ることも可能だ。
  2. インテリジェントなカスタマーサービスとバーチャルアシスタント
    チャットボットやバーチャル・アシスタントに、より自然で人間的な声を与えることで、低遅延ストリーミング生成によるリアルタイムの音声対話体験を提供する。
  3. ゲーム・アニメの吹き替え
    ゲーム開発やアニメーションの大量のキャラクターのボイスオーバーを素早く生成したり、開発者やデザイナーがデバッグするための一時的なプレースホルダ・トラックを作成したりできます。
  4. 音声データ強化
    ランダムトーン生成機能を使用することで、自動音声認識(ASR)モデルのトレーニングや改良のための多様な音声データを大規模に製造することができる。

品質保証

  1. FireRedTTS-2はどの言語をサポートしていますか?
    現在、英語、中国語、日本語、韓国語、フランス語、ドイツ語、ロシア語に対応している。
  2. 自分の声を使って音声を生成することはできますか?
    できます。このシステムはゼロサンプルのボイスクローニングをサポートしており、ボイスの小さなサンプル(オーディオファイル)と対応するテキストを提供するだけで、音色をクローニングして新しいボイスを生成することができます。
  3. スピーチの生成遅延は大きいですか?
    低遅延シナリオ用に設計されたFireRedTTS-2の初回応答遅延は140ミリ秒と短く、リアルタイムの音声フィードバックを必要とするアプリケーションに最適です。
  4. そのプロジェクトは商業的に無料で利用できますか?
    このプロジェクトはApache-2.0ライセンスに基づいていますが、公式声明では、サウンドクローン機能は学術研究目的にのみ使用され、いかなる違法行為にも使用することは固く禁じられていると明記されています。開発者は、このモデルのいかなる誤用に対しても責任を負いません。
関連文書ダウンロードアドレス
このリソースをダウンロードするにはログインが必要です。サインイン
このサイト上のすべてのリソースは、学習目的のためにのみ、ネットワークからのものです!
0ブックマークに登録
0表彰される

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

新着情報

トップに戻る

ja日本語