Posição atual:fig. início » Biblioteca de ferramentas de IA

FireRedTTS-2: um sistema de podcasting de áudio multijogador gerado por IA, de código aberto e gratuito, disponível comercialmente

2025-09-25

Biblioteca de ferramentas de IA/podcast de áudio

2.0 K 10

https://github.com/FireRedTeam/FireRedTTS2

fazer uma cópia de

Link diretoVisualização móvel

O FireRedTTS-2 é um sistema de conversão de texto em fala (TTS) projetado para gerar diálogos longos com vários falantes. Ele usa a tecnologia de streaming para permitir a saída de fala de baixa latência, tornando o processo de geração de diálogo rápido e natural. A principal vantagem do sistema é sua capacidade de lidar com conversas de até vários minutos de duração e suportar a alternância suave entre vários falantes virtuais, mantendo o ritmo contextual e a coerência emocional. O fireRedTTS-2 é compatível com vários idiomas, incluindo chinês, inglês e japonês, e é equipado com clonagem de som zero-shot, que permite aos usuários clonar facilmente os tons de qualquer idioma, mesmo entre idiomas. O sistema é compatível com vários idiomas, incluindo chinês, inglês e japonês, e possui um recurso de clonagem de som de disparo zero que permite aos usuários clonar facilmente o som de qualquer idioma e até mesmo alternar entre idiomas. Além disso, o sistema oferece uma função de geração de tons aleatórios, que pode ser usada para gerar um grande número de dados de fala diversos. Para a conveniência do usuário, o projeto oferece uma interface de usuário da Web simples que permite que os usuários que não estão familiarizados com programação comecem a usar o sistema rapidamente.

Lista de funções

Geração de diálogos longosSuporte para geração de diálogos de até 3 minutos com 4 falantes diferentes, com a capacidade de estender os dados de treinamento para suportar diálogos mais longos e mais falantes.
Suporte a vários idiomasSuporte para síntese de fala em inglês, chinês, japonês, coreano, francês, alemão e russo.
Clonagem de som de amostra zeroClonagem de sons: clona sons específicos sem treinamento, oferecendo suporte à clonagem de sons para cenários multilíngues e de idiomas mistos.
latência ultrabaixaGeração de streaming entre frases com latência de primeira resposta tão baixa quanto 140 ms, com base em um novo desambiguador de fala de streaming de 12,5 Hz e arquitetura de transformador duplo.
alta estabilidadeDemonstrou alta similaridade de voz e baixas taxas de erro em testes de monólogo único e diálogo com várias pessoas.
Geração de tons aleatóriosPode ser usado para gerar rapidamente diversos dados de fala adequados para o treinamento de modelos de reconhecimento de fala (ASR) ou sistemas de interação de fala.
Fornecer uma interface de usuário da WebInterface da Web: Uma interface da Web fácil de usar está integrada e oferece suporte aos modos de clonagem de som e de tom aleatório, simplificando o processo de operação.

Usando a Ajuda

O processo de instalação e uso do FireRedTTS-2 é relativamente simples e está dividido em três etapas principais: configuração do ambiente, download do modelo e execução das tarefas de geração. A seguir, um guia de operação detalhado.

1. instalação ambiental

Primeiro, você precisa clonar a base de código do projeto e criar um ambiente Conda separado para gerenciar as dependências necessárias do projeto a fim de evitar conflitos com outros projetos Python em seu sistema.

Etapa 1: clonar a base de código
Abra o Terminal, vá para a pasta onde deseja armazenar seu projeto e execute o seguinte comando git:

git clone https://github.com/FireRedTeam/FireRedTTS2.git
cd FireRedTTS2

Etapa 2: Criar e ativar o ambiente Conda
Recomenda-se a versão 3.11 do Python. Execute o seguinte comando para criar um novo ambiente Conda:

conda create --name fireredtts2 python=3.11
conda activate fireredtts2

Etapa 3: Instalar o PyTorch
O projeto depende de uma versão específica do PyTorch e precisa corresponder à sua versão do CUDA. Se o seu dispositivo for compatível com CUDA 12.6, você poderá instalá-lo diretamente usando o seguinte comando:

pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu126

Se você tiver uma versão diferente do CUDA, acesse o site do PyTorch para encontrar o comando de instalação correspondente.

Etapa 4: Instalar outras dependências
Por fim, instale as outras bibliotecas Python definidas pelo projeto:

pip install -e .
pip install -r requirements.txt```
### 2. 模型下载
FireRedTTS-2 的预训练模型存放在 Hugging Face 上，需要使用 `git lfs` 工具来下载。
首先确保你已经安装了 `git lfs`，然后执行以下命令：
```bash
git lfs install
git clone https://huggingface.co/FireRedTeam/FireRedTTS2 pretrained_models/FireRedTTS2

Esse comando fará o download dos arquivos de modelo para o diretório raiz do projeto no diretório pretrained_models/FireRedTTS2 Dentro da pasta.

3. operações funcionais

O FireRedTTS-2 oferece duas maneiras principais de usá-lo: por meio da interface de usuário da Web (Web UI) ou escrevendo scripts Python.

Opção 1: usar uma interface do usuário da Web

É a maneira mais simples e intuitiva de obter uma experiência rápida e gerar diálogo.

No terminal, verifique se você está no diretório fireredtts2 ambiente Conda e localizado no diretório raiz do projeto, execute o seguinte comando:

python gradio_demo.py --pretrained-dir "./pretrained_models/FireRedTTS2"

Depois que o programa for executado com êxito, o terminal exibirá um URL local (geralmente o http://127.0.0.1:7860). Abra esse URL em seu navegador para ver a interface. Na interface, você pode inserir o texto de diferentes locutores, carregar amostras de áudio para clonagem de voz ou optar por gerar vozes aleatoriamente e clicar no botão Generate (Gerar) para obter o áudio do diálogo sintetizado.

Maneira 2: usando scripts Python

Essa abordagem é mais flexível e adequada para integração em outros projetos.

1. geração de diálogos com várias pessoas
Abaixo está um exemplo de código para gerar um diálogo entre duas pessoas. Você precisará preparar o texto para cada locutor, bem como um arquivo de áudio para clonagem de som e o texto correspondente.

import torch
import torchaudio
from fireredtts2.fireredtts2 import FireRedTTS2
# 设置运行设备
device = "cuda"
# 初始化模型
fireredtts2 = FireRedTTS2(
pretrained_dir="./pretrained_models/FireRedTTS2",
gen_type="dialogue",
device=device,
)
# 定义对话文本列表，[S1] 和 [S2] 代表不同的说话人
text_list = [
"[S1]那可能说对对，没有去过美国来说去去看到美国线下。巴斯曼也好，沃尔玛也好，他们线下不管说，因为深圳出去的还是电子周边的会表达，会发现哇对这个价格真的是很高呀。",
"[S2]对，没错，我每次都觉得不不可思议。我什么人会买三五十美金的手机壳？但是其实在在那个target啊，就塔吉特这种超级市场，大家都是这样的，定价也很多人买。",
"[S1]对对，那这样我们再去看说亚马逊上面卖卖卖手机壳也好啊，贴膜也好，还包括说车窗也好，各种线材也好，大概就是七块九九或者说啊八块九九，这个价格才是卖的最多的啊。",
"[S2]那比如说呃除了这个可能去到海外这个调查，然后这个调研考察那肯定是最直接的了。那平时我知道你是刚才建立了一个这个叫做呃rean的这样的一个一个播客，它是一个英文的。",
]
# 提供用于克隆声音的音频文件路径
prompt_wav_list = [
"examples/chat_prompt/zh/S1.flac",
"examples/chat_prompt/zh/S2.flac",
]
# 提供克隆音频对应的文本
prompt_text_list = [
"[S1]啊，可能说更适合美国市场应该是什么样子。那这这个可能说当然如果说有有机会能亲身的去考察去了解一下，那当然是有更好的帮助。",
"[S2]比如具体一点的，他觉得最大的一个跟他预想的不一样的是在什么地方。",
]
# 生成音频
all_audio = fireredtts2.generate_dialogue(
text_list=text_list,
prompt_wav_list=prompt_wav_list,
prompt_text_list=prompt_text_list,
temperature=0.9,
topk=30,
)
# 保存生成的音频文件
torchaudio.save("chat_clone.wav", all_audio, 24000)

2. geração de monólogos
Você também pode usá-lo para gerar monólogos de uma única frase ou de um único parágrafo com suporte para timbre aleatório ou clonagem de voz.

import torch
import torchaudio
from fireredtts2.fireredtts2 import FireRedTTS2
device = "cuda"
# 待合成的文本列表（支持多语言）
lines = [
"Hello everyone, welcome to our newly launched FireRedTTS2.",
"如果你厌倦了千篇一律的AI音色，那么本项目将会成为你绝佳的工具。",
"ランダムな話者と言語を選択して合成できます",
]
# 初始化模型
fireredtts2 = FireRedTTS2(
pretrained_dir="./pretrained_models/FireRedTTS2",
gen_type="monologue",
device=device,
)
# 使用随机音色生成
for i, text in enumerate(lines):
audio = fireredtts2.generate_monologue(text=text.strip())
torchaudio.save(f"random_speaker_{i}.wav", audio.cpu(), 24000)
# 使用声音克隆生成（需要提供 prompt_wav 和 prompt_text）
# for i, text in enumerate(lines):
#     audio = fireredtts2.generate_monologue(
#         text=text.strip(),
#         prompt_wav="<path_to_your_wav>",
#         prompt_text="<text_of_your_wav>",
#     )
#     torchaudio.save(f"cloned_voice_{i}.wav", audio.cpu(), 24000)

cenário do aplicativo

Produção de podcasts e audiolivros
Programas de podcast de conversação ou audiolivros com vários personagens podem ser gerados rapidamente e, com o recurso de clonagem de voz, também é possível imitar a voz de um personagem específico para fins criativos.
Atendimento inteligente ao cliente e assistentes virtuais
Dar aos chatbots ou assistentes virtuais uma voz mais natural e humana proporciona uma experiência de interação de voz em tempo real por meio da geração de streaming de baixa latência.
Dublagem de jogos e animações
Gere rapidamente dublagens para um grande número de personagens no desenvolvimento de jogos ou animações, ou crie faixas temporárias de espaço reservado para desenvolvedores e designers depurarem.
aprimoramento de dados de voz
Usando a função de geração de tons aleatórios, diversos dados de fala podem ser fabricados em grande escala para treinamento e aprimoramento de modelos de reconhecimento automático de fala (ASR).

QA

Quais são os idiomas suportados pelo FireRedTTS-2?
Atualmente, há suporte para inglês, chinês, japonês, coreano, francês, alemão e russo.
Posso usar minha própria voz para gerar áudio?
Pode. O sistema é compatível com a clonagem de voz de amostra zero. Você só precisa fornecer uma pequena amostra de sua voz (arquivo de áudio) e o texto correspondente e, em seguida, pode clonar seu timbre para gerar uma nova voz.
A latência de geração de fala é alta?
Projetado para cenários de baixa latência, o FireRedTTS-2 tem uma latência de primeira resposta tão baixa quanto 140 milissegundos, o que o torna ideal para aplicativos que exigem feedback de voz em tempo real.
O projeto está disponível comercialmente de forma gratuita?
O projeto é baseado na licença Apache-2.0, mas a declaração oficial afirma especificamente que o recurso de clonagem de som deve ser usado apenas para fins de pesquisa acadêmica e é estritamente proibido de ser usado para atividades ilegais. O desenvolvedor não é responsável por qualquer uso indevido do modelo.

Endereço para download de documentos relacionados

Este recurso requer login para fazer o download, vá paraentrar

Os direitos autorais dos recursos de download © pertencem ao autor; todos os recursos deste site são da rede, apenas para fins de aprendizado; por favor, apoie a versão original!

Projeto de código aberto de IA

Ferramentas de produtividade de IA » FireRedTTS-2: um sistema de podcasting de áudio multijogador gerado por IA, de código aberto e gratuito, disponível comercialmente Publicado em 2025-09-25. Se você achar que o URL está desatualizado ou inacessível, entre em contato conosco.

0Marcado

0Recomendado

FireRedTTS-2: um sistema de podcasting de áudio multijogador gerado por IA, de código aberto e gratuito, disponível comercialmente

Lista de funções

Usando a Ajuda

1. instalação ambiental

3. operações funcionais

Opção 1: usar uma interface do usuário da Web

Maneira 2: usando scripts Python

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Seleção → Redação → Publicação, totalmente automatizada!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

FireRedTTS-2: um sistema de podcasting de áudio multijogador gerado por IA, de código aberto e gratuito, disponível comercialmente

Lista de funções

Usando a Ajuda

1. instalação ambiental

3. operações funcionais

Opção 1: usar uma interface do usuário da Web

Maneira 2: usando scripts Python

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Seleção → Redação → Publicação, totalmente automatizada!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida