Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O FireRedTTS-2 é um sistema de conversão de texto em fala (TTS) projetado para gerar diálogos longos com vários falantes. Ele usa a tecnologia de streaming para permitir a saída de fala de baixa latência, tornando o processo de geração de diálogo rápido e natural. A principal vantagem do sistema é sua capacidade de lidar com conversas de até vários minutos de duração e suportar a alternância suave entre vários falantes virtuais, mantendo o ritmo contextual e a coerência emocional. O fireRedTTS-2 é compatível com vários idiomas, incluindo chinês, inglês e japonês, e é equipado com clonagem de som zero-shot, que permite aos usuários clonar facilmente os tons de qualquer idioma, mesmo entre idiomas. O sistema é compatível com vários idiomas, incluindo chinês, inglês e japonês, e possui um recurso de clonagem de som de disparo zero que permite aos usuários clonar facilmente o som de qualquer idioma e até mesmo alternar entre idiomas. Além disso, o sistema oferece uma função de geração de tons aleatórios, que pode ser usada para gerar um grande número de dados de fala diversos. Para a conveniência do usuário, o projeto oferece uma interface de usuário da Web simples que permite que os usuários que não estão familiarizados com programação comecem a usar o sistema rapidamente.

 

Lista de funções

  • Geração de diálogos longosSuporte para geração de diálogos de até 3 minutos com 4 falantes diferentes, com a capacidade de estender os dados de treinamento para suportar diálogos mais longos e mais falantes.
  • Suporte a vários idiomasSuporte para síntese de fala em inglês, chinês, japonês, coreano, francês, alemão e russo.
  • Clonagem de som de amostra zeroClonagem de sons: clona sons específicos sem treinamento, oferecendo suporte à clonagem de sons para cenários multilíngues e de idiomas mistos.
  • latência ultrabaixaGeração de streaming entre frases com latência de primeira resposta tão baixa quanto 140 ms, com base em um novo desambiguador de fala de streaming de 12,5 Hz e arquitetura de transformador duplo.
  • alta estabilidadeDemonstrou alta similaridade de voz e baixas taxas de erro em testes de monólogo único e diálogo com várias pessoas.
  • Geração de tons aleatóriosPode ser usado para gerar rapidamente diversos dados de fala adequados para o treinamento de modelos de reconhecimento de fala (ASR) ou sistemas de interação de fala.
  • Fornecer uma interface de usuário da WebInterface da Web: Uma interface da Web fácil de usar está integrada e oferece suporte aos modos de clonagem de som e de tom aleatório, simplificando o processo de operação.

Usando a Ajuda

O processo de instalação e uso do FireRedTTS-2 é relativamente simples e está dividido em três etapas principais: configuração do ambiente, download do modelo e execução das tarefas de geração. A seguir, um guia de operação detalhado.

1. instalação ambiental

Primeiro, você precisa clonar a base de código do projeto e criar um ambiente Conda separado para gerenciar as dependências necessárias do projeto a fim de evitar conflitos com outros projetos Python em seu sistema.

Etapa 1: clonar a base de código
Abra o Terminal, vá para a pasta onde deseja armazenar seu projeto e execute o seguinte comando git:

git clone https://github.com/FireRedTeam/FireRedTTS2.git
cd FireRedTTS2

Etapa 2: Criar e ativar o ambiente Conda
Recomenda-se a versão 3.11 do Python. Execute o seguinte comando para criar um novo ambiente Conda:

conda create --name fireredtts2 python=3.11
conda activate fireredtts2

Etapa 3: Instalar o PyTorch
O projeto depende de uma versão específica do PyTorch e precisa corresponder à sua versão do CUDA. Se o seu dispositivo for compatível com CUDA 12.6, você poderá instalá-lo diretamente usando o seguinte comando:

pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu126

Se você tiver uma versão diferente do CUDA, acesse o site do PyTorch para encontrar o comando de instalação correspondente.

Etapa 4: Instalar outras dependências
Por fim, instale as outras bibliotecas Python definidas pelo projeto:

pip install -e .
pip install -r requirements.txt```
### 2. 模型下载
FireRedTTS-2 的预训练模型存放在 Hugging Face 上,需要使用 `git lfs` 工具来下载。
首先确保你已经安装了 `git lfs`,然后执行以下命令:
```bash
git lfs install
git clone https://huggingface.co/FireRedTeam/FireRedTTS2 pretrained_models/FireRedTTS2

Esse comando fará o download dos arquivos de modelo para o diretório raiz do projeto no diretório pretrained_models/FireRedTTS2 Dentro da pasta.

3. operações funcionais

O FireRedTTS-2 oferece duas maneiras principais de usá-lo: por meio da interface de usuário da Web (Web UI) ou escrevendo scripts Python.

Opção 1: usar uma interface do usuário da Web

É a maneira mais simples e intuitiva de obter uma experiência rápida e gerar diálogo.

No terminal, verifique se você está no diretório fireredtts2 ambiente Conda e localizado no diretório raiz do projeto, execute o seguinte comando:

python gradio_demo.py --pretrained-dir "./pretrained_models/FireRedTTS2"

Depois que o programa for executado com êxito, o terminal exibirá um URL local (geralmente o http://127.0.0.1:7860). Abra esse URL em seu navegador para ver a interface. Na interface, você pode inserir o texto de diferentes locutores, carregar amostras de áudio para clonagem de voz ou optar por gerar vozes aleatoriamente e clicar no botão Generate (Gerar) para obter o áudio do diálogo sintetizado.

Maneira 2: usando scripts Python

Essa abordagem é mais flexível e adequada para integração em outros projetos.

1. geração de diálogos com várias pessoas
Abaixo está um exemplo de código para gerar um diálogo entre duas pessoas. Você precisará preparar o texto para cada locutor, bem como um arquivo de áudio para clonagem de som e o texto correspondente.

import torch
import torchaudio
from fireredtts2.fireredtts2 import FireRedTTS2
# 设置运行设备
device = "cuda"
# 初始化模型
fireredtts2 = FireRedTTS2(
pretrained_dir="./pretrained_models/FireRedTTS2",
gen_type="dialogue",
device=device,
)
# 定义对话文本列表,[S1] 和 [S2] 代表不同的说话人
text_list = [
"[S1]那可能说对对,没有去过美国来说去去看到美国线下。巴斯曼也好,沃尔玛也好,他们线下不管说,因为深圳出去的还是电子周边的会表达,会发现哇对这个价格真的是很高呀。",
"[S2]对,没错,我每次都觉得不不可思议。我什么人会买三五十美金的手机壳?但是其实在在那个target啊,就塔吉特这种超级市场,大家都是这样的,定价也很多人买。",
"[S1]对对,那这样我们再去看说亚马逊上面卖卖卖手机壳也好啊,贴膜也好,还包括说车窗也好,各种线材也好,大概就是七块九九或者说啊八块九九,这个价格才是卖的最多的啊。",
"[S2]那比如说呃除了这个可能去到海外这个调查,然后这个调研考察那肯定是最直接的了。那平时我知道你是刚才建立了一个这个叫做呃rean的这样的一个一个播客,它是一个英文的。",
]
# 提供用于克隆声音的音频文件路径
prompt_wav_list = [
"examples/chat_prompt/zh/S1.flac",
"examples/chat_prompt/zh/S2.flac",
]
# 提供克隆音频对应的文本
prompt_text_list = [
"[S1]啊,可能说更适合美国市场应该是什么样子。那这这个可能说当然如果说有有机会能亲身的去考察去了解一下,那当然是有更好的帮助。",
"[S2]比如具体一点的,他觉得最大的一个跟他预想的不一样的是在什么地方。",
]
# 生成音频
all_audio = fireredtts2.generate_dialogue(
text_list=text_list,
prompt_wav_list=prompt_wav_list,
prompt_text_list=prompt_text_list,
temperature=0.9,
topk=30,
)
# 保存生成的音频文件
torchaudio.save("chat_clone.wav", all_audio, 24000)

2. geração de monólogos
Você também pode usá-lo para gerar monólogos de uma única frase ou de um único parágrafo com suporte para timbre aleatório ou clonagem de voz.

import torch
import torchaudio
from fireredtts2.fireredtts2 import FireRedTTS2
device = "cuda"
# 待合成的文本列表(支持多语言)
lines = [
"Hello everyone, welcome to our newly launched FireRedTTS2.",
"如果你厌倦了千篇一律的AI音色,那么本项目将会成为你绝佳的工具。",
"ランダムな話者と言語を選択して合成できます",
]
# 初始化模型
fireredtts2 = FireRedTTS2(
pretrained_dir="./pretrained_models/FireRedTTS2",
gen_type="monologue",
device=device,
)
# 使用随机音色生成
for i, text in enumerate(lines):
audio = fireredtts2.generate_monologue(text=text.strip())
torchaudio.save(f"random_speaker_{i}.wav", audio.cpu(), 24000)
# 使用声音克隆生成(需要提供 prompt_wav 和 prompt_text)
# for i, text in enumerate(lines):
#     audio = fireredtts2.generate_monologue(
#         text=text.strip(),
#         prompt_wav="<path_to_your_wav>",
#         prompt_text="<text_of_your_wav>",
#     )
#     torchaudio.save(f"cloned_voice_{i}.wav", audio.cpu(), 24000)

cenário do aplicativo

  1. Produção de podcasts e audiolivros
    Programas de podcast de conversação ou audiolivros com vários personagens podem ser gerados rapidamente e, com o recurso de clonagem de voz, também é possível imitar a voz de um personagem específico para fins criativos.
  2. Atendimento inteligente ao cliente e assistentes virtuais
    Dar aos chatbots ou assistentes virtuais uma voz mais natural e humana proporciona uma experiência de interação de voz em tempo real por meio da geração de streaming de baixa latência.
  3. Dublagem de jogos e animações
    Gere rapidamente dublagens para um grande número de personagens no desenvolvimento de jogos ou animações, ou crie faixas temporárias de espaço reservado para desenvolvedores e designers depurarem.
  4. aprimoramento de dados de voz
    Usando a função de geração de tons aleatórios, diversos dados de fala podem ser fabricados em grande escala para treinamento e aprimoramento de modelos de reconhecimento automático de fala (ASR).

QA

  1. Quais são os idiomas suportados pelo FireRedTTS-2?
    Atualmente, há suporte para inglês, chinês, japonês, coreano, francês, alemão e russo.
  2. Posso usar minha própria voz para gerar áudio?
    Pode. O sistema é compatível com a clonagem de voz de amostra zero. Você só precisa fornecer uma pequena amostra de sua voz (arquivo de áudio) e o texto correspondente e, em seguida, pode clonar seu timbre para gerar uma nova voz.
  3. A latência de geração de fala é alta?
    Projetado para cenários de baixa latência, o FireRedTTS-2 tem uma latência de primeira resposta tão baixa quanto 140 milissegundos, o que o torna ideal para aplicativos que exigem feedback de voz em tempo real.
  4. O projeto está disponível comercialmente de forma gratuita?
    O projeto é baseado na licença Apache-2.0, mas a declaração oficial afirma especificamente que o recurso de clonagem de som deve ser usado apenas para fins de pesquisa acadêmica e é estritamente proibido de ser usado para atividades ilegais. O desenvolvedor não é responsável por qualquer uso indevido do modelo.
Endereço para download de documentos relacionados
Este recurso requer login para fazer o download, vá paraentrar
Os direitos autorais dos recursos de download © pertencem ao autor; todos os recursos deste site são da rede, apenas para fins de aprendizado; por favor, apoie a versão original!
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil