Há três tipos de arquivos de entrada principais que precisam ser preparados para executar o MultiTalk com êxito:
1. arquivos de áudio
- Requisitos de formato: formato WAV (taxa de amostragem de 16 kHz recomendada)
- Requisitos quantitativos: consistentes com o número de personagens envolvidos no diálogo
- Requisitos de qualidade: claro e sem ruídos, gravação mono recomendada
2. imagens de referência
- Imagem de personagem: uma imagem nítida que contém características faciais
- Compatibilidade de estilo: suporta fotos reais ou imagens de desenho animado
- Sugestão de plano de fundo: é mais fácil trabalhar com planos de fundo de cores sólidas
3. alertas de texto
- Descrição da cena: por exemplo, "Duas pessoas conversando em um café"
- Designações comportamentais: por exemplo, "mulher acena com a cabeça e sorri, homem mostra o celular"
- Controle de estilo: Atribua "estilo Disney" a personagens de desenhos animados, etc.
Todos os arquivos de entrada precisam ser organizados e associados por meio de um arquivo de configuração JSON, cujo exemplo pode ser encontrado no modelo da documentação do projeto.
Essa resposta foi extraída do artigoMultiTalk: uma ferramenta orientada por áudio para gerar vídeos de conversas com várias pessoasO































