O modo de duas faixas do SongGen gera vocais (vocal) e acompanhamento (acc) separadamente para atender às demandas da produção musical de nível profissional. A implementação técnica do modelo é aprovada:
- decodificação paralelaGeração sincronizada de dois fluxos de sequência de áudio separados
- alinhamento de tempoAjuste automático da duração das duas faixas para garantir a reprodução sincronizada
- Balanceamento de nívelMantenha uma relação de volume razoável entre as faixas
Essa saída dividida fornece ao mixer um espaço completo de pós-produção que pode ser usado:
- Ajuste do EQ ou dos efeitos de uma faixa individualmente
- Substituição de peças específicas do instrumento
- Redesenhando a reverberação do espaço
Em contrapartida, o modelo híbrido é mais adequado para cenários de produção rápida de conteúdo, enquanto o modelo de trilha dupla é voltado para um processo de criação profissional.
Essa resposta foi extraída do artigoSongGen: um transformador autorregressivo de estágio único para geração automática de músicasO































