O sistema de controle inovador do SongGen permite que os usuários orientem com precisão o processo de geração de música por meio de linguagem natural. As principais dimensões de controle incluem:
- Letras de músicasDigite diretamente a letra do texto e o modelo combina automaticamente as sílabas e a melodia
- InstrumentaçãoEspecifique a combinação de instrumentos e vozes a serem usados, descrevendo-os.
- Tipo de estiloSuporte à definição de mais de 20 estilos musicais, como pop, rock, clássico, etc.
- expressão afetivaParâmetros emocionais, como alegria e melancolia, afetam as progressões harmônicas e os padrões rítmicos.
- Características tonaisCaracterísticas espectrais de vocais e instrumentos podem ser ajustadas
Esse sistema de controle multidimensional é baseado em técnicas de alinhamento semântico de modelos de compreensão de áudio, como o CLAP, que permite o mapeamento preciso de descrições textuais para recursos musicais.
Essa resposta foi extraída do artigoSongGen: um transformador autorregressivo de estágio único para geração automática de músicasO































