O projeto SongGen consiste em um sistema completo de processamento de dados automatizado com um fluxo de trabalho de três fases:
- Processamento de dados brutosLimpeza automática de áudio inválido, taxa de amostragem e profundidade de bits uniformes
- extração de recursosExtração paralela de recursos musicais, como espectro de Mel, frequência fundamental, volume, etc.
- garantia de qualidadePontuação da qualidade dos dados por meio de um conjunto de vários modelos
Esse conjunto de dados processado por pipeline tem:
- Parâmetros de áudio padronizados (16kHz/16 bits)
- Rotulagem precisa e alinhada ao tempo das letras
- Tags de atributos de música avançada
O código-fonte aberto de processamento de dados permite que os colaboradores da comunidade ampliem o suporte a novos conjuntos de dados de música, e esse design ecológico aberto acelera a evolução iterativa dos recursos do modelo.
Essa resposta foi extraída do artigoSongGen: um transformador autorregressivo de estágio único para geração automática de músicasO































