YuE alcança um avanço tecnológico na geração de música de alta qualidade
O YuE garante a vantagem da qualidade da música gerada por meio de várias inovações tecnológicas. Seu desambiguador de áudio semanticamente aprimorado é capaz de capturar com precisão os recursos sutis dos sinais musicais, e seu esquema de treinamento em três estágios resolve com eficiência o problema de modelar sequências longas, de modo que as músicas geradas permaneçam altamente coerentes na dimensão temporal.
Em termos de diversidade, o modelo suporta a troca de vários estilos musicais, como pop e metal, e pode ajustar o tipo de vocal de acordo com a demanda. Os testes mostram que as músicas geradas pelo YuE superam significativamente os métodos tradicionais nas seguintes métricas: a integridade estrutural musical é aprimorada em 471 TP3T, a naturalidade melódica é aprimorada em 321 TP3T e o ajuste de estilo é aprimorado em 281 TP3T.
Essas vantagens decorrem de dois pontos-chave no projeto da arquitetura do modelo: primeiro, a técnica de bipartição trata os recursos musicais e linguísticos separadamente para evitar confusão de informações; segundo, o pensamento em cadeia das letras simula o processo de criatividade humana, em que a emoção da letra é compreendida antes de gerar a melodia correspondente, e esse processamento hierárquico garante a precisão da expressão artística.
Essa resposta foi extraída do artigoYuE: Transforma as letras em um modelo básico de uma música completa, suportando uma ampla variedade de estilos musicaisO































