Com a evolução contínua da tecnologia de IA, a qualidade e a popularidade da geração de música com IA estão aumentando rapidamente. As deficiências óbvias das primeiras músicas com IA em termos de fidelidade sonora e naturalidade vocal estão sendo aprimoradas com a rápida iteração do modelo.
Em 23 de julho de 2025, a Quintessence apresentou oficialmente seu mega-modelo musical de última geração Mureka V7
. De acordo com informações oficiais, o modelo supera o desempenho de produtos similares do exterior em vários indicadores importantes, como classificação média de desempenho, qualidade da mixagem, realismo vocal e qualidade geral do som Suno
(usado em uma expressão nominal) V4.5
Versão. Assim como em seu antecessor V6
Em comparação comMureka V7
Foram obtidas melhorias significativas na riqueza dos motivos melódicos e na qualidade dos arranjos, além de aprimorar o realismo dos vocais e instrumentos.
Mureka V7
agora está totalmente disponível em seu site oficial para os usuários experimentarem.
Funcionalidade em ação: da imitação de tom à referência de estilo
Mureka V7
Um de seus principais recursos é o "Custom Singers" (Cantores personalizados). Esse recurso permite que os usuários façam upload de áudio ou forneçam um link para um vídeo, permitindo que o modelo de IA aprenda e imite um tom específico para cantar uma música totalmente nova.
Veja o timbre da cantora Faye Wong como exemplo: sua linha vocal tem um som arejado único e uma técnica de processamento vocal arejada. No uso de Mureka V7
Quando seu timbre foi imitado e reinterpretado no Qingpingtiao, o resultado gerado reproduziu em grande parte as qualidades vocais do cantor original, especialmente no tratamento da extremidade final, que incorporou uma sensação semelhante de letargia.
Além disso, o "Music Reference" é outro recurso útil. O modelo analisa a música carregada pelos usuários, identifica seu estilo, andamento, orquestração e humor e gera composições originais com estilos semelhantes. Por exemplo, o recente sucesso de mídia social "The Plane I Just Bought Got Hit", adaptado da música indiana "Tunak Tunak Tun", é usado como referência.Mureka V7
Capacidade de gerar faixas com melodias e ritmos semelhantes que são automaticamente combinadas com vídeos musicais visuais estilizados.
Em termos de funcionalidade geral, o modelo suporta a geração direta de diferentes estilos de música a partir de descrições de texto. Ao inserir o poema de Li Bai "Will Enter the Wine" e especificar um estilo "Rap Metal", o modelo pode gerar uma música que combina o poema com elementos de rock. Para a criação de música de fundo (BGM), os usuários podem gerar clipes de música pura sem direitos autorais com instruções simples (por exemplo, "relembrar a melodia quente do piano da infância") ou carregar áudio de referência (por exemplo, a música tema de "Summer" ou "Game of Thrones") para criar estilos musicais semelhantes.
No caso de geração insatisfatória de resultadosMureka V7
Oferece ferramentas básicas de edição de áudio com suporte para modificação local, extensão de músicas, divisão de instrumentos e corte de áudio, além de ser compatível com a criação de músicas em dez idiomas.
Núcleo da tecnologia: a cadeia de pensamento evolutiva do MusiCoT
Mureka V7
O aprimoramento do desempenho se deve à cadeia de pensamento específica da geração de música desenvolvida por ele mesmo MusiCoT
(Analyzable Chain-of-Musical-Thought Prompting) para otimização contínua.
No campo da modelagem de linguagem em larga escala, o Chain-of-Thought (CoT) é um método de sugestão que orienta um modelo por meio de um processo de raciocínio passo a passo antes de responder a uma pergunta, a fim de melhorar a precisão de tarefas complexas. A lógica central do CoT é "pensar sobre a estrutura antes de gerar", o que simula o processo criativo dos músicos humanos. Na saída de áudio específico Token De antemão, o modelo pré-planeja a estrutura geral da música, incluindo passagens, progressão emocional e layout coreográfico.
MusiCoT
Outra característica é a capacidade de interpretação e controle da estrutura gerada. Com a ajuda de CLAP
(modelo de pré-treinamento de áudio e linguagem contrastiva), a cadeia de pensamento na qual a IA gera música torna-se explicitamente legível. Isso permite que o usuário controle com mais precisão o resultado gerado, inserindo áudio de referência de qualquer duração como uma sugestão estilística. Em comparação com Suno
e outros modelos na exploração da estrutura musical e da capacidade de controle.Mureka
(usado em uma expressão nominal) MusiCoT
É fornecido um caminho técnico mais interpretável.
Um novo modelo para síntese de fala: Mureka TTS V1
Além da geração de música, a Kunlun também lançou um novo modelo de áudio desta vez Mureka TTS V1
com foco na síntese de fala para fins gerais.
Diferentemente dos modelos musicais que enfatizam a melodia e a harmonia, os modelos TTS (Text-to-Speech) estão mais preocupados com a representação genérica de vários tipos de sons.Mureka TTS V1
A principal inovação é a introdução de Voice Design
Recursos que permitem que o usuário defina as características do timbre desejado por meio de descrições de texto em linguagem natural, em vez de ficar limitado à seleção em uma biblioteca de tons predefinidos. Os usuários podem descrever o sexo, a idade, a emoção, o estilo de entonação e a velocidade de fala da voz, permitindo uma síntese de fala altamente personalizada.
De acordo com os dados de comparação oficiais publicados, em comparação com os principais concorrentes do setor ElevenLabs TTS V2
Em uma comparação doMureka TTS V1
Ele possui pontos fortes na qualidade da fala, na naturalidade do subjuntivo e no ritmo da pronúncia e na percepção auditiva geral, mas é ligeiramente deficiente na precisão da pronúncia. Isso sugere que oMureka TTS V1
Ele se diferencia em termos de "criatividade" e "capacidade de definição" do som e é especialmente adequado para filmes, TV, jogos, anúncios e outros cenários que exigem um alto grau de personalização das locuções.
Por exemplo, se você inserir "uma voz infantil feminina, com cerca de 12 anos de idade, com uma voz clara e agradável, cheia de entusiasmo" ou "um locutor de notícias do sexo masculino, com uma voz clara e estável, tom calmo e racional", o modelo poderá gerar clipes de áudio que correspondam à descrição, realizando todo o processo de geração de clipes de áudio, desde a descrição criativa até a saída de voz. O modelo é capaz de gerar clipes de áudio que correspondem à descrição, realizando todo o processo, desde a descrição criativa até a saída de som.
Em modelos grandes Scaling laws
Em um cenário de enfraquecimento dos benefícios marginais da IA, o foco do setor de IA está mudando gradualmente para o desembarque de aplicativos em campos verticais. Por meio de seu investimento contínuo em campos de criação de AIGC, como música e áudio, a Kunlun Wanwei tem como objetivo abrir o caminho de transformação da tecnologia subjacente para produtos de aplicativos e aproveitar a posição ecológica dos cenários de criação de conteúdo. Desde sua estreia em abril de 2024, aMureka
Os modelos atraíram um grande número de usuários por meio de iteração rápida, demonstrando a popularidade de seus produtos no mercado.