O Magenta RT oferece entrada multimodal flexível, permitindo que os usuários insiram dicas de texto (por exemplo, "light jazz") ou carreguem clipes de áudio como base para a geração. Ainda mais avançada é a capacidade de misturar dicas de texto e áudio ajustando a ponderação, por exemplo, "50% jazz + 50% áudio de entrada". Essa entrada híbrida permite que os criadores controlem com precisão o estilo e o andamento da música, proporcionando um maior grau de controle e criatividade na criação musical.
O resultado da geração do modelo é um áudio estéreo de 48kHz, que pode ser usado como um clipe de inspiração ou para articular suavemente os primeiros 10 segundos do contexto de áudio (usando técnicas de cross-fade para reduzir a distorção dos limites). A saída permite a reprodução em tempo real ou o salvamento como um arquivo WAV.
Essa resposta foi extraída do artigoMagenta RealTime: um modelo de código aberto para gerar música em tempo realO