Magenta RealTime (kurz Magenta RT) ist ein von Google DeepMind entwickeltes Open-Source-Musikgenerierungsmodell, das sich auf die Erstellung von Musik in Echtzeit konzentriert. Es ist eine Open-Source-Version von Lyria RealTime, die die Erzeugung hochwertiger Musikclips über Text- oder Audiohinweise unterstützt. Das Modell basiert auf der 800M-Parameter-Transformer-Architektur, und die Trainingsdaten enthalten etwa 190.000 Stunden instrumentale Stock-Musik. Magenta RT wird unter den Lizenzen Apache 2.0 und CC-BY 4.0 veröffentlicht, wobei Code und Modellgewichte öffentlich zugänglich sind, um Musiker und Entwickler zu ermutigen, innovative Anwendungen zu erforschen. Das Hauptziel von Magenta RT ist es, die menschliche Musikproduktion durch dynamische, interaktive Musikerlebnisse zu ergänzen, die sich für Live-Performances und die Schaffung von Klanglandschaften eignen.
Funktionsliste
- Musikerzeugung in EchtzeitErzeugt 2-Sekunden-Musikclips auf der Grundlage von Texthinweisen (z. B. "Light Jazz") oder Audioclips und ist sehr reaktionsschnell.
- Multimodale EingängeUnterstützt gemischte Text- und Audiohinweise für eine flexible Steuerung von Musikstil und -tempo.
- Stilübergreifende VerschmelzungVerschiedene Musikstile können in Echtzeit gemischt werden, z. B. elektronische Musik mit klassischer Musik.
- Open Source und lokale BereitstellungBietet Modellcode und Gewichte und unterstützt die Ausführung auf Colab TPUs oder nativen GPU/TPUs.
- Erzeugung niedriger LatenzzeitenJede 2-Sekunden-Musikerzeugung dauert etwa 1,25 Sekunden und ist somit für Live-Auftritte geeignet.
- Plattformübergreifende UnterstützungKann in Browser, DAW-Plug-ins oder Spiele-Engines integriert werden, um die Musikszene zu erweitern.
Hilfe verwenden
Einbauverfahren
Magenta RealTime unterstützt eine breite Palette von Laufzeiten für Benutzer mit unterschiedlichem technischen Hintergrund. Detaillierte Anweisungen zur Installation und Verwendung finden Sie weiter unten.
1. durch Google Colab laufen (für Anfänger empfohlen)
Google Colab ist der einfachste Weg, Magenta RT ohne lokal konfigurierte Hardware zu betreiben. Die Schritte sind wie folgt:
- Besuchen Sie die offizielle Colab-Demo:
https://colab.research.google.com/github/magenta/magenta-realtime/blob/main/notebooks/Magenta_RT_Demo.ipynb
. - Melden Sie sich bei Ihrem Google-Konto an, klicken Sie auf die Schaltfläche "Ausführen", und Colab wird automatisch freie TPU-Ressourcen zuweisen.
- Folgen Sie den Anweisungen im Notizbuch, geben Sie einen Text ein (z. B. "sanftes Klavier") oder laden Sie einen Audioclip hoch und klicken Sie auf Ausführen, um die Musik zu erzeugen.
- Die Ausgabe erfolgt in 48-kHz-Stereoton, der heruntergeladen oder in Echtzeit wiedergegeben werden kann.
2. lokale Installation (für Entwickler)
Um Magenta RT lokal auszuführen, wird GPU- oder TPU-Hardware benötigt. Nachfolgend finden Sie die Installationsschritte:
- Klonen der Codebasis:
git clone https://github.com/magenta/magenta-realtime.git cd magenta-realtime
- Die Installationsbefehle werden auf der Grundlage der Hardware ausgewählt:
- GPU-Unterstützung:
pip install 'git+https://github.com/magenta/magenta-realtime#egg=magenta_rt[gpu]'
- TPU-Unterstützung:
pip install 'git+https://github.com/magenta/magenta-realtime#egg=magenta_rt[tpu]'
- CPU (nur Test):
pip install 'git+https://github.com/magenta/magenta-realtime'
- GPU-Unterstützung:
- Sobald die Installation abgeschlossen ist, führen Sie das Beispielskript aus:
python -m magenta_rt.demo
- Stellen Sie sicher, dass die Python-Version 3.5 oder höher ist. Die Anaconda-Umgebung wird empfohlen, um die Verwaltung von Abhängigkeiten zu vereinfachen.
3. der Betrieb der Kernfunktionen
Das Herzstück von Magenta RT ist die Musikerzeugung in Echtzeit, die wie folgt funktioniert:
- Erzeugung von Texttipps::
- Geben Sie einen beschreibenden Text wie "upbeat drums" oder "classical strings" in Colab oder einem lokalen Skript ein.
- Das Modell generiert 2-Sekunden-Audioclips auf der Grundlage der Eingabe und glättet die Artikulation auf der Grundlage der ersten 10 Sekunden des Audiokontextes (unter Verwendung von Überblendtechniken zur Verringerung von Grenzverzerrungen).
- Beispiel: Lauf in Colab:
from magenta_rt import generate audio = generate(text_prompt="soft piano melody", duration=2.0)
- Der ausgegebene Ton kann in Echtzeit wiedergegeben oder als WAV-Datei gespeichert werden.
- Audio-Cue-Erzeugung::
- Laden Sie ein kurzes Stück Audio hoch (z. B. einen 10-sekündigen Gitarrenclip), und das Modell setzt seinen Stil fort, um einen neuen Clip zu erzeugen.
- Beispiel-Code:
audio = generate(audio_prompt="input.wav", duration=2.0)
- Text- und Audiohinweise können durch Anpassung der Gewichtung gemischt werden, z. B. "50% Jazz + 50% Input Audio".
- Stilistische Verschmelzung::
- Geben Sie mehrere Stichwörter ein, z. B. "60% elektronisch + 40% klassisch", um einen Stilmix zu erzeugen.
- Stellen Sie den Parameter "Temperatur" (0,0-1,0) in der Colab-Schnittstelle ein, um die Zufälligkeit der erzeugten Musik zu steuern.
- Echtzeit-Steuerung::
- Ändern Sie die Cues während einer Live-Performance dynamisch über die API oder das DAW-Plugin, und das Modell wird innerhalb von 2 Sekunden auf den neuen Stil reagieren.
- Beispiel: Integration in Ableton Live über die Lyria RealTime API (Anwendung erforderlich), um das Tempo der Musik in Echtzeit anzupassen.
4. erweiterte Nutzung
- Integration mit DAWMagenta RT kann mit Ableton Live, FL Studio usw. über VST-Plug-ins wie DDSP-VST verwendet werden. Nach der Installation von DDSP-VST, ziehen Sie es auf eine MIDI-Spur und geben Sie die Eingabeaufforderungen ein, um Musik zu erzeugen.
- Integration der Spiel-EngineMagenta RT kann in die Unity- oder Unreal-Engine eingebettet werden, um auf der Grundlage von Spielereignissen dynamisch Soundscapes zu erzeugen. Wenn der Spieler zum Beispiel eine Kampfszene betritt, geben Sie einen "Tense Strings"-Cue ein.
- Feinabstimmung der ModelleMagenta RT unterstützt die Feinabstimmung, die es Entwicklern ermöglicht, Modelle anhand von benutzerdefinierten Datensätzen (z. B. bestimmte Musikstile) zu optimieren. Die technischen Details werden in einem kommenden Bericht beschrieben.
5. vorsichtsmaßnahmen
- prokrastinierenEs dauert etwa 1,25 Sekunden, um 2 Sekunden Ton zu erzeugen, und es kann eine 2-sekündige Verzögerung für Cue-Wechsel geben.
- KontextgrenzeDas Modell bezieht sich nur auf die ersten 10 Sekunden des Tons und ist nicht in der Lage, langfristige musikalische Themen zu generieren.
- Hardware-VoraussetzungMindestens 16 GB RAM und eine NVIDIA GPU (z. B. GTX 1080) werden für den lokalen Betrieb empfohlen.
Anwendungsszenario
- Live-Musik-Performance
- DJs oder Musiker können Musik in Echtzeit über Text- oder Audiohinweise erzeugen und schnell zwischen verschiedenen Stilen wechseln, um die Interaktivität der Performance zu erhöhen.
- Spiel-Soundscape-Design
- Entwickler können Magenta RT in ihre Spiele integrieren und dynamische Soundtracks auf der Grundlage des Spielerverhaltens erzeugen, z. B. "sanftes Klavier" für ruhige Szenen und "intensives Schlagzeug" für Kampfszenen.
- Kunstinstallation
- Die Künstler können die Modelle nutzen, um interaktive Klanglandschaften für die Ausstellung zu schaffen, bei denen das Publikum die Hintergrundmusik durch Eingabe eines Stichworts (z. B. "dream electronics") verändern kann.
- Musik-Kompositionshilfe
- Musiker können Colab nutzen, um schnell Inspirationsschnipsel für das Songwriting zu sammeln oder kreative Engpässe zu überwinden.
QA
- Unterstützt Magenta RT die Erstellung von Liedtexten?
- Nicht unterstützt. Das Modell generiert hauptsächlich Instrumentalmusik, die nonverbales Summen erzeugen kann, aber keine klaren Texte erzeugen kann. Um unangemessene Inhalte zu vermeiden, wird empfohlen, die Lyria RealTime API für eine breitere Stilunterstützung zu verwenden.
- Wie lässt sich Magenta RT lokal ausführen?
- Klonen Sie das GitHub-Repository, installieren Sie die entsprechenden Hardware-Abhängigkeiten (GPU/TPU/CPU), und führen Sie das Beispielskript aus. Colab wird empfohlen, um die Hardwareanforderungen zu reduzieren.
- Gibt es urheberrechtliche Probleme bei der Erstellung von Musik?
- Der Nutzer besitzt das volle Urheberrecht an der erzeugten Musik und Google beansprucht keine Rechte. Es muss jedoch sichergestellt werden, dass Sie die Urheberrechte anderer nicht verletzen und die Apache 2.0- und CC-BY 4.0-Lizenzen einhalten.
- Welche Musikrichtungen werden von dem Modell unterstützt?
- Unterstützt hauptsächlich westliche Instrumentalstile (z.B. Jazz, Elektronik, Klassik) mit begrenzter Unterstützung für globale Musiktraditionen und Lyrik. Empfehlen Sie Lyria RealTime API für eine breitere Abdeckung.