Magenta RealTime(略してMagenta RT)は、Google DeepMindによって開発されたオープンソースの音楽生成モデルで、リアルタイムの音楽生成に特化している。Lyria RealTimeのオープンソース版であり、テキストやオーディオキューによる高品質なミュージッククリップの生成をサポートする。このモデルは800MパラメータのTransformerアーキテクチャに基づいており、学習データには約19万時間のインストゥルメンタル・ストックミュージックが含まれている。Magenta RTは、Apache 2.0およびCC-BY 4.0ライセンスの下でリリースされており、コードとモデルの重みは、ミュージシャンや開発者が革新的なアプリケーションを探求することを奨励するために公開されている。Magenta RTは、Apache 2 and CC-BY 4.0ライセンスで公開されており、コードとモデルの重みは公開されている。
機能一覧
- リアルタイム音楽生成テキスト・キュー(例えば "light jazz")やオーディオ・クリップに基づいて2秒間のミュージック・クリップを生成する。
- マルチモーダル入力音楽のスタイルやテンポを柔軟にコントロールできるよう、テキストとオーディオの混在したキューをサポート。
- クロススタイルの融合エレクトロニック・ミュージックとクラシック音楽のように、異なる音楽スタイルをリアルタイムでミックスすることができる。
- オープンソースとローカル展開モデルコードと重みを提供し、Colab TPUまたはネイティブGPU/TPUでの実行をサポートします。
- 低レイテンシ・ジェネレーション2秒間の音楽生成に約1.25秒かかるため、ライブ演奏に適している。
- クロスプラットフォーム対応ブラウザやDAWプラグイン、ゲームエンジンに組み込んで、音楽制作のシーンを広げることができます。
ヘルプの使用
設置プロセス
Magenta RealTimeは様々な技術的背景を持つユーザーのために幅広いランタイムをサポートしています。詳しいインストール方法と使用方法は下記の通りです。
1.グーグルコラボを通す(初心者にお勧め)
Google Colabは、ローカルに設定されたハードウェアなしでMagenta RTを実行する最も簡単な方法です。手順は以下の通りです:
- Colabの公式デモをご覧ください:
https://colab.research.google.com/github/magenta/magenta-realtime/blob/main/notebooks/Magenta_RT_Demo.ipynb
. - Googleアカウントにログインし、"Run "ボタンをクリックすると、Colabが自動的に空きTPUリソースを割り当てます。
- ノートブックの指示に従い、テキスト(例:"gentle piano")を入力するか、オーディオクリップをアップロードし、Runをクリックすると音楽が生成されます。
- 出力は48kHzステレオ・オーディオで、ダウンロードやリアルタイム再生が可能だ。
2.ローカルインストール(開発者向け)
ローカルでMagenta RTを実行するには、GPUまたはTPUハードウェアが必要です。以下はインストール手順です:
- コードベースのクローン:
git clone https://github.com/magenta/magenta-realtime.git cd magenta-realtime
- インストールコマンドはハードウェアに基づいて選択される:
- GPUサポート:
pip install 'git+https://github.com/magenta/magenta-realtime#egg=magenta_rt[gpu]'
- TPUサポート:
pip install 'git+https://github.com/magenta/magenta-realtime#egg=magenta_rt[tpu]'
- CPU(テストのみ):
pip install 'git+https://github.com/magenta/magenta-realtime'
- GPUサポート:
- インストールが完了したら、サンプル・スクリプトを実行してください:
python -m magenta_rt.demo
- Pythonのバージョンが3.5以上であることを確認し、依存関係の管理を簡素化するためにAnaconda環境を推奨する。
3.コア機能の運用
マゼンタRTの中心はリアルタイム音楽生成で、次のように動作する:
- テキスト・チップ生成::
- Colabまたはローカルスクリプトで、"アップビート・ドラム "や "クラシカル・ストリングス "などの説明テキストを入力します。
- このモデルは、入力に基づいて2秒間のオーディオクリップを生成し、最初の10秒間のオーディオコンテキストに基づいてアーティキュレーションを滑らかにする(境界の歪みを減らすためにクロスフェード技術を使用)。
- 例:Colabで走る:
from magenta_rt import generate audio = generate(text_prompt="soft piano melody", duration=2.0)
- 出力されたオーディオはリアルタイムで再生したり、WAVファイルとして保存することができます。
- オーディオ・キュー生成::
- 短いオーディオ(例えば10秒間のギタークリップ)をアップロードすると、モデルはそのスタイルを継続し、新しいクリップを生成します。
- サンプルコード:
audio = generate(audio_prompt="input.wav", duration=2.0)
- 例えば "50%ジャズ+50%入力オーディオ "のように、ウェイトを調整することで、テキストとオーディオキューをミックスすることができる。
- スタイルの融合::
- 60%エレクトロニック+40%クラシック」のように複数のキューを入力し、スタイルのミックスを生成する。
- Colabインターフェースの "temperature "パラメーター(0.0-1.0)を調整し、生成される音楽のランダム性をコントロールする。
- リアルタイム制御::
- APIまたはDAWプラグインを介してライブパフォーマンス中に動的にキューを変更すると、モデルは2秒以内に新しいスタイルに反応します。
- 例:Lyria RealTime API(要アプリケーション)を使ってAbleton Liveに統合し、音楽のテンポをリアルタイムで調整する。
4.高度な使用
- DAWとの統合: Magenta RTはDDSP-VSTなどのVSTプラグインを介してAbleton LiveやFL Studioなどで使用することができます。DDSP-VSTをインストールした後、MIDIトラックにドラッグ&ドロップし、プロンプトを入力すると音楽が生成されます。
- ゲームエンジンの統合Magenta RTをUnityやUnreal Engineに組み込むことで、ゲームイベントに基づいてサウンドスケープを動的に生成することができます。例えば、プレイヤーが戦闘シーンに入ると、"tense strings"(緊張の糸)というキューを入力します。
- モデリングの微調整Magenta RTはファインチューニングをサポートしており、開発者はカスタムデータセット(例えば特定の音楽スタイル)を使ってモデルを最適化することができます。技術的な詳細は次回のレポートで説明します。
5.注意事項
- 先延ばしにする2秒の音声を生成するのに約1.25秒かかり、キューの変更には2秒の遅れが生じます。
- コンテキストリミットこのモデルは音声の最初の10秒しか参照しないため、長期的な音楽テーマを生成することはできません。
- ハードウェア要件ローカルでの動作には、少なくとも16GBのRAMとNVIDIA GPU(GTX 1080など)を推奨します。
アプリケーションシナリオ
- 音楽ライブ
- DJやミュージシャンは、テキストや音声を合図にその場でリアルタイムに音楽を生成し、素早くスタイルを切り替えてパフォーマンスのインタラクティブ性を高めることができる。
- ゲームのサウンドスケープデザイン
- 開発者はMagenta RTをゲームに組み込むことができ、落ち着いたシーンでは "柔らかいピアノ"、戦闘シーンでは "激しいドラム "といったように、プレイヤーの行動に基づいてダイナミックなサウンドトラックを生成することができます。
- アートインスタレーション
- アーティストたちはこの模型を使って、展覧会のためのインタラクティブなサウンドスケープを作ることができる。観客は、キュー(例えば「ドリーム・エレクトロニクス」)を入力することで環境音楽を変えることができる。
- 作曲支援
- ミュージシャンはColabを使うことで、曲作りのためのインスピレーションの断片を素早く生成したり、創造性のボトルネックを解消したりすることができる。
品質保証
- Magenta RTは歌詞の生成に対応していますか?
- サポートされていません。このモデルは主に器楽音楽を生成し、非言語的なハミングを生成することができるが、明確な歌詞を生成することはできない。不適切な内容を避けるために、より広範なスタイルをサポートする Lyria RealTime API を使用することが推奨されます。
- Magenta RTをローカルで動かすには?
- GitHubリポジトリをクローンし、対応するハードウェア依存関係(GPU/TPU/CPU)をインストールし、サンプルスクリプトを実行する。ハードウェア要件を減らすためにColabを推奨します。
- 音楽制作に著作権の問題はありますか?
- 生成された音楽の完全な著作権はユーザーにあり、Googleはいかなる権利も主張しません。ただし、他人の著作権を侵害しないこと、Apache 2.0およびCC-BY 4.0のライセンスを遵守することが必要です。
- このモデルはどのような音楽スタイルに対応していますか?
- 主に西洋の楽器スタイル(例えばジャズ、エレクトロニック、クラシック)をサポートし、世界の音楽伝統と歌詞のサポートは限定的である。より広い範囲をカバーするために、Lyria RealTime APIを推奨する。