Magenta RTは柔軟なマルチモーダル入力を提供し、ユーザーはテキストキュー(例えば "light jazz")を入力するか、生成の基礎としてオーディオクリップをアップロードすることができます。さらに強力なのは、例えば「50%ジャズ+50%入力オーディオ」のように、重み付けを調整することでテキストとオーディオのキューをミックスする機能です。このハイブリッド入力により、クリエイターは音楽のスタイルとテンポを正確にコントロールすることができ、音楽制作においてより高度なコントロールと創造性を提供することができます。
モデル生成の結果は48kHzのステレオ音声で、インスピレーション・クリップとして、あるいは最初の10秒間の音声コンテクストを滑らかに表現するために(境界歪みを減らすためにクロスフェード技術を使用)使用することができます。出力は、リアルタイム再生またはWAVファイルとして保存できます。
この答えは記事から得たものである。Magenta RealTime: リアルタイムで音楽を生成するオープンソースモデルについて