AI技術の絶え間ない進化に伴い、AI音楽生成の質と人気は急速に高まっている。音の忠実度やヴォーカルの自然さという点で、初期のAI音楽の明らかな欠点は、モデルの急速な反復によって改善されつつある。
2025年7月23日、クインテッセンスは次世代音楽メガモデルを正式に発表した。 Mureka V7
.公式情報によると、このモデルは、平均パフォーマンススコア、ミックスクオリティ、ヴォーカルのリアルさ、総合的な音質など、多くの重要な指標において、海外の類似製品を上回っているとのことです。 Suno
な V4.5
バージョン前作同様 V6
と比べるとMureka V7
メロディ・モチーフの豊かさやアレンジのクオリティが大幅に向上し、ボーカルや楽器のリアリズムも強化された。
Mureka V7
は現在、公式サイトで完全に稼動しており、ユーザーが体験できるようになっている。
機能性の実践:音色の模倣からスタイルの参照まで
Mureka V7
その中核機能のひとつが「カスタム・シンガー」だ。この機能では、ユーザーが音声をアップロードしたり、動画へのリンクを提供したりすることで、AIモデルが学習して特定の音色を模倣し、まったく新しい歌を歌うことができる。
シンガーのフェイ・ウォンの音色を例にとると、彼女のボーカル・ラインは独特のエアリーなサウンドとエアリーなボーカル・プロセッシングのテクニックを持っている。を使用している。 Mureka V7
その音色を模倣し、清平橋で再解釈した結果、オリジナルの歌手の声質がほぼ再現され、特にテールエンドの扱いにおいて、同様の無気力感が体現された。
さらに、「ミュージック・リファレンス」も便利な機能だ。このモデルは、ユーザーがアップロードした音楽を分析し、そのスタイル、テンポ、オーケストレーション、ムードを特定し、似たスタイルのオリジナル楽曲を生成する。例えば、最近ソーシャルメディアでヒットした「The Plane I Just Bought Got Hit」は、インドの歌「Tunak Tunak Tun」をアレンジしたもので、リファレンスとして使われている。Mureka V7
似たようなメロディーとリズムのトラックを生成し、様式化されたビジュアル・ミュージック・ビデオと自動的に組み合わせることができる。
一般的な機能として、このモデルはテキスト記述からさまざまなスタイルの音楽を直接生成することをサポートしている。李白の詩 "Will Enter the Wine "を入力し、"Rap Metal "のスタイルを指定すると、詩とロックの要素を組み合わせた曲を生成することができる。BGMの作成では、簡単なプロンプト(「子供の頃の温かいピアノのメロディーを思い出す」など)で著作権フリーの純音楽クリップを生成したり、参照音声(「サマー」や「ゲーム・オブ・スローンズ」のテーマ曲など)をアップロードして、同様のスタイルの音楽を作成することができる。
満足のいく結果が得られない場合Mureka V7
ローカル変更、曲の拡張、楽器の分割、オーディオのトリミングをサポートする基本的なオーディオ編集ツールを提供し、10ヶ国語の音楽作成に対応しています。
テクノロジー・コア:進化するMusiCoTの思考チェーン
Mureka V7
パフォーマンスの向上は、独自に開発した音楽世代に特化した思考回路によるものである。 MusiCoT
(アナライザブル・チェーン・オブ・ミュージカル・ソート・プロンプティング)により、継続的な最適化が可能。
大規模言語モデリングの分野において、Chain-of-Thought(CoT)は、複雑なタスクの精度を向上させるために、質問に答える前にステップバイステップの推論プロセスを通してモデルを導くキューイング手法である。CoTのコアロジックは、「生成する前に構造を考える」ことであり、これは人間の音楽家の創造的プロセスをシミュレートしている。特定のオーディオ トークン 事前に、パッセージ、感情的な進行、振付のレイアウトなど、音楽の全体的な構成を模範が事前に計画する。
MusiCoT
もう一つの特徴は、生成された構造の解釈可能性と制御可能性である。以下の CLAP
(対照言語音声事前学習モデル)により、AIが音楽を生成する思考の連鎖が明示的に読み取れるようになります。これによりユーザーは、任意の長さの参照音声を文体の手がかりとして入力することで、生成結果をより正確に制御できるようになる。と比較して Suno
などのモデルを用いて、音楽の構造と可制御性を探求している。Mureka
な MusiCoT
より解釈しやすいテクニカルパスが提供される。
音声合成の新しいモデル:Mureka TTS V1
崑崙は今回、音楽生成だけでなく、新しいオーディオモデルも発表した。 Mureka TTS V1
汎用の音声合成に焦点を当てている。
メロディーやハーモニーを重視する音楽モデルとは異なり、TTS(Text-to-Speech)モデルは、さまざまなタイプの音の一般的な表現に重点を置いている。Mureka TTS V1
主なイノベーションは Voice Design
プリセットされた音色のライブラリから選択することに制限されるのではなく、自然言語のテキスト記述によって、ユーザーが希望する音色の特徴を定義できる機能。ユーザーは、性別、年齢、感情、イントネーションのスタイル、音声の速度を記述することができ、高度にパーソナライズされた音声合成を可能にします。
公式発表された比較データによると、業界の主要な競争相手との比較では ElevenLabs TTS V2
を比較した。Mureka TTS V1
発話の質、接続詞や発話のリズムの自然さ、全体的な聴感に強みを持つが、発音の正確さにはやや欠ける。このことからMureka TTS V1
サウンドの "創造性 "と "定義可能性 "という点で差別化されており、特に映画、テレビ、ゲーム、広告など、ナレーションに高度なカスタマイズを必要とする場面に適している。
例えば、「12歳くらいの女性の子供の声で、明瞭で心地よい声で、熱意にあふれている」とか、「男性のニュースキャスターで、明瞭で安定した声で、冷静で理性的な口調である」と入力すると、モデルは記述にマッチした音声クリップを生成することができ、クリエイティブな記述から音声出力までの全プロセスを実現します。このモデルは、説明文にマッチした音声クリップを生成することができ、クリエイティブな説明文から音声出力までの全プロセスを実現する。
大型モデルの場合 Scaling laws
AIの限界利益の弱まりを背景に、AI産業の焦点は徐々に垂直分野への応用の着地へと移行している。崑崙万威は、音楽やオーディオなどのAIGC創造分野への継続的な投資を通じて、基礎技術から応用製品への変革の道を切り開き、コンテンツ創造現場の生態学的地位をつかむことを目指している。2024年4月のデビュー以来Mureka
モデルは迅速な反復によって多くのユーザーを惹きつけ、市場での製品の人気を実証している。