
VibeVoice-1.5B:マイクロソフトの長音声マルチロール対話用音声生成モデル
VibeVoice-1.5Bは、Microsoft Researchがリリースした最先端のオープンソースTTS(Text-to-Speech)モデルです。 特に、ポッドキャストやオーディオブックなど、表現力豊かで長文、複数文字の対話音声を生成するために設計されています。 VibeVoiceの中核となる技術革新は、7...

MiniMax、Speech 2.5をリリース:音声合成技術が多言語対応と音色の再現を突破
ミニマックスは8月7日、次世代音声生成モデル「Speech 2.5」を発表した。公式データによると、前モデル「Speech 02」から多言語表現力、音色再現精度、対応言語数が向上している。 人工知能生成コンテンツ(AIGC)の分野では、テキスト...

KittenTTS: 軽量音声合成モデル
KittenTTSは、軽量で効率性に重点を置いたオープンソースの音声合成(TTS)モデルです。KittenMLチームによって開発されたKittenTTSは、複数の音声合成を提供します。

SongGeneration: 高品質の音楽と歌詞を生成するオープンソースのAIモデル
SongGenerationは、テンセントAIラボが開発しオープンソース化した音楽生成モデルで、歌詞、伴奏、ボーカルを含む高品質な楽曲の生成に特化している。LeVoフレームワークに基づいており、言語モデルLeLMと音楽コーデックを組み合わせて、英語と中国語の楽曲生成をサポートしている。このモデルは100万曲のデータセットで学習され、...

OpusLM_7B_Anneal:音声認識と合成のための効率的な統一モデル
OpusLM_7B_Annealは、ESPnetチームによって開発され、Hugging Faceプラットフォーム上でホストされているオープンソースの音声処理モデルです。OpusLM_7B_Annealは、音声認識、テキスト読み上げ、音声翻訳、音声強調などの様々なタスクに焦点を当てており、研究者や開発者が音声処理分野で実験や応用を行うのに適しています。このモデルは...

Magenta RealTime: リアルタイムで音楽を生成するオープンソースモデル
Magenta RealTime(略してMagenta RT)は、Google DeepMindによって開発されたオープンソースの音楽生成モデルで、リアルタイムの音楽生成に特化している。Lyria RealTimeのオープンソース版であり、テキストまたはオーディオキューによる高品質なミュージッククリップの生成をサポートする。このモデルは80...

MOSS-TTSD: オープンソースのバイリンガル対話用音声生成ツール
MOSS-TTSDは中国語と英語のバイリンガルをサポートするオープンソースの対話音声生成モデルです。二人の対話テキストを自然で表現豊かな音声に変換することができ、AIポッドキャスト制作、言語研究、その他のシナリオに適しています。このモデルは低ビットレートコーディング技術に基づいており、ゼロサンプルの二人用音声クローニングと最大960秒までの単一音声生成をサポートしています。.

Higgs Audio: 高品質なスピーチと多キャラクター・ダイアログを生成するオープンソースツール
Higgs Audioは、Boson AIによって開発されたオープンソースの音声合成(TTS)プロジェクトで、高品質で感情豊かな音声と複数文字の対話の生成に焦点を当てています。このプロジェクトは、1000万時間を超える音声データトレーニングに基づいており、ゼロサンプル音声クローン、自然なダイアログ生成、多言語音声出力をサポートしています。.

Voxtral:ミストラルAIが開発した音声転写・理解用AIモデル
Voxtralは、フランスのAIスタートアップMistral AIが2025年7月15日にリリースした初のオープンオーディオモデルである。 Voxtralは、生産環境向けの音声理解機能をすぐに使える商用アプリケーションを、市場競争力の高い価格で提供することを目的としている。 Voxtralモデルには2つのバージョンがある。.

CosyVoice:アリ・オープンソース多言語クローン作成ツール
CosyVoiceはオープンソースの多言語音声生成モデルであり、高品質なテキスト音声合成(TTS)技術に焦点を当てている。Cos- yVoice 2.0は前バージョンと比較して、30%から30%への大幅な削減を実現しました。.

Qwen-TTS:中国語方言とバイリンガル対応の音声合成ツール
Qwen-TTSは、Alibaba Cloud Qwenチームによって開発され、Qwen APIを通じて提供される音声合成(TTS)ツールです。Qwen-TTSは、大規模な音声データセットで訓練され、イントネーション、発話速度、感情を自動的に調整する自然で表現豊かな音声出力を備えています。.

Kyutai:リアルタイム音声テキスト変換ツール
Kyutai Labsのdelayed-streams-modellingプロジェクトは、DSM(Delayed Stream Modelling)技術をコアとしたオープンソースの音声テキスト変換フレームワークです。リアルタイム音声テキスト変換(STT)と音声合成(TTS)機能をサポートしており、効率的な音声対話アプリケーションの構築に適しています。このプロジェクトでは、STTおよびTTSのためのP...

MiniMax Speech 02
AI技術の継続的な進化に伴い、パーソナライズされた非常に自然な音声対話は、多くのインテリジェントアプリケーションにとって重要な要件となっています。しかし、既存の音声合成(TTS)技術は、大規模なパーソナライズされたトーン、多言語対応、非常にリアルな感情表現といったニーズを満たす上で、依然として課題を抱えています。このような業界のペインポイントに対処するため、MiniMax Speech...

Muyan-TTS:パーソナライズされたポッドキャストの音声トレーニングと合成
Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースの音声合成(TTS)モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3Bをベースに構築されており、SoVITSデコーダーと組み合わせることで、効率的な音声合成を実現します。.

Kimi-Audio:オープンソースの音声処理と対話ベースモデル
Kimi-Audioは、Moonshot AIによって開発されたオープンソースの音声ベースモデルで、音声の理解、生成、対話に焦点を当てています。音声認識、音声Q&A、音声感情認識など、幅広い音声処理タスクをサポートします。このモデルは、1,300万時間を超える音声データを使って事前に訓練されており、革新的なハイブリッド・アーキテクチャと組み合わされています。.

Orpheus-TTS:自然な中国語音声を生成する音声合成ツール
Orpheus-TTSは、Llama-3bアーキテクチャで開発されたオープンソースの音声合成(TTS)システムで、人間の自然な音声に近い音声を生成することを目標としている。Canopy AIチームによって開発され、英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、中国語などの多言語に対応している。このシステムは...

MegaTTS3:中国語音声と英語音声を合成する軽量モデル
MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質の中国語と英語の音声を生成することに重点を置いています。MegaTTS3のコアモデルは、わずか0.45Bのパラメータで、軽量かつ効率的で、中国語と英語の混在音声の生成と音声クローニングをサポートしています。このプロジェクトはGitHubでホストされており、コードと学習済みモデルを無料でダウンロードできます。.

IndexTTS:中英ミキシング対応音声合成ツール
IndexTTSはGitHubでホストされているオープンソースの音声合成(TTS)ツールで、index-tsチームによって開発されています。XTTSとTortoiseの技術をベースにしており、改良されたモジュール設計によって効率的で高品質な音声合成を実現しています。IndexTTSは数万時間に及ぶ...

AssemblyAI:高精度音声テキスト・音声インテリジェンス分析プラットフォーム
AssemblyAIは音声AI技術に特化したプラットフォームであり、開発者や企業に効率的な音声テキスト解析ツールと音声解析ツールを提供している。特に新しくリリースされたUniversal-2は、AssemblyAIの最も先進的なSpeech-to-Text...
トップに戻る