VibeVoice-1.5B:マイクロソフトの長音声マルチロール対話用音声生成モデル
VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音(Text-to-Speech, TTS)模型。 它专门用于生成富有表现力的、长篇幅的、多角色对话音频,例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...
MiniMax、Speech 2.5をリリース:音声合成技術が多言語対応と音色の再現を突破
ミニマックスは8月7日、次世代音声生成モデル「Speech 2.5」を発表した。公式情報によると、前モデル「Speech 02」から多言語表現力、音色再現精度、対応言語数などが向上しているという。 人工知能生成コンテンツ(AIGC)の分野では...
KittenTTS: 軽量音声合成モデル
KittenTTSは、軽量で効率性に重点を置いたオープンソースの音声合成(TTS)モデルです。KittenMLチームによって開発されたKittenTTSは、複数の音声合成を提供します。
SongGeneration: 高品質の音楽と歌詞を生成するオープンソースのAIモデル
SongGenerationはTencent AI Labによって開発され、オープンソース化された音楽生成モデルで、歌詞、伴奏、ボーカルを含む高品質な楽曲の生成に焦点を当てている。LeVoフレームワークをベースに、言語モデルLeLMと音楽コーデックを組み合わせ、英語と中国語の楽曲生成をサポートしている。このモデルは、数百万曲のデータセットに基づいている。
OpusLM_7B_Anneal:音声認識と合成のための効率的な統一モデル
OpusLM_7B_Annealは、ESPnetチームによって開発され、Hugging Faceプラットフォーム上でホストされているオープンソースの音声処理モデルです。OpusLM_7B_Annealは、ESPnetチームによって開発されたオープンソースの音声処理モデルで、Hugging Faceプラットフォームでホストされています。音声認識、テキスト読み上げ、音声翻訳、音声強調など、さまざまなタスクに焦点を当てており、研究者や開発者が音声処理の分野で実験や応用を行うのに適しています。モデル......
Magenta RealTime: リアルタイムで音楽を生成するオープンソースモデル
Magenta RealTime(略してMagenta RT)は、Google DeepMindによって開発されたオープンソースの音楽生成モデルで、リアルタイムの音楽生成に特化している。Lyria RealTimeのオープンソース版であり、テキストまたはオーディオキューによる高品質なミュージッククリップの生成をサポートする。このモデルは80...
MOSS-TTSD: オープンソースのバイリンガル対話用音声生成ツール
MOSS-TTSDは中国語と英語のバイリンガルをサポートするオープンソースの対話音声生成モデルです。二人の対話テキストを自然で表現豊かな音声に変換することができ、AIポッドキャスト制作、言語研究、その他のシナリオに適しています。このモデルは低ビットレート符号化技術に基づいており、ゼロサンプルの二人用音声クローニングと...
Higgs Audio: 高品質なスピーチと多キャラクター・ダイアログを生成するオープンソースツール
Higgs Audioは、Boson AIによって開発されたオープンソースの音声合成(TTS)プロジェクトで、高品質で感情豊かな音声と複数文字のダイアログを生成することに重点を置いている。このプロジェクトは1,000万時間を超える音声データトレーニングに基づいており、ゼロサンプルの音声クローニング、自然なダイアログ生成、多言語音声出力をサポートしています。
Voxtral:ミストラルAIが開発した音声転写・理解用AIモデル
Voxtralは、フランスのAIスタートアップMistral AIが2025年7月15日にリリースした初のオープンオーディオモデルである。 Voxtralは、生産環境用の音声理解機能をすぐに使える商用アプリケーションを、市場競争力の高い価格で提供することを目的としている。 Voxtralモデルには、以下の2つのバージョンがある。
CosyVoice:アリ・オープンソース多言語クローン作成ツール
CosyVoiceは、高品質のテキスト音声合成(TTS)技術に焦点を当てた、オープンソースの多言語音声生成モデルです。多言語の音声合成をサポートし、ゼロサンプル音声生成、言語横断的な音声クローニング、きめ細かなセンチメント制御などの機能を提供します。Cos- yVoice 2.0は前バージョンと比較して、大幅に...
Qwen-TTS:中国語方言とバイリンガル対応の音声合成ツール
Qwen-TTSは、Alibaba Cloud Qwenチームによって開発され、Qwen APIを通じて提供される音声合成(TTS)ツールです。Qwen-TTSは、大規模な音声データセットで訓練されており、イントネーション、発話速度、感情を自動的に調整する、自然で表現豊かな音声出力を備えています。
Kyutai:リアルタイム音声テキスト変換ツール
Kyutai Labsのdelayed-streams-modellingプロジェクトは、DSM(Delayed Stream Modelling)技術をコアとしたオープンソースの音声テキスト変換フレームワークです。リアルタイム音声テキスト変換(STT)と音声合成(TTS)機能をサポートしており、効率的な音声対話アプリケーションの構築に適しています。このプロジェクトでは、STTおよびTTSのためのP...
ミニマックス・スピーチ 02
AI技術の絶え間ない進化に伴い、パーソナライズされた非常に自然な音声対話は、多くの知的アプリケーションにとって重要な要件となっている。しかし、既存の音声合成(TTS)技術は、大規模なパーソナライズされたトーン、多言語対応、高度にリアルな感情表現を満たすという課題に依然として直面している。このような課題に対処するため...
Muyan-TTS:パーソナライズされたポッドキャストの音声トレーニングと合成
Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースの音声合成(TTS)モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3Bをベースに構築されており、SoVITSデコーダーと組み合わせることで、高音質の音声合成を実現します。
Kimi-Audio:オープンソースの音声処理と対話ベースモデル
Kimi-Audioは、Moonshot AIによって開発されたオープンソースの音声ベースモデルで、音声の理解、生成、対話に焦点を当てています。音声認識、音声Q&A、音声感情認識など、幅広い音声処理タスクをサポートしています。このモデルは、1,300万時間を超える音声データを使って事前に訓練されており、革新的な...
Orpheus-TTS:自然な中国語音声を生成する音声合成ツール
Orpheus-TTSは、人間の自然な音声に近い音声を生成することを目標に、Llama-3bアーキテクチャで開発されたオープンソースの音声合成(TTS)システムである。Canopy AIチームによって開発され、英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、中国語などの多言語に対応しています。
MegaTTS3:中国語音声と英語音声を合成する軽量モデル
MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質の中国語と英語の音声を生成することに重点を置いています。MegaTTS3のコアモデルは0.45Bのパラメータしかなく、軽量で効率的です。このプロジェクトはGitHubでホストされており、コードと...
IndexTTS:中英ミキシング対応音声合成ツール
IndexTTSはGitHubでホストされているオープンソースの音声合成(TTS)ツールで、index-tsチームによって開発されています。XTTSとTortoiseの技術をベースにしており、改良されたモジュール設計によって効率的で高品質な音声合成を実現しています。IndexTTSは数万時間に及ぶ...
AssemblyAI:高精度音声テキスト・音声インテリジェンス分析プラットフォーム
AssemblyAIは音声AI技術に特化したプラットフォームであり、開発者や企業に効率的な音声テキスト解析ツールと音声解析ツールを提供している。特に新しくリリースされたUniversal-2は、AssemblyAIの最も先進的なSpeech-to-Text...
トップに戻る