
VibeVoice-1.5B:マイクロソフトの長音声マルチロール対話用音声生成モデル
VibeVoice-1.5Bは、Microsoft Researchがリリースした最先端のオープンソースTTS(Text-to-Speech)モデルです。 特に、ポッドキャストやオーディオブックなど、表現力豊かで長文、複数文字の対話音声を生成するために設計されています。 VibeVoiceの中核となる技術革新は、7...

MiniMax、Speech 2.5をリリース:音声合成技術が多言語対応と音色の再現を突破
ミニマックスは8月7日、次世代音声生成モデル「Speech 2.5」を発表した。公式データによると、前モデル「Speech 02」から多言語表現力、音色再現精度、対応言語数が向上している。 人工知能生成コンテンツ(AIGC)の分野では、テキスト...

KittenTTS: 軽量音声合成モデル
KittenTTSは、軽量で効率性に重点を置いたオープンソースの音声合成(TTS)モデルです。KittenMLチームによって開発されたKittenTTSは、複数の音声合成を提供します。

SongGeneration: 高品質の音楽と歌詞を生成するオープンソースのAIモデル
SongGenerationは、テンセントAIラボが開発しオープンソース化した音楽生成モデルで、歌詞、伴奏、ボーカルを含む高品質な楽曲の生成に特化している。LeVoフレームワークに基づいており、言語モデルLeLMと音楽コーデックを組み合わせて、英語と中国語の楽曲生成をサポートしている。このモデルは100万曲のデータセットで学習され、...

OpusLM_7B_Anneal:音声認識と合成のための効率的な統一モデル
OpusLM_7B_Annealは、ESPnetチームによって開発され、Hugging Faceプラットフォーム上でホストされているオープンソースの音声処理モデルです。OpusLM_7B_Annealは、音声認識、テキスト読み上げ、音声翻訳、音声強調などの様々なタスクに焦点を当てており、研究者や開発者が音声処理分野で実験や応用を行うのに適しています。このモデルは...

Magenta RealTime: リアルタイムで音楽を生成するオープンソースモデル
Magenta RealTime(略してMagenta RT)は、Google DeepMindによって開発されたオープンソースの音楽生成モデルで、リアルタイムの音楽生成に特化している。Lyria RealTimeのオープンソース版であり、テキストまたはオーディオキューによる高品質なミュージッククリップの生成をサポートする。このモデルは80...

MOSS-TTSD: オープンソースのバイリンガル対話用音声生成ツール
MOSS-TTSD 是一个开源的对话语音生成模型,支持中文和英文双语。它可以将双人对话文本转化为自然、富有表现力的语音,适合用于AI播客制作、语言研究等场景。模型基于低比特率编码技术,支持零样本双人语音克隆和长达960秒的单次语音生成。MO...

Higgs Audio: 高品質なスピーチと多キャラクター・ダイアログを生成するオープンソースツール
Higgs Audio 是由 Boson AI 开发的一个开源文本转语音(TTS)项目,专注于生成高质量、情感丰富的语音和多角色对话。项目基于超过1000万小时的音频数据训练,支持零样本语音克隆、自然对话生成和多语言语音输出。Higgs A...

Voxtral:ミストラルAIが開発した音声転写・理解用AIモデル
Voxtralは、フランスのAIスタートアップMistral AIが2025年7月15日にリリースした初のオープンオーディオモデルである。 Voxtralは、生産環境向けの音声理解機能をすぐに使える商用アプリケーションを、市場競争力の高い価格で提供することを目的としている。 Voxtralモデルには2つのバージョンがある。.

CosyVoice:アリ・オープンソース多言語クローン作成ツール
CosyVoice 是一个开源的多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它支持多种语言的语音合成,提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本,显著降低了30%到...

Qwen-TTS:中国語方言とバイリンガル対応の音声合成ツール
Qwen-TTS 是由阿里巴巴云 Qwen 团队开发的一款文本转语音(TTS)工具,通过 Qwen API 提供服务。它基于超大规模语音数据集训练,语音输出自然且富有表现力,能自动调整语调、语速和情感。Qwen-TTS 支持普通话、英文,以...

Kyutai:リアルタイム音声テキスト変換ツール
Kyutai Labsのdelayed-streams-modellingプロジェクトは、DSM(Delayed Stream Modelling)技術をコアとしたオープンソースの音声テキスト変換フレームワークです。リアルタイム音声テキスト変換(STT)と音声合成(TTS)機能をサポートしており、効率的な音声対話アプリケーションの構築に適しています。このプロジェクトでは、STTおよびTTSのためのP...

MiniMax Speech 02
AI技術の継続的な進化に伴い、パーソナライズされた非常に自然な音声対話は、多くのインテリジェントアプリケーションにとって重要な要件となっています。しかし、既存の音声合成(TTS)技術は、大規模なパーソナライズされたトーン、多言語対応、非常にリアルな感情表現といったニーズを満たす上で、依然として課題を抱えています。このような業界のペインポイントに対処するため、MiniMax Speech...

Muyan-TTS:パーソナライズされたポッドキャストの音声トレーニングと合成
Muyan-TTS 是一个专为播客场景设计的开源文本转语音(TTS)模型。它通过超过10万小时的播客音频数据预训练,支持零样本语音合成,生成高质量的自然语音。模型基于 Llama-3.2-3B 构建,结合 SoVITS 解码器,提供高效的语...

Kimi-Audio:オープンソースの音声処理と対話ベースモデル
Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型,专注于音频理解、生成和对话。它支持多种音频处理任务,例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练,结合创新的混合架构,在...

Orpheus-TTS:自然な中国語音声を生成する音声合成ツール
Orpheus-TTSは、Llama-3bアーキテクチャで開発されたオープンソースの音声合成(TTS)システムで、人間の自然な音声に近い音声を生成することを目標としている。Canopy AIチームによって開発され、英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、中国語などの多言語に対応している。このシステムは...

MegaTTS3:中国語音声と英語音声を合成する軽量モデル
MegaTTS3 是字节跳动与浙江大学合作开发的一款开源语音合成工具,专注于生成高质量的中英文语音。它的核心模型只有 0.45B 参数,轻量高效,支持中英文混合语音生成和语音克隆。项目托管在 GitHub 上,提供代码和预训练模型供免费下载...

IndexTTS:中英ミキシング対応音声合成ツール
IndexTTSはGitHubでホストされているオープンソースの音声合成(TTS)ツールで、index-tsチームによって開発されています。XTTSとTortoiseの技術をベースにしており、改良されたモジュール設計によって効率的で高品質な音声合成を実現しています。IndexTTSは数万時間に及ぶ...

AssemblyAI:高精度音声テキスト・音声インテリジェンス分析プラットフォーム
AssemblyAIは音声AI技術に特化したプラットフォームであり、開発者や企業に効率的な音声テキスト解析ツールと音声解析ツールを提供している。特に新しくリリースされたUniversal-2は、AssemblyAIの最も先進的なSpeech-to-Text...
トップに戻る