Voxtral:ミストラルAIが開発した音声転写・理解用AIモデル
Voxtralは、フランスのAIスタートアップMistral AIが2025年7月15日にリリースした初のオープンオーディオモデルである。 Voxtralは、生産環境用の音声理解機能をすぐに使える商用アプリケーションを、市場競争力の高い価格で提供することを目的としている。 Voxtralモデルには、以下の2つのバージョンがある。
CosyVoice:アリ・オープンソース多言語クローン作成ツール
CosyVoiceは、高品質のテキスト音声合成(TTS)技術に焦点を当てた、オープンソースの多言語音声生成モデルです。多言語の音声合成をサポートし、ゼロサンプル音声生成、言語横断的な音声クローニング、きめ細かなセンチメント制御などの機能を提供します。Cos- yVoice 2.0は前バージョンと比較して、大幅に...
Qwen-TTS:中国語方言とバイリンガル対応の音声合成ツール
Qwen-TTSは、Alibaba Cloud Qwenチームによって開発され、Qwen APIを通じて提供される音声合成(TTS)ツールです。Qwen-TTSは、大規模な音声データセットで訓練されており、イントネーション、発話速度、感情を自動的に調整する、自然で表現豊かな音声出力を備えています。
Kyutai:リアルタイム音声テキスト変換ツール
Kyutai Labsのdelayed-streams-modellingプロジェクトは、DSM(Delayed Stream Modelling)技術をコアとしたオープンソースの音声テキスト変換フレームワークです。リアルタイム音声テキスト変換(STT)と音声合成(TTS)機能をサポートしており、効率的な音声対話アプリケーションの構築に適しています。このプロジェクトでは、STTおよびTTSのためのP...
ミニマックス・スピーチ 02
AI技術の絶え間ない進化に伴い、パーソナライズされた非常に自然な音声対話は、多くの知的アプリケーションにとって重要な要件となっている。しかし、既存の音声合成(TTS)技術は、大規模なパーソナライズされたトーン、多言語対応、高度にリアルな感情表現を満たすという課題に依然として直面している。このような課題に対処するため...
AssemblyAI:高精度音声テキスト・音声インテリジェンス分析プラットフォーム
AssemblyAIは音声AI技術に特化したプラットフォームであり、開発者や企業に効率的な音声テキスト解析ツールと音声解析ツールを提供している。特に新しくリリースされたUniversal-2は、AssemblyAIの最も先進的なSpeech-to-Text...
白川オーディオ
Baichuan-Audioは、Baichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされています。このプロジェクトは、音声入力を離散的な音声トークンに変換し、大規模なモデルを介して音声のペアを生成することができる完全な音声処理フレームワークを提供します。
ステップ・オーディオ
Step-Audioはオープンソースのインテリジェント音声インタラクションフレームワークで、プロダクション環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語ダイアログ(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語)、調整可能なスピーチレート...
Parler-TTS: 入力テキストから話者固有の音声合成モデルを生成する
Parler-TTSは、Hugging Faceによって開発されたオープンソースの音声合成(TTS)モデルライブラリで、高品質で自然な音声を生成するように設計されています。このモデルは、入力テキストに基づいて、特定の話者スタイル(性別、ピッチ、話し方など)の音声を生成することができます。