CosyVoice:アリ・オープンソース多言語クローン作成ツール
CosyVoiceは、高品質のテキスト音声合成(TTS)技術に焦点を当てた、オープンソースの多言語音声生成モデルです。多言語の音声合成をサポートし、ゼロサンプル音声生成、言語横断的な音声クローニング、きめ細かなセンチメント制御などの機能を提供します。Cos- yVoice 2.0は前バージョンと比較して、大幅に...
Qwen-TTS:中国語方言とバイリンガル対応の音声合成ツール
Qwen-TTSは、Alibaba Cloud Qwenチームによって開発され、Qwen APIを通じて提供される音声合成(TTS)ツールです。Qwen-TTSは、大規模な音声データセットで訓練されており、イントネーション、発話速度、感情を自動的に調整する、自然で表現豊かな音声出力を備えています。
Kyutai:リアルタイム音声テキスト変換ツール
Kyutai Labsのdelayed-streams-modellingプロジェクトは、DSM(Delayed Stream Modelling)技術をコアとしたオープンソースの音声テキスト変換フレームワークです。リアルタイム音声テキスト変換(STT)と音声合成(TTS)機能をサポートしており、効率的な音声対話アプリケーションの構築に適しています。このプロジェクトでは、STTおよびTTSのためのP...
ミニマックス・スピーチ 02
AI技術の絶え間ない進化に伴い、パーソナライズされた非常に自然な音声対話は、多くの知的アプリケーションにとって重要な要件となっている。しかし、既存の音声合成(TTS)技術は、大規模なパーソナライズされたトーン、多言語対応、高度にリアルな感情表現を満たすという課題に依然として直面している。このような課題に対処するため...
白川オーディオ
Baichuan-Audioは、Baichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされています。このプロジェクトは、音声入力を離散的な音声トークンに変換し、大規模なモデルを介して音声のペアを生成することができる完全な音声処理フレームワークを提供します。
ステップ・オーディオ
Step-Audioはオープンソースのインテリジェント音声インタラクションフレームワークで、プロダクション環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語ダイアログ(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語)、調整可能なスピーチレート...