VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音(Text-to-Speech, TTS)模型。 它专门用于生成富有表现力的、长篇幅的、多角色对话音频,例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...
Kitten-TTS-Serverは、軽量なKittenTTSモデルの機能拡張サーバーを提供するオープンソースプロジェクトです。ユーザーはこのプロジェクトを使って独自の音声合成(TTS)サービスを構築することができます。このプロジェクトの核となる利点は、オリジナルのモデルをベースにしていることです。
KittenTTSは、軽量で効率性に重点を置いたオープンソースの音声合成(TTS)モデルです。KittenMLチームによって開発されたKittenTTSは、複数の音声合成を提供します。
OpusLM_7B_Annealは、ESPnetチームによって開発され、Hugging Faceプラットフォーム上でホストされているオープンソースの音声処理モデルです。OpusLM_7B_Annealは、ESPnetチームによって開発されたオープンソースの音声処理モデルで、Hugging Faceプラットフォームでホストされています。音声認識、テキスト読み上げ、音声翻訳、音声強調など、さまざまなタスクに焦点を当てており、研究者や開発者が音声処理の分野で実験や応用を行うのに適しています。モデル......
MOSS-TTSDは中国語と英語のバイリンガルをサポートするオープンソースの対話音声生成モデルです。二人の対話テキストを自然で表現豊かな音声に変換することができ、AIポッドキャスト制作、言語研究、その他のシナリオに適しています。このモデルは低ビットレート符号化技術に基づいており、ゼロサンプルの二人用音声クローニングと...
FineShareはAI音声・映像技術に特化したプラットフォームで、ユーザーが高品質な音声・音楽・映像コンテンツを作成するための様々なツールを提供している。同サイトの主力製品には、音声生成・変換、AI音楽作成、バーチャルカメラ用のFineVoice、Singify、FineCamがある。
Xunfei Zhizuoは、人工知能コンテンツ作成サービスを提供するためにXunfeiによって開発されたプラットフォームです。その中核機能は、ユーザーが入力したテキストを音声に変換することであり、このプロセスはしばしば「AIダビング」または「音声合成」と呼ばれる。ユーザーはプリセットされた様々なバーチャルボイス(すなわち「アンカー」)から選択することができる...
ListenHubは、人工知能技術を利用して、ウェブページ、ドキュメント、ユーザー入力を素早くポッドキャストに変換するプラットフォームである。中国語と英語の音声合成をサポートしており、ユーザーはファイルをアップロードしたり、トピックを入力したり、リンクを貼り付けるだけで、自然でスムーズなポッドキャスト音声を生成することができる。このプラットフォームは操作が簡単で、モバイルでの使用に適しています...
Higgs Audioは、Boson AIによって開発されたオープンソースの音声合成(TTS)プロジェクトで、高品質で感情豊かな音声と複数文字のダイアログを生成することに重点を置いている。このプロジェクトは1,000万時間を超える音声データトレーニングに基づいており、ゼロサンプルの音声クローニング、自然なダイアログ生成、多言語音声出力をサポートしています。
Parrot TTSは、ウェブテキストを自然な音声に変換するために設計されたChrome拡張機能です。高度なAI技術を駆使して人間に近い音声体験を提供し、従来の音声合成ツールの機械的な音声の問題を解決します。ユーザーは、記事やニュース、研究資料をワンクリックで変換することができます...
AIdeaFlow PodcastはAIベースのポッドキャスト生成プラットフォームで、テキストコンテンツを高品質なポッドキャスト音声に素早く変換することができます。学生、専門家、コンテンツクリエイター向けに、多言語、120以上のユニークな音声をサポートしています。ユーザーはテキストを入力するか、スクリプトをアップロードするだけです。
CosyVoiceは、高品質のテキスト音声合成(TTS)技術に焦点を当てた、オープンソースの多言語音声生成モデルです。多言語の音声合成をサポートし、ゼロサンプル音声生成、言語横断的な音声クローニング、きめ細かなセンチメント制御などの機能を提供します。Cos- yVoice 2.0は前バージョンと比較して、大幅に...
Qwen-TTSは、Alibaba Cloud Qwenチームによって開発され、Qwen APIを通じて提供される音声合成(TTS)ツールです。Qwen-TTSは、大規模な音声データセットで訓練されており、イントネーション、発話速度、感情を自動的に調整する、自然で表現豊かな音声出力を備えています。
Kyutai Labsのdelayed-streams-modellingプロジェクトは、DSM(Delayed Stream Modelling)技術をコアとしたオープンソースの音声テキスト変換フレームワークです。リアルタイム音声テキスト変換(STT)と音声合成(TTS)機能をサポートしており、効率的な音声対話アプリケーションの構築に適しています。このプロジェクトでは、STTおよびTTSのためのP...
AIVocalは無料のAI音声処理プラットフォームで、音声合成(TTS)、音声テキスト化(STT)、人声分離、ポッドキャスト生成を提供します。ユーザーは登録なしで使用でき、24の言語と900以上の自然なトーンをサポートしており、ポッドキャスト、オーディオブック、ビデオダビングなどの作成に適しています。
SuperMaker AIは、高品質な動画、音楽、画像、音声コンテンツを素早く作成できる無料のオンラインオーサリングプラットフォームです。ユーザーはログインすることなくコア機能を試すことができ、使い方もシンプルなので、個人のクリエイターや小規模なチームに適しています。このプラットフォームでは、人工知能技術を利用して、テキスト、画像、クリエイティブ...
Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースの音声合成(TTS)モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3Bをベースに構築されており、SoVITSデコーダーと組み合わせることで、高音質の音声合成を実現します。
Kimi-Audioは、Moonshot AIによって開発されたオープンソースの音声ベースモデルで、音声の理解、生成、対話に焦点を当てています。音声認識、音声Q&A、音声感情認識など、幅広い音声処理タスクをサポートしています。このモデルは、1,300万時間を超える音声データを使って事前に訓練されており、革新的な...
Audibitは、オープンソースのプロジェクトであり、コア機能は、ハッカーニュース、TechCrunchや他の人気のある技術記事が自動的にオーディオポッドキャストになっているので、通勤、フィットネス、またはWebやモバイルを介して情報を聞くときに忙しいユーザー。このプロジェクトは、フロントエンドを開発するためにNext.jsとReactを使用しています。
トップに戻る