
VibeVoice-1.5Bは、Microsoft Researchがリリースした最先端のオープンソースTTS(Text-to-Speech)モデルです。 特に、ポッドキャストやオーディオブックなど、表現力豊かで長文、複数文字の対話音声を生成するために設計されています。 VibeVoiceの中核となる技術革新は、7...

Kitten-TTS-Serverは、軽量なKittenTTSモデルの機能拡張サーバーを提供するオープンソースプロジェクトです。ユーザーはこのプロジェクトを使って、独自の音声合成(TTS)サービスを構築することができます。このプロジェクトの核となる利点は、オリジナルのモデルに基づき、直感的なウェブページを追加していることです。.

KittenTTSは、軽量で効率性に重点を置いたオープンソースの音声合成(TTS)モデルです。KittenMLチームによって開発されたKittenTTSは、複数の音声合成を提供します。

OpusLM_7B_Annealは、ESPnetチームによって開発され、Hugging Faceプラットフォーム上でホストされているオープンソースの音声処理モデルです。OpusLM_7B_Annealは、音声認識、テキスト読み上げ、音声翻訳、音声強調などの様々なタスクに焦点を当てており、研究者や開発者が音声処理分野で実験や応用を行うのに適しています。このモデルは...

MOSS-TTSDは中国語と英語のバイリンガルをサポートするオープンソースの対話音声生成モデルです。二人の対話テキストを自然で表現豊かな音声に変換することができ、AIポッドキャスト制作、言語研究、その他のシナリオに適しています。このモデルは低ビットレートコーディング技術に基づいており、ゼロサンプルの二人用音声クローニングと最大960秒までの単一音声生成をサポートしています。.

FineShareはAI音声・映像技術に特化したプラットフォームで、ユーザーが高品質な音声・音楽・映像コンテンツを作成するための様々なツールを提供している。同サイトの主力製品には、音声生成・変換、AI音楽作成、バーチャルカメラ用のFineVoice、Singify、FineCamがある。

Xunfei Zhizuoは、人工知能コンテンツ作成サービスを提供するためにXunfeiによって開発されたプラットフォームです。その中核機能は、ユーザーが入力したテキストを音声に変換することであり、このプロセスはしばしば「AIダビング」または「音声合成」と呼ばれる。ユーザーは、あらかじめプログラムされたさまざまなスタイルのバーチャルボイス(すなわち「キャスター」)から、ニュースキャスターやニュース番組などの音声を選ぶことができる。.

ListenHubは、人工知能技術を利用して、ウェブページ、ドキュメント、ユーザー入力を素早くポッドキャストに変換するプラットフォームである。中国語と英語の音声合成をサポートしており、ユーザーはファイルをアップロードしたり、トピックを入力したり、リンクを貼り付けるだけで、自然でスムーズなポッドキャスト音声を生成することができる。このプラットフォームは操作が簡単で、モバイルでの使用に適しているため、ユーザーは通勤中や運動中、空き時間に受信するのに便利です...

Higgs Audioは、Boson AIによって開発されたオープンソースの音声合成(TTS)プロジェクトで、高品質で感情豊かな音声と複数文字の対話の生成に焦点を当てています。このプロジェクトは、1000万時間を超える音声データトレーニングに基づいており、ゼロサンプル音声クローン、自然なダイアログ生成、多言語音声出力をサポートしています。.

Parrot TTSは、ウェブテキストを自然な音声に変換するために設計されたChrome拡張機能です。高度なAI技術を駆使し、人間に近い音声体験を提供することで、従来の音声合成ツールの機械的な音声の問題を解決しています。ユーザーは、記事、ニュース、研究資料をワンクリックで音声に変換でき、マルチタスクに適しています...

AIdeaFlow PodcastはAIベースのポッドキャスト生成プラットフォームで、テキストコンテンツを高品質なポッドキャスト音声に素早く変換することができます。学生、専門家、コンテンツ制作者のために、多言語、120以上のユニークな音声をサポートしています。ユーザーはテキストを入力するかスクリプトをアップロードするだけで、プラットフォームが自動的に自然なペアの音声を生成します。.

CosyVoiceはオープンソースの多言語音声生成モデルであり、高品質なテキスト音声合成(TTS)技術に焦点を当てている。Cos- yVoice 2.0は前バージョンと比較して、30%から30%への大幅な削減を実現しました。.

Qwen-TTSは、Alibaba Cloud Qwenチームによって開発され、Qwen APIを通じて提供される音声合成(TTS)ツールです。Qwen-TTSは、大規模な音声データセットで訓練され、イントネーション、発話速度、感情を自動的に調整する自然で表現豊かな音声出力を備えています。.

Kyutai Labsのdelayed-streams-modellingプロジェクトは、DSM(Delayed Stream Modelling)技術をコアとしたオープンソースの音声テキスト変換フレームワークです。リアルタイム音声テキスト変換(STT)と音声合成(TTS)機能をサポートしており、効率的な音声対話アプリケーションの構築に適しています。このプロジェクトでは、STTおよびTTSのためのP...

AIVocalは無料のAI音声処理プラットフォームで、Text-to-Speech (TTS)、Speech-to-Text (STT)、Human Voice Separation、Podcast Generationを提供する。ユーザーは登録なしで使用でき、24の言語と900以上の自然なトーンをサポートし、ポッドキャスト、オーディオブック、ビデオダビングなどの作成に適しています。このプラットフォームのインターフェースは直感的で...

SuperMaker AIは、高品質な動画、音楽、画像、音声コンテンツを素早く作成できる無料のオンラインオーサリングプラットフォームです。ユーザーはログインすることなくコア機能を試すことができ、操作も簡単なので、個人クリエイターや小規模チームに適しています。このプラットフォームでは、人工知能技術を使用して、テキスト、画像、またはクリエイティブなアイデアをプロ級のコンテンツに変換し、出力...

Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースの音声合成(TTS)モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3Bをベースに構築されており、SoVITSデコーダーと組み合わせることで、効率的な音声合成を実現します。.

Kimi-Audioは、Moonshot AIによって開発されたオープンソースの音声ベースモデルで、音声の理解、生成、対話に焦点を当てています。音声認識、音声Q&A、音声感情認識など、幅広い音声処理タスクをサポートします。このモデルは、1,300万時間を超える音声データを使って事前に訓練されており、革新的なハイブリッド・アーキテクチャと組み合わされています。.

Audibitは、オープンソースのプロジェクトであり、コア機能は、ハッカーニュース、TechCrunchや他の人気のある技術記事が自動的にオーディオポッドキャストになっているので、通勤、フィットネス、またはWebやモバイルを介して情報を聞くときに忙しいユーザー。このプロジェクトは、フロントエンドを開発するためにNext.jsとReactを使用しています。
トップに戻る

