海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

AI音声合成

 ウェブサイトを投稿する

VibeVoice-1.5B:マイクロソフトの長音声マルチロール対話用音声生成モデル
VibeVoice-1.5Bは、Microsoft Researchがリリースした最先端のオープンソースTTS（Text-to-Speech）モデルです。特に、ポッドキャストやオーディオブックなど、表現力豊かで長文、複数文字の対話音声を生成するために設計されています。 VibeVoiceの中核となる技術革新は、7...
08-27 6.3 K3表彰される
Kitten-TTS-Server: セルフデプロイ可能な軽量音声合成サービス
Kitten-TTS-Serverは、軽量なKittenTTSモデルの機能拡張サーバーを提供するオープンソースプロジェクトです。ユーザーはこのプロジェクトを使って、独自の音声合成（TTS）サービスを構築することができます。このプロジェクトの核となる利点は、オリジナルのモデルに基づき、直感的なウェブページを追加していることです。.
08-09 5.8 K0表彰される
KittenTTS: 軽量音声合成モデル
KittenTTSは、軽量で効率性に重点を置いたオープンソースの音声合成（TTS）モデルです。KittenMLチームによって開発されたKittenTTSは、複数の音声合成を提供します。
08-06 4.9 K0表彰される
OpusLM_7B_Anneal：音声認識と合成のための効率的な統一モデル
OpusLM_7B_Annealは、ESPnetチームによって開発され、Hugging Faceプラットフォーム上でホストされているオープンソースの音声処理モデルです。OpusLM_7B_Annealは、音声認識、テキスト読み上げ、音声翻訳、音声強調などの様々なタスクに焦点を当てており、研究者や開発者が音声処理分野で実験や応用を行うのに適しています。このモデルは...
08-01 2.9 K0表彰される
MOSS-TTSD: オープンソースのバイリンガル対話用音声生成ツール
MOSS-TTSDは中国語と英語のバイリンガルをサポートするオープンソースの対話音声生成モデルです。二人の対話テキストを自然で表現豊かな音声に変換することができ、AIポッドキャスト制作、言語研究、その他のシナリオに適しています。このモデルは低ビットレートコーディング技術に基づいており、ゼロサンプルの二人用音声クローニングと最大960秒までの単一音声生成をサポートしています。.
07-31 4.0 K0表彰される
FineShare：AIの音声と音楽を生成するオーサリングツール
FineShareはAI音声・映像技術に特化したプラットフォームで、ユーザーが高品質な音声・音楽・映像コンテンツを作成するための様々なツールを提供している。同サイトの主力製品には、音声生成・変換、AI音楽作成、バーチャルカメラ用のFineVoice、Singify、FineCamがある。
07-29 3.7 K0表彰される
サイバースマート：テキストを音声に変換し、デジタルヒューマンビデオに変換する
Xunfei Zhizuoは、人工知能コンテンツ作成サービスを提供するためにXunfeiによって開発されたプラットフォームです。その中核機能は、ユーザーが入力したテキストを音声に変換することであり、このプロセスはしばしば「AIダビング」または「音声合成」と呼ばれる。ユーザーは、あらかじめプログラムされたさまざまなスタイルのバーチャルボイス（すなわち「キャスター」）から、ニュースキャスターやニュース番組などの音声を選ぶことができる。.
07-27 3.7 K0表彰される
ListenHub：ウェブページやドキュメントをAIポッドキャストに素早く変換するツール
ListenHubは、人工知能技術を利用して、ウェブページ、ドキュメント、ユーザー入力を素早くポッドキャストに変換するプラットフォームである。中国語と英語の音声合成をサポートしており、ユーザーはファイルをアップロードしたり、トピックを入力したり、リンクを貼り付けるだけで、自然でスムーズなポッドキャスト音声を生成することができる。このプラットフォームは操作が簡単で、モバイルでの使用に適しているため、ユーザーは通勤中や運動中、空き時間に受信するのに便利です...
07-27 4.6 K0表彰される
Higgs Audio: 高品質なスピーチと多キャラクター・ダイアログを生成するオープンソースツール
Higgs Audioは、Boson AIによって開発されたオープンソースの音声合成（TTS）プロジェクトで、高品質で感情豊かな音声と複数文字の対話の生成に焦点を当てています。このプロジェクトは、1000万時間を超える音声データトレーニングに基づいており、ゼロサンプル音声クローン、自然なダイアログ生成、多言語音声出力をサポートしています。.
07-25 5.8 K0表彰される
パロットTTS：ウェブテキストを自然な音声に変換する読み上げツール
Parrot TTSは、ウェブテキストを自然な音声に変換するために設計されたChrome拡張機能です。高度なAI技術を駆使し、人間に近い音声体験を提供することで、従来の音声合成ツールの機械的な音声の問題を解決しています。ユーザーは、記事、ニュース、研究資料をワンクリックで音声に変換でき、マルチタスクに適しています...
07-24 3.2 K0表彰される
AIdeaFlow Podcast: テキストをプロフェッショナルなポッドキャスト音声に素早く変換するツール
AIdeaFlow PodcastはAIベースのポッドキャスト生成プラットフォームで、テキストコンテンツを高品質なポッドキャスト音声に素早く変換することができます。学生、専門家、コンテンツ制作者のために、多言語、120以上のユニークな音声をサポートしています。ユーザーはテキストを入力するかスクリプトをアップロードするだけで、プラットフォームが自動的に自然なペアの音声を生成します。.
07-20 2.8 K0表彰される
CosyVoice：アリ・オープンソース多言語クローン作成ツール
CosyVoiceはオープンソースの多言語音声生成モデルであり、高品質なテキスト音声合成(TTS)技術に焦点を当てている。Cos- yVoice 2.0は前バージョンと比較して、30%から30%への大幅な削減を実現しました。.
07-09 5.1 K0表彰される
Qwen-TTS：中国語方言とバイリンガル対応の音声合成ツール
Qwen-TTSは、Alibaba Cloud Qwenチームによって開発され、Qwen APIを通じて提供される音声合成（TTS）ツールです。Qwen-TTSは、大規模な音声データセットで訓練され、イントネーション、発話速度、感情を自動的に調整する自然で表現豊かな音声出力を備えています。.
07-05 5.8 K0表彰される
Kyutai：リアルタイム音声テキスト変換ツール
Kyutai Labsのdelayed-streams-modellingプロジェクトは、DSM（Delayed Stream Modelling）技術をコアとしたオープンソースの音声テキスト変換フレームワークです。リアルタイム音声テキスト変換(STT)と音声合成(TTS)機能をサポートしており、効率的な音声対話アプリケーションの構築に適しています。このプロジェクトでは、STTおよびTTSのためのP...
07-05 5.4 K1表彰される
AIVocal：ポッドキャスト作成と音声処理のための無料AIツール
AIVocalは無料のAI音声処理プラットフォームで、Text-to-Speech (TTS)、Speech-to-Text (STT)、Human Voice Separation、Podcast Generationを提供する。ユーザーは登録なしで使用でき、24の言語と900以上の自然なトーンをサポートし、ポッドキャスト、オーディオブック、ビデオダビングなどの作成に適しています。このプラットフォームのインターフェースは直感的で...
06-27 4.1 K0表彰される
SuperMaker AI：ビデオ、音楽、画像を生成する無料のオーサリングツール
SuperMaker AIは、高品質な動画、音楽、画像、音声コンテンツを素早く作成できる無料のオンラインオーサリングプラットフォームです。ユーザーはログインすることなくコア機能を試すことができ、操作も簡単なので、個人クリエイターや小規模チームに適しています。このプラットフォームでは、人工知能技術を使用して、テキスト、画像、またはクリエイティブなアイデアをプロ級のコンテンツに変換し、出力...
06-11 4.7 K0表彰される
Muyan-TTS：パーソナライズされたポッドキャストの音声トレーニングと合成
Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースの音声合成（TTS）モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3Bをベースに構築されており、SoVITSデコーダーと組み合わせることで、効率的な音声合成を実現します。.
05-06 4.6 K0表彰される
Kimi-Audio：オープンソースの音声処理と対話ベースモデル
Kimi-Audioは、Moonshot AIによって開発されたオープンソースの音声ベースモデルで、音声の理解、生成、対話に焦点を当てています。音声認識、音声Q&A、音声感情認識など、幅広い音声処理タスクをサポートします。このモデルは、1,300万時間を超える音声データを使って事前に訓練されており、革新的なハイブリッド・アーキテクチャと組み合わされています。.
05-05 6.5 K0表彰される
Audibit：人気の技術記事をすぐに聴ける音声ポッドキャストにする
Audibitは、オープンソースのプロジェクトであり、コア機能は、ハッカーニュース、TechCrunchや他の人気のある技術記事が自動的にオーディオポッドキャストになっているので、通勤、フィットネス、またはWebやモバイルを介して情報を聞くときに忙しいユーザー。このプロジェクトは、フロントエンドを開発するためにNext.jsとReactを使用しています。
05-05 3.5 K0表彰される