
VibeVoice-1.5Bは、Microsoft Researchがリリースした最先端のオープンソースTTS(Text-to-Speech)モデルです。 特に、ポッドキャストやオーディオブックなど、表現力豊かで長文、複数文字の対話音声を生成するために設計されています。 VibeVoiceの中核となる技術革新は、7...

Kitten-TTS-Serverは、軽量なKittenTTSモデルの機能拡張サーバーを提供するオープンソースプロジェクトです。ユーザーはこのプロジェクトを使って、独自の音声合成(TTS)サービスを構築することができます。このプロジェクトの核となる利点は、オリジナルのモデルに基づき、直感的なウェブページを追加していることです。.

KittenTTSは、軽量で効率性に重点を置いたオープンソースの音声合成(TTS)モデルです。KittenMLチームによって開発されたKittenTTSは、複数の音声合成を提供します。

OpusLM_7B_Annealは、ESPnetチームによって開発され、Hugging Faceプラットフォーム上でホストされているオープンソースの音声処理モデルです。OpusLM_7B_Annealは、音声認識、テキスト読み上げ、音声翻訳、音声強調などの様々なタスクに焦点を当てており、研究者や開発者が音声処理分野で実験や応用を行うのに適しています。このモデルは...

MOSS-TTSD 是一个开源的对话语音生成模型,支持中文和英文双语。它可以将双人对话文本转化为自然、富有表现力的语音,适合用于AI播客制作、语言研究等场景。模型基于低比特率编码技术,支持零样本双人语音克隆和长达960秒的单次语音生成。MO...

FineShareはAI音声・映像技術に特化したプラットフォームで、ユーザーが高品質な音声・音楽・映像コンテンツを作成するための様々なツールを提供している。同サイトの主力製品には、音声生成・変換、AI音楽作成、バーチャルカメラ用のFineVoice、Singify、FineCamがある。

Xunfei Zhizuoは、人工知能コンテンツ作成サービスを提供するためにXunfeiによって開発されたプラットフォームです。その中核機能は、ユーザーが入力したテキストを音声に変換することであり、このプロセスはしばしば「AIダビング」または「音声合成」と呼ばれる。ユーザーは、あらかじめプログラムされたさまざまなスタイルのバーチャルボイス(すなわち「キャスター」)から、ニュースキャスターやニュース番組などの音声を選ぶことができる。.

ListenHubは、人工知能技術を利用して、ウェブページ、ドキュメント、ユーザー入力を素早くポッドキャストに変換するプラットフォームである。中国語と英語の音声合成をサポートしており、ユーザーはファイルをアップロードしたり、トピックを入力したり、リンクを貼り付けるだけで、自然でスムーズなポッドキャスト音声を生成することができる。このプラットフォームは操作が簡単で、モバイルでの使用に適しているため、ユーザーは通勤中や運動中、空き時間に受信するのに便利です...

Higgs Audio 是由 Boson AI 开发的一个开源文本转语音(TTS)项目,专注于生成高质量、情感丰富的语音和多角色对话。项目基于超过1000万小时的音频数据训练,支持零样本语音克隆、自然对话生成和多语言语音输出。Higgs A...

Parrot TTSは、ウェブテキストを自然な音声に変換するために設計されたChrome拡張機能です。高度なAI技術を駆使し、人間に近い音声体験を提供することで、従来の音声合成ツールの機械的な音声の問題を解決しています。ユーザーは、記事、ニュース、研究資料をワンクリックで音声に変換でき、マルチタスクに適しています...

AIdeaFlow Podcast 是一个基于人工智能的播客生成平台,用户可以将文本内容快速转化为高质量的播客音频。它支持多种语言和超过120种独特语音,适合学生、专业人士和内容创作者使用。用户只需输入文本或上传脚本,平台即可自动生成自然对...

CosyVoice 是一个开源的多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它支持多种语言的语音合成,提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本,显著降低了30%到...

Qwen-TTS 是由阿里巴巴云 Qwen 团队开发的一款文本转语音(TTS)工具,通过 Qwen API 提供服务。它基于超大规模语音数据集训练,语音输出自然且富有表现力,能自动调整语调、语速和情感。Qwen-TTS 支持普通话、英文,以...

Kyutai Labsのdelayed-streams-modellingプロジェクトは、DSM(Delayed Stream Modelling)技術をコアとしたオープンソースの音声テキスト変換フレームワークです。リアルタイム音声テキスト変換(STT)と音声合成(TTS)機能をサポートしており、効率的な音声対話アプリケーションの構築に適しています。このプロジェクトでは、STTおよびTTSのためのP...

AIVocalは無料のAI音声処理プラットフォームで、Text-to-Speech (TTS)、Speech-to-Text (STT)、Human Voice Separation、Podcast Generationを提供する。ユーザーは登録なしで使用でき、24の言語と900以上の自然なトーンをサポートし、ポッドキャスト、オーディオブック、ビデオダビングなどの作成に適しています。このプラットフォームのインターフェースは直感的で...

SuperMaker AIは、高品質な動画、音楽、画像、音声コンテンツを素早く作成できる無料のオンラインオーサリングプラットフォームです。ユーザーはログインすることなくコア機能を試すことができ、操作も簡単なので、個人クリエイターや小規模チームに適しています。このプラットフォームでは、人工知能技術を使用して、テキスト、画像、またはクリエイティブなアイデアをプロ級のコンテンツに変換し、出力...

Muyan-TTS 是一个专为播客场景设计的开源文本转语音(TTS)模型。它通过超过10万小时的播客音频数据预训练,支持零样本语音合成,生成高质量的自然语音。模型基于 Llama-3.2-3B 构建,结合 SoVITS 解码器,提供高效的语...

Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型,专注于音频理解、生成和对话。它支持多种音频处理任务,例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练,结合创新的混合架构,在...

Audibitは、オープンソースのプロジェクトであり、コア機能は、ハッカーニュース、TechCrunchや他の人気のある技術記事が自動的にオーディオポッドキャストになっているので、通勤、フィットネス、またはWebやモバイルを介して情報を聞くときに忙しいユーザー。このプロジェクトは、フロントエンドを開発するためにNext.jsとReactを使用しています。
トップに戻る

