CosyVoiceは、高品質のテキスト音声合成(TTS)技術に焦点を当てた、オープンソースの多言語音声生成モデルです。多言語の音声合成をサポートし、ゼロサンプル音声生成、言語横断的な音声クローニング、きめ細かなセンチメント制御などの機能を提供します。Cos- yVoice 2.0は前バージョンと比較して、大幅に...
Qwen-TTSは、Alibaba Cloud Qwenチームによって開発され、Qwen APIを通じて提供される音声合成(TTS)ツールです。Qwen-TTSは、大規模な音声データセットで訓練されており、イントネーション、発話速度、感情を自動的に調整する、自然で表現豊かな音声出力を備えています。
Kyutai Labsのdelayed-streams-modellingプロジェクトは、DSM(Delayed Stream Modelling)技術をコアとしたオープンソースの音声テキスト変換フレームワークです。リアルタイム音声テキスト変換(STT)と音声合成(TTS)機能をサポートしており、効率的な音声対話アプリケーションの構築に適しています。このプロジェクトでは、STTおよびTTSのためのP...
AIVocalは無料のAI音声処理プラットフォームで、音声合成(TTS)、音声テキスト化(STT)、人声分離、ポッドキャスト生成を提供します。ユーザーは登録なしで使用でき、24の言語と900以上の自然なトーンをサポートしており、ポッドキャスト、オーディオブック、ビデオダビングなどの作成に適しています。
SuperMaker AIは、高品質な動画、音楽、画像、音声コンテンツを素早く作成できる無料のオンラインオーサリングプラットフォームです。ユーザーはログインすることなくコア機能を試すことができ、使い方もシンプルなので、個人のクリエイターや小規模なチームに適しています。このプラットフォームでは、人工知能技術を利用して、テキスト、画像、クリエイティブ...
Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースの音声合成(TTS)モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3Bをベースに構築されており、SoVITSデコーダーと組み合わせることで、高音質の音声合成を実現します。
Kimi-Audioは、Moonshot AIによって開発されたオープンソースの音声ベースモデルで、音声の理解、生成、対話に焦点を当てています。音声認識、音声Q&A、音声感情認識など、幅広い音声処理タスクをサポートしています。このモデルは、1,300万時間を超える音声データを使って事前に訓練されており、革新的な...
Audibitは、オープンソースのプロジェクトであり、コア機能は、ハッカーニュース、TechCrunchや他の人気のある技術記事が自動的にオーディオポッドキャストになっているので、通勤、フィットネス、またはWebやモバイルを介して情報を聞くときに忙しいユーザー。このプロジェクトは、フロントエンドを開発するためにNext.jsとReactを使用しています。
Diaは、Nari Labs社によって開発されたオープンソースのテキスト音声合成(TTS)モデルであり、超リアルなダイアログ音声の生成に重点を置いている。テキストスクリプトを一度の処理でリアルな複数文字のダイアログに変換し、感情やイントネーションの制御をサポートし、笑いなどの非言語的表現まで生成します。
Orpheus-TTSは、人間の自然な音声に近い音声を生成することを目標に、Llama-3bアーキテクチャで開発されたオープンソースの音声合成(TTS)システムである。Canopy AIチームによって開発され、英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、中国語などの多言語に対応しています。
ElevenLabs MCPは、GitHubでホストされているElevenLabsの公式オープンソースプロジェクトです。Model Control Protocol (Model Context Protocol, MCP)に基づいたサーバーツールで、AIモデルとElevenLabを接続するために設計されています。
Vapiは開発者向けの音声AIプラットフォームです。Vapiは、リアルタイムの会話、テレフォニー統合、マルチプラットフォーム展開をサポートする完全なツールとインフラを提供します。
MiniMax Audioは、MiniMax社のAI音声生成ツールで、テキストを類似性の高い自然な音声に素早く変換することを主な特徴としています。Speech-02モデルをベースにしており、最大99%の音声合成類似度、スタジオ級の音質、30以上の言語と幅広い口語をサポートしています。
Text2Voiceは、シリコンベースのモビリティAPIをベースにテキスト読み上げ機能を提供するオープンソースツールで、すっきりとしたグラフィカル・ユーザー・インターフェース(GUI)が最大の特徴だ。開発者のSheldon Lee氏によってGitHub上で作成され、ユーザーが簡単にテキストを音声に変換できるインターフェースとなっている。このプロジェクトではPy...
Open-VoiceCanvasは、ItusiAIチームによって開発されたオープンソースの音声合成プラットフォームです。50以上の言語をサポートし、テキストを自然な音声に変換することができ、音声をアップロードすることでパーソナライズされた音声をクローンすることができます。このプロジェクトはOpenAI TTS、AWS Polly、MiniM...を統合している。
Paper to Podcastは、学術研究論文を生き生きとした楽しいポッドキャストに変えることに特化したオープンソースのツールです。人工知能技術を使ってPDFフォーマットの論文を3人の登場人物(ホスト、学習者、専門家)の対話に変えることで、複雑な学術コンテンツを簡単に理解できるようにする。このプロジェクトは...
MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質の中国語と英語の音声を生成することに重点を置いています。MegaTTS3のコアモデルは0.45Bのパラメータしかなく、軽量で効率的です。このプロジェクトはGitHubでホストされており、コードと...
PodcastleはAIベースのオンライン・プラットフォームで、高品質なポッドキャストの迅速な作成と編集を支援することに特化している。録音、編集、公開の機能が統合されており、ユーザーは特別な機器や複雑なソフトウェアを必要とせず、すべてブラウザから行うことができる。同プラットフォームはAI技術を活用し、ノイズ軽減...
IndexTTSはGitHubでホストされているオープンソースの音声合成(TTS)ツールで、index-tsチームによって開発されています。XTTSとTortoiseの技術をベースにしており、改良されたモジュール設計によって効率的で高品質な音声合成を実現しています。IndexTTSは数万時間に及ぶ...