
CosyVoiceはオープンソースの多言語音声生成モデルであり、高品質なテキスト音声合成(TTS)技術に焦点を当てている。Cos- yVoice 2.0は前バージョンと比較して、30%から30%への大幅な削減を実現しました。.

MiniMax Audioは、MiniMax社のAI音声生成ツールで、テキストを類似性の高い自然な音声に素早く変換することを主な特徴としています。Speech-02モデルをベースにしており、最大99%の音声合成類似度、スタジオ級の音質、30以上の言語と幅広い口語をサポートしています。

MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質の中国語と英語の音声を生成することに重点を置いています。MegaTTS3のコアモデルは、わずか0.45Bのパラメータで、軽量かつ効率的で、中国語と英語の混在音声の生成と音声クローニングをサポートしています。このプロジェクトはGitHubでホストされており、コードと学習済みモデルを無料でダウンロードできます。.

Seed-VCはPlachtaaによって開発されたGitHub上のオープンソースプロジェクトです。それは、1〜30秒の基準音声を使用することができます、高速なスピーチや歌の変換、追加のトレーニングはありません。このプロジェクトは、リアルタイムの音声変換、400ミリ秒程度の低遅延をサポートしており、オンライン会議、ゲームやライブに適しています...

CSM Voice Cloningは、Isaiah Bjorkによって開発され、GitHubでホストされているオープンソースプロジェクトです。Sesame CSM-1Bモデルに基づいており、ユーザーは音声サンプルを提供するだけで、自分の声のクローンを作成し、自分の特徴を持った声を生成することができます。このツールはこの...

PlayHTは、AI音声生成に特化した効率的なオンラインプラットフォームで、テキストを自然でリアルな音声に素早く変換することができます。600以上のAI音声を提供し、60以上の言語と多様なアクセントをサポートし、ポッドキャスト制作、教育コンテンツ、マーケティング、プロモーションなど様々なシナリオに適しています。ユーザーはテキストを入力し、適切な音声スタイルを選択するだけです。.

Spark-TTSは、SparkAudioチームによって開発され、GitHubでホストされているオープンソースの音声合成(TTS)ツールです。高度なディープラーニング技術に基づいており、複数の言語と音声スタイルをサポートしています...

Step-Audioはオープンソースのインテリジェント音声インタラクションフレームワークで、プロダクション環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語ダイアログ(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語)、調整可能なスピーチレート、リズムスタイル(例:ラップ)をサポートしています。.

Zonosは、Zyphra社によって開発されたオープンソースの音声合成および音声クローンツールです。Zonos-v0.1バージョンは、高品質の音声出力を生成するために、高度なトランスフォーマーとブレンドモデルを採用しています。このツールは、英語、日本語、中国語、フランス語、ドイツ語を含む多言語をサポートし、詳細なサウンド...

Weightsは、簡単な操作でボイスカバー、音声合成、画像、音楽、動画を作成できる、AIを活用したクリエイティビティのためのソーシャルプラットフォームです。このプラットフォームは、ユーザーがすぐに始められ、コミュニティと作品を共有できるよう、豊富なツールとテンプレートを提供しています。.

AnyVoiceは最先端のAI音声生成プラットフォームで、超リアルな音声生成と音声クローンサービスを提供します。このプラットフォームにより、ユーザーはテキストを自然な音声に変換し、数百のプリセット音声から選択することができます。もし適切な音声が見つからない場合は、たった3秒の録音でどんな音声でも無料でクローンすることができます。.

Llasa-3Bは、香港科学技術大学のオーディオラボ(HKUST Audio)によって開発されたオープンソースの音声合成(TTS)モデルです。このモデルはLlama 3.2Bアーキテクチャに基づいており、多言語をサポートするだけでなく、感情表現やパーソナライズされた音声クローンを可能にする高品質な音声生成を提供するために慎重に調整されています。.

フィッシュ・スピーチ派生プロジェクト フィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された、革命的なエンド・ツー・エンドのAI音声クローニング・システムです。完全なエンドツーエンドの音声クローニング処理システムとして、その最大の特徴は、革新的なセマンティックタグレスアーキテクチャ設計を採用しており、Whisperのような従来のセマンティックコンパイラに依存する必要がないことです。.

ViiTor AIは、高品質な動画翻訳、音声クローン、AI生成アバター動画、音声合成サービスの提供に特化した強力な人工知能プラットフォームです。ViiTor AIのビデオ翻訳機能は、自動的に字幕を生成し、インテリジェントにチューニングします。.

Voicemodは、WindowsとmacOS用の主要なリアルタイムボイスチェンジャーとサウンドエフェクトソフトウェアです。ゲームでのロールプレイ、友達とのチャット、ライブストリーミングなど、Voicemodは豊富なボイスチェンジエフェクトを提供します。AI技術により、Voicemodはあなたのリアルタイムボイスを変更することができます。.

MaskGCT (Masked Generative Codec Transformer)は、Funky Maru Technologyと香港中文大学により共同開発された完全非自律回帰型音声合成(TTS)モデルです。このモデルは明示的な音声合成情報を必要とせず、2段階の生成アプローチを採用しています。

Funmaru Thousand Voicesは、リアルで自然な音声生成ソリューションを提供する多言語AI音声合成プラットフォームです。ユーザーはテキストコンテンツを簡単にプロ級の音声に変換することができ、個人のニーズに合わせてゼロサンプルから専用のAIボイス(ボイスクローン)の作成をサポートします。また、このプラットフォームはビデオ翻訳機能も提供し、多言語コンテンツの迅速な変換を実現します。 特徴...

CosyVoiceは多言語大規模音声生成モデルであり、推論、トレーニングからデプロイまでフルスタックの機能を提供します。FunAudioLLMチームによって開発されたCosyVoiceは、高度な自己回帰変換器とODEベースの拡散モデルによって、高品質な音声合成の実現を目指している。.

Conch AI Video GeneratorはMiniMaxによって開発された先進的なAIビデオ生成ツールです。ユーザーは簡単なテキストを入力するか、画像をアップロードするだけで、コンクAIは高品質のビデオコンテンツを素早く生成することができます。このツールは、クリエイター、マーケティング担当者、ストーリーテラーに広く利用されており、アイデアを生き生きとした動画に仕上げるのに役立っています。コンクAI...
トップに戻る

