
CosyVoice 是一个开源的多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它支持多种语言的语音合成,提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本,显著降低了30%到...

MiniMax Audioは、MiniMax社のAI音声生成ツールで、テキストを類似性の高い自然な音声に素早く変換することを主な特徴としています。Speech-02モデルをベースにしており、最大99%の音声合成類似度、スタジオ級の音質、30以上の言語と幅広い口語をサポートしています。

MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質の中国語と英語の音声を生成することに重点を置いています。MegaTTS3のコアモデルは、わずか0.45Bのパラメータで、軽量かつ効率的で、中国語と英語の混在音声の生成と音声クローニングをサポートしています。このプロジェクトはGitHubでホストされており、コードと学習済みモデルを無料でダウンロードできます。.

Seed-VC 是一个开源项目,地址在 GitHub 上,由 Plachtaa 开发。它能用一段 1 到 30 秒的参考音频,快速实现语音或歌声转换,不需要额外训练。项目支持实时语音转换,延迟低至 400 毫秒左右,适合在线会议、游戏或直播...

CSM Voice Cloningは、Isaiah Bjorkによって開発され、GitHubでホストされているオープンソースプロジェクトです。Sesame CSM-1Bモデルに基づいており、ユーザーは音声サンプルを提供するだけで、自分の声のクローンを作成し、自分の特徴を持った声を生成することができます。このツールはこの...

PlayHTは、AI音声生成に特化した効率的なオンラインプラットフォームで、テキストを自然でリアルな音声に素早く変換することができます。600以上のAI音声を提供し、60以上の言語と多様なアクセントをサポートし、ポッドキャスト制作、教育コンテンツ、マーケティング、プロモーションなど様々なシナリオに適しています。ユーザーはテキストを入力し、適切な音声スタイルを選択するだけです。.

Spark-TTSは、SparkAudioチームによって開発され、GitHubでホストされているオープンソースの音声合成(TTS)ツールです。高度なディープラーニング技術に基づいており、複数の言語と音声スタイルをサポートしています...

Step-Audioはオープンソースのインテリジェント音声インタラクションフレームワークで、プロダクション環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語ダイアログ(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語)、調整可能なスピーチレート、リズムスタイル(例:ラップ)をサポートしています。.

Zonos 是由 Zyphra 开发的一款开源语音合成与语音克隆工具。Zonos-v0.1 版本采用了先进的 Transformer 和混合模型,能够生成高质量的语音输出。该工具支持多种语言,包括英语、日语、中文、法语和德语,并提供细致的音...

Weightsは、簡単な操作でボイスカバー、音声合成、画像、音楽、動画を作成できる、AIを活用したクリエイティビティのためのソーシャルプラットフォームです。このプラットフォームは、ユーザーがすぐに始められ、コミュニティと作品を共有できるよう、豊富なツールとテンプレートを提供しています。.

AnyVoiceは最先端のAI音声生成プラットフォームで、超リアルな音声生成と音声クローンサービスを提供します。このプラットフォームにより、ユーザーはテキストを自然な音声に変換し、数百のプリセット音声から選択することができます。もし適切な音声が見つからない場合は、たった3秒の録音でどんな音声でも無料でクローンすることができます。.

Llasa-3Bは、香港科学技術大学のオーディオラボ(HKUST Audio)によって開発されたオープンソースの音声合成(TTS)モデルです。このモデルはLlama 3.2Bアーキテクチャに基づいており、多言語をサポートするだけでなく、感情表現やパーソナライズされた音声クローンを可能にする高品質な音声生成を提供するために慎重に調整されています。.

フィッシュ・スピーチ派生プロジェクト フィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された、革命的なエンド・ツー・エンドのAI音声クローニング・システムです。完全なエンドツーエンドの音声クローニング処理システムとして、その最大の特徴は、革新的なセマンティックタグレスアーキテクチャ設計を採用しており、Whisperのような従来のセマンティックコンパイラに依存する必要がないことです。.

ViiTor AIは、高品質な動画翻訳、音声クローン、AI生成アバター動画、音声合成サービスの提供に特化した強力な人工知能プラットフォームです。ViiTor AIのビデオ翻訳機能は、自動的に字幕を生成し、インテリジェントにチューニングします。.

Voicemodは、WindowsとmacOS用の主要なリアルタイムボイスチェンジャーとサウンドエフェクトソフトウェアです。ゲームでのロールプレイ、友達とのチャット、ライブストリーミングなど、Voicemodは豊富なボイスチェンジエフェクトを提供します。AI技術により、Voicemodはあなたのリアルタイムボイスを変更することができます。.

MaskGCT (Masked Generative Codec Transformer)は、Funky Maru Technologyと香港中文大学により共同開発された完全非自律回帰型音声合成(TTS)モデルです。このモデルは明示的な音声合成情報を必要とせず、2段階の生成アプローチを採用しています。

Funmaru Thousand Voicesは、リアルで自然な音声生成ソリューションを提供する多言語AI音声合成プラットフォームです。ユーザーはテキストコンテンツを簡単にプロ級の音声に変換することができ、個人のニーズに合わせてゼロサンプルから専用のAIボイス(ボイスクローン)の作成をサポートします。また、このプラットフォームはビデオ翻訳機能も提供し、多言語コンテンツの迅速な変換を実現します。 特徴...

CosyVoice是一个多语言大规模语音生成模型,提供从推理、训练到部署的全栈能力。该项目由FunAudioLLM团队开发,旨在通过先进的自回归变换器和基于ODE的扩散模型,实现高质量的语音合成。CosyVoice不仅支持多语言语音生成,还...

海螺AI视频生成器是由MiniMax公司开发的一款先进的AI视频生成工具。用户只需提供简单的文本描述或上传图片,海螺AI即可快速生成高质量的视频内容。该工具广泛应用于创作者、市场营销人员和故事讲述者,帮助他们将创意转化为生动的视频。海螺AI...
トップに戻る

