CSM Voice Cloningは、開発者Isaiah Bjork氏によるSesame CSM-1Bモデルをベースとしたオープンソースのボイスクローニングツールで、GitHubでホストされています。その主な機能は、ユーザーが提供したオーディオサンプルから類似した特性を持つクローンボイスを素早く生成することであり、主にコンテンツクリエイターや開発者などを対象としています。
コア機能のリスト:
- ボイスクローニングMP3/WAV フォーマットのサンプルをアップロードして、類似のサウンドを生成します。
- 音声合成テキスト入力によるクローン音声ファイルの出力
- デュアルモード操作ローカルGPU処理またはモーダルクラウドGPUアクセラレーションに対応
- カスタマイズ可能なオープンソース長い音声に対応するために、ユーザーがモデルのパラメータ(例:max_seq_len)を調整できるようにする。
- マルチフォーマット対応一般的なオーディオフォーマットの入出力に対応
クローン効果は元の声を復元することはできないが、ボーカルの特徴を大きく残しており、ナレーション素材を素早く生成するのに適している。
この答えは記事から得たものである。CSMボイスクローニング:CSM-1Bによる高速ボイスクローニングについて































