これら2つの一般的なエラーは通常、オーディオのサンプル長やハードウェアの設定に関連しており、以下の方式で解決できます:
テンソル次元の誤差:
- シーケンス長の調整::
- 見せる
models.py書類 - 修正
llama3_2_1B()歌で応えるllama3_2_100M()正鵠を得るmax_seq_lenパラメータ(デフォルト4096、8192まで増やせる)
- 見せる
- クリップ・オーディオサンプルを2分50秒以内に切り取る(推奨長さ)
CUDAメモリ不足:
- サンプル長の短縮短い音声を使用する(30秒のベース・サンプル・テストを推奨)
- バッチサイズを小さくするで
voice_clone.pyのbatch_sizeパラメータを調整する。 - 運転モードの切り替えローカル・ビデオ・メモリの制限を回避するため、モーダル・クラウド処理に切り替える
- ハードウェア・チェックグラフィックスカードに6GB以上のビデオメモリが搭載されていること(RTX 2060以上)
問題が解決しない場合は、GPUキャッシュをクリアするか、Python環境を再起動してみてください。プロジェクトのGitHubのIssuesセクションにも、コミュニティによる解決策が掲載されています。
この答えは記事から得たものである。CSMボイスクローニング:CSM-1Bによる高速ボイスクローニングについて































