CSM Voice Cloning ist ein Open-Source-Projekt, das auf dem von Isaiah Bjork entwickelten Modell Sesame CSM-1B basiert. Das Projekt implementiert die Funktion des Klonens von Stimmen durch Deep-Learning-Technologie, und die Benutzer müssen nur 2-3 Minuten Audio-Samples zur Verfügung stellen, um eine Sprachausgabe mit persönlichen Merkmalen zu erzeugen.
Zu den wichtigsten technischen Merkmalen gehören:
- Übernahme der Sesame CSM-1B Modellarchitektur im Rahmen der Hugging Face Ecology
- Unterstützt sowohl den lokalen GPU- als auch den modalen Cloud-Betrieb.
- Akzeptiert Audioeingang im MP3- oder WAV-Format
- Ermöglicht die Anpassung der Modellierungsparameter an unterschiedliche Audiolängen
Da es sich um ein Open-Source-Projekt handelt, ist der Code vollständig öffentlich und die Entwickler können ihn verbessern und optimieren. Das Projekt stellt zwar hohe technische Anforderungen an den Benutzer, bietet aber eine vollständige Installations- und Konfigurationsanleitung, die die Einstiegshürde senkt.
Diese Antwort stammt aus dem ArtikelCSM Voice Cloning: Schnelles Voice Cloning mit CSM-1BDie































