Auto-Audio-Book ist ein Python 3.10+ Open-Source-Projekt von Entwickler zqq-nuli erstellt und auf der GitHub-Plattform gehostet. Das Tool durch die Integration von großen Modell-Technologie (wie Gemini und CosyVoice2-0.5B) , um den kompletten Prozess aus dem Netzwerk zu erreichen, um den neuen Inhalt zu kriechen, um Multi-Charakter-Hörbuch zu erzeugen. Der Projektcode ist vollständig öffentlich, so dass Benutzer zum Download und ändern Sie es frei, so dass es besonders geeignet für Technologie-Enthusiasten und Hörbuch-Produzenten.
Die Kernarchitektur enthält fünf technologische Schlüsselmodule: 1) ein Web-Crawler-System, das auf der Requests-Bibliothek basiert; 2) eine Dialoganalyse-Engine, die NLP-Technologie verwendet; 3) eine Multi-Rollen-Sprachsynthese-Schnittstelle; 4) ein Audioverarbeitungssystem, das auf ffmpeg basiert; und 5) optionale MongoDB-Datenbankunterstützung. Dieser modulare Aufbau macht das Projekt hochgradig skalierbar und Entwickler können die Komponenten leicht austauschen.
Mit der neuesten Version (0.5B) vom März 2025 befindet sich das Projekt noch in der Entwicklungsphase und die grafische Benutzeroberfläche ist noch nicht vollständig, aber es ist möglich, den gesamten Arbeitsablauf vom Crawling bis zur Generierung über die Befehlszeile zu erledigen. Eine typische Laufzeitumgebung erfordert Python 3.10+, das Audiotool ffmpeg und den entsprechenden Big Model API-Schlüssel, der in der Projektdokumentation angegeben ist.
Diese Antwort stammt aus dem ArtikelEin Tool, das automatisch Romane durchforstet und Hörbücher mit mehreren Charakteren erstelltDie































