Das System ist in der Lage, lange Textinhalte durch intelligente Satztrennung, Chunk-Verarbeitung und nahtlose Audio-Splicing-Technologie automatisch zu verarbeiten, was sich besonders für die Produktion von Hörbüchern eignet. Nachdem die Benutzer die Chunk-Größe von 300-500 Zeichen in der Web-UI eingestellt haben, wird das System automatisch den gesamten Prozess der Textsegmentierung, der Spracherzeugung und der endgültigen Audiosynthese abschließen und kohärente und natürliche Langzeit-Sprachdateien ausgeben.
Diese Antwort stammt aus dem ArtikelKitten-TTS-Server: Ein selbstentwickelbarer, leichtgewichtiger Text-to-Speech-DienstDie