Audibit verwendet eine parallele Dual-Engine-Strategie, um die Audioqualität zu gewährleisten:
- OpenAI-EngineBietet eine weiche Stimme, die der Stimme einer echten Person sehr nahe kommt, mit Unterstützung für die Intonationskontrolle und den Ausdruck von Emotionen.
- Lemonfox MotorSchwerpunkt auf der korrekten Aussprache von Fachbegriffen, insbesondere bei technischen Inhalten
Nach der Konvertierung eines technischen Artikels mit 3.000 Wörtern wurde ein Test durchgeführt:
- Durchschnittliche Generierungszeit ca. 90 Sekunden (abhängig von der Artikellänge)
- Audio-Abtastrate bleibt bei 44,1 kHz auf CD-Niveau
- Hintergrundgeräuschkontrolle unter -60 dB
Was die Sprachunterstützung betrifft, so erkennt die aktuelle Version automatisch die folgenden Sprachen:
- Englisch (amerikanische/britische Aussprache optional)
- vereinfachtes Chinesisch
- japanische Sprache
- Spanische Sprache
Es ist erwähnenswert, dass das System den Sprachtyp automatisch auf der Grundlage von Artikel-Metadaten bestimmt, und die Nutzer können das bevorzugte Sprachschema auch manuell in config/tts.js einstellen. Für zukünftige Iterationen ist eine genauere automatische Anpassung durch Spracherkennungsmodelle geplant.
Diese Antwort stammt aus dem ArtikelAudibit: Umwandlung beliebter technischer Artikel in anhörbare Audio-PodcastsDie