Veröffentlichte Entwicklungspläne
Aus den Projektunterlagen und den Interviews mit den Entwicklern geht hervor, dass der Schwerpunkt auf den nächsten sechs Monaten liegen wird:
- SpracherweiterungFranzösisch/Japanisch-Unterstützung bis Q3 2024, Chinesisch-Mandarin und Koreanisch ab Q4
- EmotionsmotorHinzufügen der Steuerung von 8 Emotionsparametern wie Wut, Traurigkeit usw. (Beta-Version wurde intern getestet)
- Hardware-BeschleunigungProprietäre Optimierungen für NVIDIA Tensor Core und Intel OpenVINO
Community-gesteuerte Funktionen
In der Open-Source-Gemeinschaft werden unter anderem folgende Vorschläge für Funktionen diskutiert:
- Unterstützung von DialektenKantonesisch, Kansai-Japanisch und andere regionale Varianten
- Klonen von StimmabdrückenErlauben Sie Benutzern, Sprachproben für die Merkmalsextraktion hochzuladen.
- Cloud-KollaborationHybride Inferenzverfahren für lokale Modelle und große Modelle in der Cloud
ökologische Bauweise
Es ist geplant, einen Voice-Style-Marktplatz (Voice Marketplace) einzurichten, um Entwicklern die Möglichkeit zu geben:
- Benutzerdefinierte Klangmodelle teilen
- Kommerzialisierung des Verkaufs von professionellen Voiceover-Paketen
- Erweitern Sie die Klangverarbeitungsmöglichkeiten mit einem Plug-in-System
Diese Antwort stammt aus dem ArtikelKokoro-ONNX: Effizientes Text-to-Speech-Tool mit Unterstützung für mehrere Sprachen und StimmenDie




























