Die technische Herausforderung
Dolphin ist speziell für 22 chinesische Dialekte optimiert, die von allgemeinen Spracherkennungsmodellen aufgrund ihrer unterschiedlichen Aussprache und regionalen Besonderheiten oft falsch erkannt werden.
Spezifische Schritte
- Positionierung von DoppelmarkernGenaue Bezeichnung der Vorwahlen für Dialekte
dolphin dialect.wav --lang_sym "zh" --region_sym "TW" # 台湾闽南语
- Empfehlungen für die Modellauswahl::
- Basisszenario: Verwendung des BASE-Modells (schnelle Reaktion)
- Spezialisierte Szenarien: kleines Modell ausgewählt (Fehlerquote um 8,1% reduziert)
- Datenerweiterung::
- passieren (eine Rechnung oder Inspektion etc.)
--padding_speech truedie Lücken ausfüllen (einer Rede) - Hinzufügung von Umgebungsgeräuschen während der Vorverarbeitung (Signal-Rausch-Verhältnis auf etwa 20 dB kontrolliert)
- passieren (eine Rechnung oder Inspektion etc.)
Tuning-Programm
Entwickler können auf Open-Source-Code zurückgreifen:
1. indolphin/models/Hinzufügen eines benutzerdefinierten Dialektdatensatzes zum Katalog
2. änderungenconfigs/regional_config.yamlErweiterung der dialektspezifischen Merkmalsgewichte
3. verwendenpython train.py --dialect_mode=trueFeinabstimmung
Diese Antwort stammt aus dem ArtikelDolphin: Asiatische Spracherkennung und Speech-to-Text-Modelle für asiatische SprachenDie




























