Simple Subtitling verwendet ein maschinelles Lernmodell, das auf der ECAPA-TDNN-Architektur für die Sprecheridentifikation basiert.ECAPA-TDNN (Emphasized Channel Attention, Propagation and Aggregation in TDNN) ist ein verbessertes neuronales Netzwerk mit Zeitverzögerung, das speziell für die Identifizierung von Sprechern optimiert wurde und die folgenden technischen Merkmale aufweist:
- Nutzung von Kanalaufmerksamkeitsmechanismen zur Hervorhebung wichtiger Merkmale
- Tiefe Merkmalsausbreitung durch Restverknüpfung
- Verbesserung der Erkennungsgenauigkeit durch mehrschichtige Merkmalsaggregation
Methoden zur Verbesserung der Genauigkeit::
- Audioqualität: Sicherstellen, dass der Eingangston klar ist und Hintergrundgeräusche reduziert werden (empfohlener Rauschabstand >20 dB)
- Modellauswahl: vortrainiert
voice-gender-classifierModellierung - Parameteroptimierung: in
config.yamlMittelbühnenverstellungvad_thresholdParameter für die Erkennung von isophonischer Aktivität - Formatspezifikation: Streng 16kHz mono WAV Eingangsformat
- Anzahl der Lautsprecher: Wenn die genaue Anzahl der Lautsprecher bekannt ist, kann sie in der Konfiguration angegeben werden
Hinweis: Das aktuelle Modell unterstützt am besten Englisch. Für andere Sprachen wird eine Feinabstimmung des Modells mit Hilfe der Bereichsanpassung empfohlen.
Diese Antwort stammt aus dem ArtikelSimple Subtitling: ein Open-Source-Tool zur automatischen Erstellung von Videountertiteln und zur Identifizierung der SprecherDie































