Die Optimierung für Multiplayer-Dialogszenarien muss in drei Dimensionen ansetzen: Hardwarekonfiguration, Parameterabstimmung und Post-Processing:
Wichtige technische Konfigurationen
- Aktivieren der Sprechererkennung: In config.yaml eingestellt
speaker_diarization: trueund laden Sie das vortrainierte Modell herunter - Audio-Separation-VerarbeitungEs wird empfohlen, zunächst ein Tool wie Adobe Audition für die Kanaltrennung zu verwenden (wenn verschiedene Lautsprecher in verschiedenen Kanälen sind).
- Anpassung der Abtastrate16000Hz Abtastrate zur Vermeidung von Funktionsverlusten durch Resampling
Praktischer Leitfaden
- Nehmen Sie für jeden Sprecher mehr als 5 Sekunden Audiobeispiele auf.
- Einzelne Lautsprechersegmente werden separat in einer ruhigen Umgebung behandelt
- ausnutzen
speaker_thresholdParametereinstellung Erkennungsempfindlichkeit (empfohlen 0,7-0,9)
Komplementäres Verbesserungsprogramm
Wenn die Anerkennung nicht zufriedenstellend ist:
1. verwendenffmpeg -af "atempo=0.9"das Tempo der Rede verlangsamen
2. die Rauschunterdrückung durch Audacity
3. die Kennzeichnung der verschiedenen Sprecher mit unterschiedlichen Farben in SRT-Dateien (Unterstützung des ASS-Formats durch den Player erforderlich)
Diese Antwort stammt aus dem ArtikelSimple Subtitling: ein Open-Source-Tool zur automatischen Erstellung von Videountertiteln und zur Identifizierung der SprecherDie































