Technologie zur Sprechererkennung für Meeting-Aufzeichnungen
Das TurboScribe-Sprechererkennungssystem nutzt die biometrische Analyse von Stimmabdrücken, um die Stimmcharakteristiken jeder Person mithilfe des Mel Frequency Cepstrum Coefficient (MFCC) zu extrahieren. Auch ohne vorher aufgezeichnete Stimmmuster kann das System mit einer Erkennungsgenauigkeit von 92,7% zwischen verschiedenen Sprechern in einem Meeting mit mehreren Personen unterscheiden. Das System weist jedem Stimmmuster eine individuelle ID zu und ermöglicht die spätere Umbenennung in einen echten Namen.
Diese Technologie bietet drei wichtige Optimierungen für Besprechungsszenarien: 1) automatische Generierung von Dialogaufzeichnungen mit Sprechertags, wodurch die unscharfe Kennzeichnung von "Sprecher A/Sprecher B" in der herkömmlichen Transkription vermieden wird; 2) Unterstützung des Abrufs wichtiger Reden nach Sprechern, z. B. schnelles Auffinden aller Präsentationen einer bestimmten Führungskraft; und 3) Kombination mit der Zeitstempelfunktion können Sie (3) In Verbindung mit der Zeitstempelfunktion kann das System genau zu dem Redebeitrag einer bestimmten Person springen, um ihn zu überprüfen. Tests haben gezeigt, dass das System in Besprechungen mit weniger als 8 Personen eine Differenzierungsgenauigkeit von über 90% bei den Stimmabdrücken beibehält.
Zu den erweiterten Funktionen gehören außerdem: Markierungen für die Stimmungsanalyse (z. B. [aufgeregt]), Statistiken über die Sprachdauer und die Analyse der Redebeiträge, die für die Bewertung der Effizienz von Konferenzen äußerst wertvoll sind. Das System ist speziell für Telekonferenzszenarien optimiert und kann die Stimmcharakteristika von Fernzugriffsnutzern effektiv identifizieren.
Diese Antwort stammt aus dem ArtikelTurboScribe: das Online-Tool für die schnelle Umwandlung von Audio und Video in TextDie