O Simple Subtitling usa um modelo de aprendizado de máquina baseado na arquitetura ECAPA-TDNN para a diarização do locutor. Aggregation in TDNN) é uma rede neural de atraso de tempo aprimorada, otimizada especificamente para tarefas de identificação de locutor com os seguintes recursos técnicos:
- Uso de mecanismos de atenção do canal para enfatizar recursos importantes
- Propagação profunda de recursos por meio de ligação residual
- Melhore a precisão do reconhecimento com a agregação de recursos de várias camadas
Métodos para melhorar a precisão::
- Qualidade de áudio: garanta que o áudio de entrada seja nítido e reduza o ruído de fundo (relação sinal/ruído recomendada >20 dB)
- Seleção de modelos: pré-treinados
voice-gender-classifiermodelagem - Otimização de parâmetros: em
config.yamlajuste do estágio centralvad_thresholdParâmetros de detecção de atividade isofônica - Especificação do formato: Formato de entrada WAV mono estritamente de 16kHz
- Número de alto-falantes: se o número exato de alto-falantes for conhecido, ele poderá ser especificado na configuração
Observação: O modelo atual suporta melhor o inglês. Para outros idiomas, recomenda-se que o modelo seja ajustado usando a Adaptação de Domínio.
Essa resposta foi extraída do artigoSimple Subtitling: uma ferramenta de código aberto para gerar automaticamente legendas de vídeo e identificação de locutorO































