Principais técnicas para melhorar a precisão da análise de áudio longo
Para uma entrada de voz sustentada por mais de 30 minutos, o Voxtral foi projetado com as seguintes inovações:
- Extensão da janela de contextoO comprimento do contexto de 32 mil tokens é quatro vezes maior que o dos modelos convencionais, e a eficiência computacional é mantida por meio de um mecanismo aprimorado de atenção esparsa. As associações contextuais antes e depois de 7 minutos podem ser mantidas durante o processamento de gravações de conferências
- Estratégia de otimização de segmentação1) detecção automática de trechos silenciosos como pontos de segmentação; 2) uso de quadros sobrepostos para garantir a coerência (15 segundos de sobreposição entre trechos vizinhos são mantidos); 3) ajuste dinâmico da estratégia de taxa de amostragem para usar amostras mais densas para trechos de fala de alta frequência
- adaptação de hardwareQuando estiver processando áudio com duração de 40 minutos, é recomendável ativar a troca de memória da GPU ou usar a API de processamento de streaming fornecida para carregá-lo gradualmente
- aprimoramento do pós-processamentoO módulo VAD (Voice Activity Detection, detecção de atividade de voz) integrado filtra ruídos inválidos e, junto com a função de segmentação de alto-falantes, distingue automaticamente as diferentes funções, tornando as gravações de conferências mais estruturadas.60%
Os testes de domínio médico mostram que, ao processar um diálogo médico-paciente de uma hora, a precisão do reconhecimento de termos médicos chave atinge 98,21 TP3T, muito superior à média do setor de 921 TP3T. Recomenda-se que o dicionário de domínio seja atualizado regularmente para obter melhores resultados.
Essa resposta foi extraída do artigoVoxtral: um modelo de IA desenvolvido pela Mistral AI para transcrição e compreensão de falaO