Princípios de otimização de atraso para técnicas de DSM
A tecnologia Delayed Stream Modelling (DSM) da Kyutai atinge uma latência de 500 milissegundos por meio de uma arquitetura de streaming inovadora. Diferentemente dos modelos em lote tradicionais, o DSM usa processamento de fluxo de áudio e texto alinhado ao tempo, em que o modelo gera gradualmente resultados parciais de texto à medida que recebe o fluxo de áudio. Esse design evita o problema de aguardar a entrada de áudio completa antes de iniciar o processamento.
A implementação técnica contém três técnicas principais: em primeiro lugar, uma estratégia de fragmentação dinâmica, que divide de forma inteligente o fluxo de áudio com base na detecção de atividade semântica (VAD); em segundo lugar, um mecanismo de decodificação incremental, que inicia o processo de decodificação assim que são obtidos recursos de fala suficientes; e, por fim, uma técnica de aceleração de flush trick, que pode concluir imediatamente o processamento restante quando o fim da fala é detectado, comprimindo a latência de 500 ms para 125 ms.
Os dados reais do teste de fala para texto mostram que, ao executar o modelo de parâmetro 1B na GPU L40S, a latência da transcrição em tempo real para o inglês é estável na faixa de 0,45 a 0,55 segundo, com o processamento do francês um pouco mais alto, em torno de 0,6 segundo. Esse desempenho já pode atender às necessidades da maioria dos cenários de diálogo em tempo real.
Essa resposta foi extraída do artigoKyutai: ferramenta de conversão de fala em texto em tempo realO































