Fluxo de trabalho completo
Etapa 1: Preparação ambiental
- Escolha PyTorch/MLX (tempo de execução) ou Rust (servidor de produção)
- Instale a versão correspondente do pacote do modelo (moshi-mlx ou moshi-server)
- download
stt-2.6b-enModelos ingleses de alta precisão
Etapa 2: Configuração da entrada de áudio
- Entrada de microfone em tempo real: adicionar
--micparâmetros - Entrada de arquivo: especifique o caminho do arquivo WAV/MP3.
- Entrada de streaming de rede: transferência de blocos de dados de áudio via WebSocket
Configurações de parâmetros-chave
| parâmetros | instruções | valor recomendado |
|---|---|---|
| -temp | temperatura de amostragem | 0 (saída determinística) |
| -vad-thresh | limiar de atividade de fala | 0,3 (ajustado para cima para ambientes ruidosos) |
| -max-delay | Atraso máximo permitido | 500 (milissegundos) |
aprovar (um projeto de lei ou inspeção etc.)--output-jsonResultados estruturados podem ser obtidos para conter:
- transcrição: transcrição completa do texto
- word_timings: matriz de registros de data e hora em nível de palavra
- Confiança: pontuação de confiança
Recomendações de pós-processamento de saída
Geração de arquivos de legenda:
- Converter registros de data e hora para o formato SRT/VTT
- fazer uso de
ffmpegVídeo incorporado - Ajuste a duração de cada linha de legenda (recomenda-se de 3 a 5 segundos)
Otimização de exibição em tempo real:
- Enviar para o front-end via WebSocket
- Adicione um buffer de 0,2 segundo para evitar jitter
- Melhore a legibilidade destacando a palavra que está sendo lida em voz alta.
Essa resposta foi extraída do artigoKyutai: ferramenta de conversão de fala em texto em tempo realO































