Esse processo garante que as legendas sejam alinhadas com precisão:
- Seleção de formatoUso preferencial do formato WAV não compactado (16 bits/44,1 kHz) para reduzir a latência da decodificação
- calibração de parâmetrosAdicionar o seguinte à interface /srt
?word_timestamps=true
Obter carimbo de data/hora literal - calibração manualCarregamento de formas de onda de áudio com ferramentas como o Subtitle Edit para ajustar os quadros-chave.
- tolerância a falhasQuando um trabalhador atingir o tempo limite e retornar dados incompletos, use o
start_time=上次结束时间
Continuação do restante da transmissão
O desvio final pode ser controlado em ±200ms.
Essa resposta foi extraída do artigoWhisper on Cloudflare AI: uma ferramenta gratuita para converter áudio em texto e gerar legendasO