按此流程可确保字幕精准对齐:
- 格式选择:优先使用未压缩的 WAV 格式(16bit/44.1kHz)减少解码延迟
- 参数校准:在 /srt 接口添加
?word_timestamps=true
获取逐字时间戳 - 人工校验:用 Subtitle Edit 等工具加载音频波形图微调关键帧
- 容错处理:当 Worker 超时返回不完整数据时,用
start_time=上次结束时间
续传剩余部分
最终偏差可控制在 ±200ms 以内。
本答案来源于文章《Whisper on Cloudflare AI:将音频转文字并生成字幕的免费工具》