构建实时系统的关键步骤:
- 流式处理:通过 WebSocket 将录音设备数据分块发送至 /raw 接口
- 增量返回:设置
&incremental=true
参数分段获取转录结果 - 前端展示:用 JavaScript 动态更新 DOM,配合高亮当前说话段落
- 性能调优:限制单次请求 5s 音频片段(约 500KB),延迟控制在 3s 内
该方案适合 10 人以下会议,需 Chrome 91+ 浏览器支持 MediaRecorder API。
本答案来源于文章《Whisper on Cloudflare AI:将音频转文字并生成字幕的免费工具》