完整工作流程
步骤1:环境准备
- 选择PyTorch/MLX(Runtime)或Rust(生产服务器)
- 安装对应版本的模型包(moshi-mlx或moshi-server)
- 下载
stt-2.6b-en
高精度英语模型
步骤2:音频输入配置
- 实时麦克风输入:添加
--mic
参数 - 文件输入:指定WAV/MP3文件路径
- 网络流输入:通过WebSocket传输音频数据块
关键参数设置
参数 | 说明 | 推荐值 |
---|---|---|
–temp | 采样温度 | 0(确定性输出) |
–vad-thresh | 语音活动阈值 | 0.3(环境嘈杂时调高) |
–max-delay | 最大允许延迟 | 500(毫秒) |
通过--output-json
可获取结构化结果,包含:
- transcript:完整转写文本
- word_timings:单词级时间戳数组
- confidence:置信度分数
输出后处理建议
字幕文件生成:
- 将时间戳转换为SRT/VTT格式
- 使用
ffmpeg
嵌入视频 - 调整每行字幕长度(建议3-5秒)
实时显示优化:
- 通过WebSocket推送至前端
- 添加0.2秒缓冲避免抖动
- 高亮当前朗读单词增强可读性
本答案来源于文章《Kyutai:语音与文本实时转换工具》