完整工作流程
Schritt 1: Vorbereitung der Umwelt
- 选择PyTorch/MLX(Runtime)或Rust(生产服务器)
- 安装对应版本的模型包(moshi-mlx或moshi-server)
- Herunterladen von
stt-2.6b-en
高精度英语模型
步骤2:音频输入配置
- 实时麦克风输入:添加
--mic
Parameter - 文件输入:指定WAV/MP3文件路径
- 网络流输入:通过WebSocket传输音频数据块
关键参数设置
Parameter | Anweisungen | 推荐值 |
---|---|---|
–temp | 采样温度 | 0(确定性输出) |
–vad-thresh | 语音活动阈值 | 0.3(环境嘈杂时调高) |
–max-delay | 最大允许延迟 | 500(毫秒) |
passieren (eine Rechnung oder Inspektion etc.)--output-json
可获取结构化结果,包含:
- transcript:完整转写文本
- word_timings:单词级时间戳数组
- confidence:置信度分数
输出后处理建议
字幕文件生成:
- 将时间戳转换为SRT/VTT格式
- ausnutzen
ffmpeg
嵌入视频 - 调整每行字幕长度(建议3-5秒)
实时显示优化:
- 通过WebSocket推送至前端
- 添加0.2秒缓冲避免抖动
- 高亮当前朗读单词增强可读性
Diese Antwort stammt aus dem ArtikelKyutai: Werkzeug zur Umwandlung von Sprache in Text in EchtzeitDie