当前位置：首页 » AI答疑

使用Orate进行语音转文本（STT）时需要注意哪些关键配置？

2025-09-10

1.9 K

STT功能的关键配置项

为确保转录结果的准确性，使用Orate的语音转文本功能需关注以下要点：

模型选择：根据不同场景选择AI提供商的最优模型，例如AssemblyAI的'best'模型适合高精度需求，而'fast'模型适合实时性要求较高的应用。调用示例：
model: assembly.stt('best')
音频预处理：虽然Orate会自动处理常见音频格式，但仍建议提前检查音频质量（采样率建议16kHz以上，单声道为佳），背景噪声可能影响转录准确率。
语言支持：需确认所选模型是否支持目标语言，例如ElevenLabs的multilingual_v2支持中文，而部分基础模型可能仅限英语。
API密钥管理：在项目配置中正确设置AI提供商的API密钥（如AssemblyAI的密钥需独立于OpenAI），Orate的文档提供了各平台密钥获取指引。

此外，对于长音频文件，可结合Orate的分段处理功能优化性能，详细参数可参考官方示例中的chunk_size配置。