移动设备的优化实现
Kyutai特别为苹果设备开发的MLX实现版展现了出色的移动端适配能力。基于苹果MLX框架的硬件加速,1B参数的STT模型能在iPhone 16 Pro上实现完全实时的语音转录,处理延迟控制在1秒以内。这归功于模型权重被量化为4-bit格式,同时利用苹果神经引擎(ANE)进行矩阵运算加速。
移动端实现提供两种工作模式:离线模式完全在设备端运行,保护用户隐私;在线模式可连接云端更大的2.6B模型获得更高精度。测试数据显示,在M2芯片的MacBook Pro上,MLX版本比原生PyTorch实现快3倍以上,功耗降低70%。
开发套件提供简洁的Python接口,包括实时麦克风捕获、音频文件处理和连续听写等功能模块。这些特性使Kyutai成为目前少数能在移动设备实现专业级语音识别的开源解决方案。
Essa resposta foi extraída do artigoKyutai: ferramenta de conversão de fala em texto em tempo realO