Estratégias de configuração de hardware e otimização de desempenho
O realtime-transcription-fastrtc fornece um esquema de otimização de hardware em vários níveis:
- Aceleração de GPU: Suporte total para CUDA e MPS (Metal Performance Shaders), recomendado para uso com placas de vídeo NVIDIA.
- Seleção de modelos: São fornecidos cinco modelos pré-treinados, de sussurro pequeno (39 milhões de parâmetros) a sussurro grande (1550 milhões de parâmetros).
- Ajuste de desempenho: Suporte para ajustar o parâmetro batch_size para equilibrar a latência e a taxa de transferência
Recomendações específicas para diferentes configurações de hardware:
- Dispositivos de ponta: modelo recomendado whisper-large-v3-turbo, batch_size definido como 32
- Dispositivos de médio porte: modelo whisper-medium recomendado, batch_size definido como 8
- Dispositivos de baixo volume: use um modelo pequeno e discreto com o VAD desligado
O mecanismo de aquecimento do modelo na primeira execução reduz efetivamente a latência do reconhecimento subsequente.
Essa resposta foi extraída do artigoFerramenta de código aberto para conversão de fala em texto em tempo realO