Guia do desenvolvedor para adicionar interação de voz ao Zola
A implementação da funcionalidade de voz requer uma modificação em três etapas:
- Integração de front-end(1) em
components/InputAdicionar um botão de microfone; 2) Capturar a fala usando a Web Speech API (é necessário um ambiente HTTPS); 3) Conversão de fala em texto por meio da implementação local do whisper.cpp - processamento back-end(1) Nova construção
/api/ttsRoteamento para lidar com a síntese de fala; 2) Integração com o projeto EdgeTTS ou VITS para suporte multilíngue; 3) Transmissão de áudio ao vivo por push usando WebSocket - Otimização da interface do usuário1) adicionar formas de onda de som visual; 2) projetar a lógica de detecção de mudo; 3) implementar interrupções em diálogos
Nota sobre a implementação: 1) O iOS requer um tratamento especial das limitações da reprodução automática; 2) Considere adicionar o polyfill SpeechRecognition para ser compatível com navegadores mais antigos; 3) Recomenda-se que os arquivos de fala sejam armazenados no formato OPUS para economizar largura de banda.
Essa resposta foi extraída do artigoZola: aplicativo da Web de bate-papo de IA de código aberto com upload de documentos e suporte a vários modelosO































