As etapas principais a seguir precisam ser concluídas para implementar o recurso de diálogo por voz:
- Preparação ambientalInstalação do Python 3.10 e do Conda, configuração do ambiente de hardware com CPU de 4 núcleos/8 GB de RAM (o modo API pode ser reduzido para 2 núcleos/2 GB)
- Implementação do projetoApós baixar o código-fonte do GitHub, crie um ambiente virtual dedicado por meio do Conda e instale o libopus, o ffmpeg e outras bibliotecas dependentes.
- Configuração do modeloFaça o download do modelo de reconhecimento de fala do FunASR para ser colocado no diretório models, certificando-se de incluir o arquivo SenseVoiceSmall/model.pt
- Configurações de diálogoAjustes no config.yaml
min_silence_duration_msO parâmetro (1000ms recomendado) controla a sensibilidade da resposta do diálogo - método de interação::
- Ativação por voz: ative o dispositivo com uma palavra de ativação predefinida
- Acionamento manual: use botões físicos para iniciar um diálogo
- Interrupções em tempo real: suporta a interrupção da resposta atual no meio de um discurso.
Durante o teste real, você pode verificar o link de interação dizendo "Hello" e outras declarações de teste, e o sistema é compatível com o reconhecimento de idiomas chinês/inglês/japonês/coreano por padrão. Se houver um atraso na resposta, você poderá usar a combinação AliLLM+DoubaoTTS para melhorar o desempenho.
Essa resposta foi extraída do artigoxiaozhi-esp32-server: serviço de back-end de código aberto do chatbot de IA da XiaozhiO































