Posição atual:fig. início " Respostas da IA

Como usar o xiaozhi-esp32-server para implementar o diálogo de voz com dispositivos ESP32?

2025-08-29

2.6 K

As etapas principais a seguir precisam ser concluídas para implementar o recurso de diálogo por voz:

Preparação ambientalInstalação do Python 3.10 e do Conda, configuração do ambiente de hardware com CPU de 4 núcleos/8 GB de RAM (o modo API pode ser reduzido para 2 núcleos/2 GB)
Implementação do projetoApós baixar o código-fonte do GitHub, crie um ambiente virtual dedicado por meio do Conda e instale o libopus, o ffmpeg e outras bibliotecas dependentes.
Configuração do modeloFaça o download do modelo de reconhecimento de fala do FunASR para ser colocado no diretório models, certificando-se de incluir o arquivo SenseVoiceSmall/model.pt
Configurações de diálogoAjustes no config.yamlmin_silence_duration_msO parâmetro (1000ms recomendado) controla a sensibilidade da resposta do diálogo
método de interação::
- Ativação por voz: ative o dispositivo com uma palavra de ativação predefinida
- Acionamento manual: use botões físicos para iniciar um diálogo
- Interrupções em tempo real: suporta a interrupção da resposta atual no meio de um discurso.

Durante o teste real, você pode verificar o link de interação dizendo "Hello" e outras declarações de teste, e o sistema é compatível com o reconhecimento de idiomas chinês/inglês/japonês/coreano por padrão. Se houver um atraso na resposta, você poderá usar a combinação AliLLM+DoubaoTTS para melhorar o desempenho.

Essa resposta foi extraída do artigoxiaozhi-esp32-server: serviço de back-end de código aberto do chatbot de IA da XiaozhiO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " Como usar o xiaozhi-esp32-server para implementar o diálogo de voz com dispositivos ESP32?