Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O AI-Chatbox é um projeto de interação por voz baseado na placa de desenvolvimento ESP32S3. Os usuários conversam com o Large Model (LLM) por voz, e o dispositivo converte a voz em texto e o envia para o Large Model, que pode ser convertido em transmissão de voz depois de obter a resposta. O projeto foi desenvolvido em linguagem Rust e integrado à ferramenta de reconhecimento de voz Vosk, que é adequada para pessoas que não podem usar aplicativos de telefone celular, como crianças, idosos ou deficientes visuais. O hardware é baseado no XIAO ESP32S3 Sense, combinado com o hardware de codificação de voz, e o software é hospedado no GitHub por meio de código-fonte aberto. O projeto visa proporcionar uma experiência conveniente de interação por voz, adequada para entusiastas do desenvolvimento incorporado e desenvolvedores de hardware inteligente.

Lista de funções

  • Ativação por voz e reconhecimento de comandos Gravação: Suporta a gravação acionada pela palavra de despertar "hi, Lexin" e pela palavra de comando "I have a question".
  • conversão de voz em texto Conversão de áudio WAV gravado em texto usando a ferramenta Vosk, com suporte para reconhecimento de chinês.
  • Interação de modelos grandes : através de DeepSeek API Envie uma pergunta de texto e receba uma resposta inteligente.
  • Registro em log Suporte à visualização de registros em tempo real para facilitar a depuração e o monitoramento do status do dispositivo.
  • acesso entre dispositivos Crie um serviço REST por meio do Flask para permitir que outros dispositivos na LAN chamem a função de fala para texto.
  • Otimização incorporada Código Rust: o código Rust é otimizado para dispositivos incorporados, com um máximo de 512 tokens gerados, equilibrando o desempenho e os recursos.

Usando a Ajuda

Instalação e configuração

  1. Hardware de preparação
    Requer uma placa de desenvolvimento XIAO ESP32S3 Sense com microfone e codificação de fala. O hardware externo de codificação de fala pode aprimorar o processamento de áudio. Certifique-se de que a placa de desenvolvimento esteja conectada a um cartão SD para armazenar modelos de voz.
  2. Configuração do ambiente de desenvolvimento
    • Para instalar o ambiente Rust on ESP, consulte o guia oficial (Rust on ESP).
    • Instale o ambiente Python para executar o serviço de conversão de fala em texto do Vosk.
    • Faça o download do modelo chinês do Vosk (vosk-model-cn-0.22.zip) do site oficial do Vosk, descompacte-o em um diretório local.
    • Coloque o arquivo do modelo de fala (mn7_cnensnet2evadnet1_mediumewn9_hilexinO seguinte é uma cópia do cartão SD (veja abaixo) para o diretório raiz do cartão SD.
  3. Instalação de dependências
    Execute o seguinte comando para instalar a dependência do Python:

    pip install vosk flask flask-cors
    

    Certifique-se de que o ambiente Rust esteja configurado e entre no ambiente ESPUP:

    source $HOME/export-esp.sh
    
  4. Compilar e fazer upload do firmware
    • Clonagem do Project Warehouse:git clone https://github.com/paul356/ai-chatbox.git.
    • Vá para o diretório do projeto e execute o comando de compilação:
      cargo build
      
    • Após a compilação bem-sucedida, use o seguinte comando para carregar o firmware na placa de desenvolvimento ESP32S3:
      cargo espflash flash -p /dev/ttyACM0 --flash-size 8mb
      
    • Defina as variáveis de ambiente (Wi-Fi e chave da API do DeepSeek):
      export WIFI_SSID=<your-ssid>
      export WIFI_PASS=<your-password>
      export LLM_AUTH_TOKEN=<your-deepseek-token>
      
  5. Execução de um serviço de conversão de voz em texto
    • existir vosk-model-cn-0.22 é executado no nível superior do diretório:
      python vosk_server.py
      
    • Após o início do serviço, ouça o http://0.0.0.0:5000/transcribeSe você tiver um arquivo WAV, poderá aceitar o arquivo WAV e retornar o texto.
  6. Serviços de teste
    Use o comando a seguir para testar o serviço de fala para texto:

    curl -X POST -F "file=@record.wav" http://127.0.0.1:5000/transcribe
    

fluxo de trabalho

  1. dispositivo de escorva
    Conecte a placa de desenvolvimento, execute o firmware e verifique os registros com o seguinte comando:

    cargo espflash monitor
    
  2. interação por voz
    • Ative o dispositivo dizendo a palavra de despertar "hi, Loxin".
    • Diga a palavra de comando "I have a question" (Tenho uma pergunta) para entrar no modo de gravação.
    • Dê um nome ao problema, o dispositivo detecta 2 segundos de silêncio e interrompe automaticamente a gravação.
    • A fala é convertida em texto por meio do serviço Vosk, enviada para a API do DeepSeek, as respostas são obtidas e registradas no log.
  3. Ver registro
    O registro mostra o status do dispositivo, os resultados do reconhecimento de fala e as respostas do LLM. Por exemplo, a pergunta "What is a big model" (O que é um modelo grande) pode retornar uma definição detalhada do modelo e uma descrição funcional.

advertência

  • voz clara Modelos Vosk: os modelos Vosk são pequenos e precisam ser pronunciados com clareza para melhorar a precisão do reconhecimento.
  • conexão de rede O dispositivo requer uma conexão Wi-Fi para acessar a API do DeepSeek.
  • Armazenamento de modelos Verifique se o cartão SD tem espaço suficiente para armazenar o modelo de voz (aproximadamente várias centenas de MB).
  • ajustar os componentes durante o teste Verifica se as interações de fala para texto e LLM estão funcionando corretamente por meio de registros, e as mensagens de erro são registradas como Error: Início.

cenário do aplicativo

  1. assistente inteligente
    O usuário interage com o dispositivo por voz para obter respostas a perguntas ou assistência em tarefas, o que o torna adequado para crianças e idosos. Por exemplo, uma criança pode perguntar "Por que o sol brilha?" e o dispositivo retornará uma resposta fácil de entender.
  2. Interação com dispositivos sem tela
    Pessoas com deficiência visual ou usuários que não podem usar telefones celulares podem fazer consultas de informações ou diálogos diários por meio da operação de voz.
  3. Experimento de desenvolvimento incorporado
    Os desenvolvedores podem se basear nesse projeto para aprender sobre o uso do Rust em dispositivos incorporados e explorar a integração do reconhecimento de fala com modelos maiores.
  4. Educação e aprendizado
    Os alunos podem fazer perguntas acadêmicas por voz e o dispositivo se conecta a um modelo grande para fornecer respostas profissionais, adequadas para cenários de sala de aula ou de estudo autônomo.

QA

  1. Quais idiomas são compatíveis com o modelo Vosk?
    Os projetos atuais usam vosk-model-cn-0.22O site oficial da Vosk fornece outros modelos de idiomas, que podem ser substituídos conforme necessário.
  2. Como melhorar a precisão do reconhecimento de fala?
    Garanta uma pronúncia clara e evite ruídos de fundo. Use um microfone de melhor desempenho ou atualize para um modelo maior (como o vosk-model-cn-0.22-large) pode aumentar o efeito.
  3. Como obter a chave de API do DeepSeek?
    Visite o site do DeepSeek para registrar e solicitar uma chave de API e configurar a chave como uma variável de ambiente. LLM_AUTH_TOKEN.
  4. O dispositivo é compatível com a operação off-line?
    O serviço de fala para texto (Vosk) funciona off-line, mas as interações LLM exigem acesso à Internet para a API do DeepSeek.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil