As inteligências de IA de interação de voz em tempo real podem ser desenvolvidas rapidamente usando a estrutura TEN, seguindo as etapas abaixo:
- Instale a estrutura do TEN e suas dependências: certifique-se de que o ambiente do sistema atenda aos requisitos (Python 3.8+ ou compilador C/C++), clone o repositório via Git e instale as dependências.
- Configurar a API do serviço de fala: integre os serviços Deepgram (reconhecimento de fala) e Elevenlabs (conversão de texto em fala), obtenha a chave da API e preencha o arquivo de configuração.
- Usando o módulo TEN Agent: após a inicialização, selecione um modelo de idioma, como o Google Gemini, para obter um diálogo de voz full-duplex por meio de entrada de microfone
- Função de interação de teste: acionando comandos de voz como "contar uma história de aventura", o sistema gerará respostas de voz em tempo real e gerará imagens de apoio por meio das extensões do StoryTeller.
Todo o processo aproveita o design modular da estrutura, o que pode reduzir significativamente o ciclo de desenvolvimento. Para aplicativos leves, a funcionalidade também pode ser rapidamente verificada diretamente usando os exemplos pré-construídos do Playground.
Essa resposta foi extraída do artigoTEN: uma ferramenta de código aberto para criar inteligências de IA de fala multimodal em tempo realO

































