A estrutura TEN usa um design modular para integrar serviços de processamento de fala líderes do setor, com reconhecimento de fala implementado por meio da API Deepgram e conversão de texto em fala com base nas soluções de tecnologia da ElevenLabs. Os desenvolvedores precisam adicionar a chave de API apropriada no arquivo de configuração config.json, e esses serviços geralmente oferecem um período de teste gratuito. Esse design garante qualidade de interação de voz de nível profissional e, ao mesmo tempo, mantém a estrutura leve, permitindo aos usuários a flexibilidade de escolher ou substituir diferentes provedores de serviços de acordo com suas necessidades.
Essa resposta foi extraída do artigoTEN: uma ferramenta de código aberto para criar inteligências de IA de fala multimodal em tempo realO