A estrutura TEN é uma plataforma de software de código aberto com os seguintes recursos funcionais principais:
- interação de voz em tempo realSuporte para diálogo full-duplex, reconhecimento de fala em tempo real e conversão de texto em fala
- suporte multimodal: pode combinar recursos de processamento de fala, visão e texto para criar inteligências de IA integradas
- Sistema de expansão modularFornece extensões reutilizáveis para facilitar a integração de ferramentas e serviços externos
- Operação entre plataformasSuporte para Windows, Mac, Linux e dispositivos móveis, além de compatibilidade com dispositivos de borda, como o ESP32.
- Criador de fluxo de trabalhoInterface de desenvolvimento com pouco ou nenhum código por meio do TMAN Designer
- Integração de modelos grandesSuporte aos principais modelos, como Llama 4, Google Gemini, DeepSeek R1, etc.
- Geração de imagens em tempo realGeração de imagens relacionadas ao conteúdo por meio da extensão StoryTeller
Essa resposta foi extraída do artigoTEN: uma ferramenta de código aberto para criar inteligências de IA de fala multimodal em tempo realO































