O TEN Framework é uma plataforma de software de código aberto focada em ajudar os desenvolvedores a criar inteligências de IA de fala em tempo real, multimodais e de baixa latência. Ele oferece suporte a várias linguagens de programação, incluindo C, C++, Go, Python, JavaScript e TypeScript, e permite que os desenvolvedores criem rapidamente inteligências com recursos de voz, visão e interação de texto. A estrutura oferece um sistema de extensão modular que se integra perfeitamente a plataformas externas, como Dify e Coze. Ela também é compatível com a implantação na nuvem e em dispositivos de borda, o que a torna adequada para uma ampla gama de cenários de aplicativos. A estrutura TEN é lançada sob a licença Apache 2.0, que incentiva a colaboração de código aberto, e os desenvolvedores podem participar livremente de contribuições de código, melhorias na documentação ou desenvolvimento de recursos. A documentação oficial e os blogs fornecem orientações detalhadas para desenvolvedores iniciantes e profissionais.
Lista de funções
- Suporte à interação de voz em tempo real: alcance um diálogo full-duplex, suporte ao reconhecimento de fala em tempo real e à conversão de texto em fala.
- Suporte multimodal: combinando fala, visão e processamento de texto para criar inteligências de IA integradas.
- Sistema de extensão modular: fornece extensões reutilizáveis para facilitar a integração de ferramentas externas, como consulta meteorológica, pesquisa na Web etc.
- Operação entre plataformas: compatível com Windows, Mac, Linux e dispositivos móveis, compatível com dispositivos de borda como o ESP32.
- Ferramenta de criação de fluxo de trabalho: simplifica o desenvolvimento de corpos inteligentes, fornecendo uma interface com pouco ou nenhum código por meio do TMAN Designer.
- Integre os principais modelos de grande porte: suporte a Llama 4, Google Gemini, DeepSeek R1, etc., fornecendo capacidade de interação em tempo real.
- Geração de imagens em tempo real: suporte à geração de imagens relacionadas à história para aprimorar a experiência interativa por meio da extensão StoryTeller.
- Suporte à colaboração de código aberto: fornece problemas e projetos do GitHub para que os desenvolvedores contribuam com código ou deem feedback sobre problemas.
Usando a Ajuda
Processo de instalação
O processo de instalação da estrutura TEN varia de acordo com a plataforma de destino e os requisitos de desenvolvimento. As etapas de instalação genéricas a seguir, baseadas na documentação oficial, são adequadas para a maioria dos usuários:
- Preparação ambiental
- Certifique-se de que as ferramentas de desenvolvimento necessárias estejam instaladas em seu sistema. Por exemplo, o desenvolvimento em C/C++ requer a instalação de um compilador (por exemplo, GCC), e o desenvolvimento em Python requer o ambiente Python 3.8+.
- Instale o Git para clonar o repositório de código do TEN Framework. Execute o seguinte comando para clonar o repositório:
git clone https://github.com/TEN-framework/ten-framework.git
- Vá para o catálogo de projetos:
cd ten-framework
- Instalação de dependências
- A estrutura do TEN depende de várias bibliotecas de terceiros, que estão listadas na seção
LICENSE
arquivo. Execute o seguinte comando para instalar as dependências básicas:pip install -r requirements.txt
- Para componentes C/C++, a estrutura TEN usa um sistema de compilação baseado no Google GN. As ferramentas GN precisam ser instaladas, conforme descrito nas etapas abaixo
ten_gn
do submóduloREADME.md
::git submodule update --init --recursive cd core/ten_gn ./configure
- A estrutura do TEN depende de várias bibliotecas de terceiros, que estão listadas na seção
- Configuração de serviços externos
- A estrutura do TEN oferece suporte à integração com APIs externas, como Deepgram (reconhecimento de fala), Elevenlabs (conversão de texto em fala) e OpenAI (grandes modelos). Os usuários precisam se registrar para esses serviços e obter uma chave de API.
- Crie um arquivo de configuração no diretório raiz do projeto (por exemplo
config.json
), preencha a chave da API:{ "agora_app_id": "<your_agora_app_id>", "openai_api_key": "<your_openai_api_key>", "deepgram_api_key": "<your_deepgram_api_key>", "elevenlabs_api_key": "<your_elevenlabs_api_key>" }
- Essas chaves estão disponíveis por meio de uma avaliação gratuita em cada plataforma; consulte a documentação do Portal TEN.
- Administração do playground
- O TEN fornece um exemplo de Playground para uma rápida experiência da funcionalidade da estrutura. Execute o seguinte comando para iniciá-lo:
python playground.py
- O Playground suporta a interação com o TEN Agent para demonstrar o diálogo de voz em tempo real e os recursos de geração de imagens.
- O TEN fornece um exemplo de Playground para uma rápida experiência da funcionalidade da estrutura. Execute o seguinte comando para iniciá-lo:
Função Fluxo de operação
interação de voz em tempo real
A estrutura do TEN permite a interação de voz em tempo real por meio do TEN Agent. Os usuários podem experimentá-la por meio das seguintes etapas:
- Depois de iniciar o TEN Agent, selecione DeepSeek R1 ou Google Gemini como o modelo de idioma.
- Usando o microfone para inserir a fala, o sistema converte a fala em texto em tempo real e gera uma resposta usando um modelo grande.
- As respostas serão emitidas como fala por meio do recurso de conversão de texto em fala da Elevenlabs.
- Exemplo de ação: diga "Tell a story about an adventure in the forest" (Conte uma história sobre uma aventura na floresta), o TEN Agent gerará a história e a imagem relacionada por meio da extensão StoryTeller.
Construção de fluxo de trabalho (TMAN Designer)
O TMAN Designer é uma ferramenta de baixo código para criar rapidamente inteligências de IA:
- Acesso à interface da Web do TMAN Designer (para ser executada localmente ou para acessar a versão on-line oficialmente disponível).
- Arraste e solte os módulos na interface para criar um fluxo de interação por voz. Por exemplo, adicione o módulo "Speech Input" para conectar-se ao módulo "OpenAI Processing" e, em seguida, conecte-se ao módulo "Speech Output".
- Depois de salvar o fluxo de trabalho, clique no botão "Run" (Executar) para testar a interação do corpo inteligente.
- O TMAN Designer oferece suporte à alternância de temas escuro/claro, editor integrado e visualizador de registros para facilitar a depuração.
Integração estendida
O design modular da estrutura do TEN permite que os desenvolvedores adicionem extensões personalizadas. Por exemplo, a integração de uma função de pesquisa meteorológica:
- Faça o download da extensão Weather Check e instale-a na seção
extensions
Catálogo. - Adicione o módulo Weather Check ao fluxo de trabalho e configure a chave de API (por exemplo, OpenWeatherMap).
- Procedimento de teste: Insira "How is the weather in Beijing today" (Como está o tempo em Pequim hoje) e o sistema retornará informações meteorológicas em tempo real.
Suporte de hardware (ESP32)
O agente TEN é compatível com a placa de desenvolvimento ESP32-S3 Korvo V3:
- clone (palavra emprestada)
TEN-Agent/esp32-client
Ramificação. - Use a cadeia de ferramentas ESP-IDF para compilar e fazer o flash do firmware, consulte a seção
esp32-client/README.md
. - Depois que o Wi-Fi e as chaves de API são configurados, o dispositivo ESP32 está pronto para executar o TEN Agent, que oferece suporte à interação de voz em tempo real.
advertência
- Garanta uma conexão estável com a Internet, pois alguns dos recursos dependem da API da nuvem.
- Verifique regularmente se há atualizações no GitHub executando o comando
git pull
Obtenha a versão mais recente. - Se você encontrar problemas, envie comentários no GitHub Issues ou participe da discussão no Discord na comunidade TEN (link no Portal TEN).
cenário do aplicativo
- Auxílios educacionais
O TEN Agent pode ser usado para criar assistentes de aprendizagem interativos. Os alunos fazem perguntas por voz, e o corpo inteligente responde em tempo real e gera imagens relevantes. Por exemplo, se um aluno perguntar "O que é um vulcão?", o TEN Agent explicará os princípios da formação de vulcões e gerará uma imagem de um vulcão em erupção para aumentar o interesse no aprendizado. - Sistema inteligente de atendimento ao cliente
As empresas podem usar a estrutura TEN para criar um serviço de atendimento ao cliente por voz em tempo real que ofereça suporte a interações em vários idiomas. As inteligências de atendimento ao cliente podem lidar com perguntas comuns, como consultas de pedidos ou suporte técnico, e encontrar informações atualizadas por meio de extensões de pesquisa na Web. - Controle de dispositivos IoT
Em um cenário de casa inteligente, o TEN Agent é executado no dispositivo ESP32 e permite que o usuário controle os aparelhos por voz. Por exemplo, diga "ligue a luz da sala de estar" e o corpo inteligente analisará o comando e enviará um sinal de controle. - Geração de histórias infantis
Os pais podem usar a extensão StoryTeller para permitir que o TEN Agent gere histórias personalizadas para seus filhos e ilustrações em tempo real para aprimorar a experiência imersiva.
QA
- A estrutura do TEN é gratuita?
A estrutura do TEN é totalmente de código aberto e está liberada sob a licença Apache 2.0. Os usuários podem fazer o download e usá-lo gratuitamente, mas alguns recursos exigem chaves de API de terceiros, o que pode envolver custos. - É necessário ter experiência em programação para usar a estrutura do TEN?
Não necessariamente. O TMAN Designer oferece uma interface de baixo código para usuários sem experiência em programação. Os desenvolvedores podem oferecer suporte a várias linguagens de programação por meio de recursos de personalização de código. - Quais modelos grandes são compatíveis com o TEN Agent?
Atualmente, há suporte para modelos do Llama 4, Google Gemini, DeepSeek R1 e OpenAI, e o suporte a mais modelos será ampliado no futuro. - Como implantar o TEN Agent em dispositivos de borda?
Para executar o TEN Agent em dispositivos como o ESP32, você precisa instalar a cadeia de ferramentas ESP-IDF e configurar o firmware. Para obter mais informações, consulteTEN-Agent/esp32-client
Documentação.