Posição atual:fig. início » Biblioteca de ferramentas de IA

TEN: uma ferramenta de código aberto para criar inteligências de IA de fala multimodal em tempo real

2025-07-30

Biblioteca de ferramentas de IA/Áudio de IA/Aplicativos para corpos inteligentes/interação por voz

2.3 K 12

https://github.com/TEN-framework/ten-framework

fazer uma cópia de

Link diretoLinks alternativosVisualização móvel

O TEN Framework é uma plataforma de software de código aberto focada em ajudar os desenvolvedores a criar inteligências de IA de fala em tempo real, multimodais e de baixa latência. Ele oferece suporte a várias linguagens de programação, incluindo C, C++, Go, Python, JavaScript e TypeScript, e permite que os desenvolvedores criem rapidamente inteligências com recursos de voz, visão e interação de texto. A estrutura oferece um sistema de extensão modular que se integra perfeitamente a plataformas externas, como Dify e Coze. Ela também é compatível com a implantação na nuvem e em dispositivos de borda, o que a torna adequada para uma ampla gama de cenários de aplicativos. A estrutura TEN é lançada sob a licença Apache 2.0, que incentiva a colaboração de código aberto, e os desenvolvedores podem participar livremente de contribuições de código, melhorias na documentação ou desenvolvimento de recursos. A documentação oficial e os blogs fornecem orientações detalhadas para desenvolvedores iniciantes e profissionais.

Lista de funções

Suporte à interação de voz em tempo real: alcance um diálogo full-duplex, suporte ao reconhecimento de fala em tempo real e à conversão de texto em fala.
Suporte multimodal: combinando fala, visão e processamento de texto para criar inteligências de IA integradas.
Sistema de extensão modular: fornece extensões reutilizáveis para facilitar a integração de ferramentas externas, como consulta meteorológica, pesquisa na Web etc.
Operação entre plataformas: compatível com Windows, Mac, Linux e dispositivos móveis, compatível com dispositivos de borda como o ESP32.
Ferramenta de criação de fluxo de trabalho: simplifica o desenvolvimento de corpos inteligentes, fornecendo uma interface com pouco ou nenhum código por meio do TMAN Designer.
Integre os principais modelos de grande porte: suporte a Llama 4, Google Gemini, DeepSeek R1, etc., fornecendo capacidade de interação em tempo real.
Geração de imagens em tempo real: suporte à geração de imagens relacionadas à história para aprimorar a experiência interativa por meio da extensão StoryTeller.
Suporte à colaboração de código aberto: fornece problemas e projetos do GitHub para que os desenvolvedores contribuam com código ou deem feedback sobre problemas.

Usando a Ajuda

Processo de instalação

O processo de instalação da estrutura TEN varia de acordo com a plataforma de destino e os requisitos de desenvolvimento. As etapas de instalação genéricas a seguir, baseadas na documentação oficial, são adequadas para a maioria dos usuários:

Preparação ambiental
- Certifique-se de que as ferramentas de desenvolvimento necessárias estejam instaladas em seu sistema. Por exemplo, o desenvolvimento em C/C++ requer a instalação de um compilador (por exemplo, GCC), e o desenvolvimento em Python requer o ambiente Python 3.8+.
- Instale o Git para clonar o repositório de código do TEN Framework. Execute o seguinte comando para clonar o repositório:
```
git clone https://github.com/TEN-framework/ten-framework.git
```
- Vá para o catálogo de projetos:
```
cd ten-framework
```
Instalação de dependências
- A estrutura do TEN depende de várias bibliotecas de terceiros, que estão listadas na seçãoLICENSEarquivo. Execute o seguinte comando para instalar as dependências básicas:
```
pip install -r requirements.txt
```
- Para componentes C/C++, a estrutura TEN usa um sistema de compilação baseado no Google GN. As ferramentas GN precisam ser instaladas, conforme descrito nas etapas abaixoten_gndo submóduloREADME.md：
```
git submodule update --init --recursive
cd core/ten_gn
./configure
```
Configuração de serviços externos
- A estrutura do TEN oferece suporte à integração com APIs externas, como Deepgram (reconhecimento de fala), Elevenlabs (conversão de texto em fala) e OpenAI (grandes modelos). Os usuários precisam se registrar para esses serviços e obter uma chave de API.
- Crie um arquivo de configuração no diretório raiz do projeto (por exemploconfig.json), preencha a chave da API:
```
{
"agora_app_id": "<your_agora_app_id>",
"openai_api_key": "<your_openai_api_key>",
"deepgram_api_key": "<your_deepgram_api_key>",
"elevenlabs_api_key": "<your_elevenlabs_api_key>"
}
```
- Essas chaves estão disponíveis por meio de uma avaliação gratuita em cada plataforma; consulte a documentação do Portal TEN.
Administração do playground
- O TEN fornece um exemplo de Playground para uma rápida experiência da funcionalidade da estrutura. Execute o seguinte comando para iniciá-lo:
```
python playground.py
```
- O Playground suporta a interação com o TEN Agent para demonstrar o diálogo de voz em tempo real e os recursos de geração de imagens.

Função Fluxo de operação

interação de voz em tempo real

A estrutura do TEN permite a interação de voz em tempo real por meio do TEN Agent. Os usuários podem experimentá-la por meio das seguintes etapas:

Depois de iniciar o TEN Agent, selecione DeepSeek R1 ou Google Gemini como o modelo de idioma.
Usando o microfone para inserir a fala, o sistema converte a fala em texto em tempo real e gera uma resposta usando um modelo grande.
As respostas serão emitidas como fala por meio do recurso de conversão de texto em fala da Elevenlabs.
Exemplo de ação: diga "Tell a story about an adventure in the forest" (Conte uma história sobre uma aventura na floresta), o TEN Agent gerará a história e a imagem relacionada por meio da extensão StoryTeller.

Construção de fluxo de trabalho (TMAN Designer)

O TMAN Designer é uma ferramenta de baixo código para criar rapidamente inteligências de IA:

Acesso à interface da Web do TMAN Designer (para ser executada localmente ou para acessar a versão on-line oficialmente disponível).
Arraste e solte os módulos na interface para criar um fluxo de interação por voz. Por exemplo, adicione o módulo "Speech Input" para conectar-se ao módulo "OpenAI Processing" e, em seguida, conecte-se ao módulo "Speech Output".
Depois de salvar o fluxo de trabalho, clique no botão "Run" (Executar) para testar a interação do corpo inteligente.
O TMAN Designer oferece suporte à alternância de temas escuro/claro, editor integrado e visualizador de registros para facilitar a depuração.

Integração estendida

O design modular da estrutura do TEN permite que os desenvolvedores adicionem extensões personalizadas. Por exemplo, a integração de uma função de pesquisa meteorológica:

Faça o download da extensão Weather Check e instale-a na seçãoextensionsCatálogo.
Adicione o módulo Weather Check ao fluxo de trabalho e configure a chave de API (por exemplo, OpenWeatherMap).
Procedimento de teste: Insira "How is the weather in Beijing today" (Como está o tempo em Pequim hoje) e o sistema retornará informações meteorológicas em tempo real.

Suporte de hardware (ESP32)

O agente TEN é compatível com a placa de desenvolvimento ESP32-S3 Korvo V3:

clone (palavra emprestada)TEN-Agent/esp32-clientRamificação.
Use a cadeia de ferramentas ESP-IDF para compilar e fazer o flash do firmware, consulte a seçãoesp32-client/README.md。
Depois que o Wi-Fi e as chaves de API são configurados, o dispositivo ESP32 está pronto para executar o TEN Agent, que oferece suporte à interação de voz em tempo real.

advertência

Garanta uma conexão estável com a Internet, pois alguns dos recursos dependem da API da nuvem.
Verifique regularmente se há atualizações no GitHub executando o comandogit pullObtenha a versão mais recente.
Se você encontrar problemas, envie comentários no GitHub Issues ou participe da discussão no Discord na comunidade TEN (link no Portal TEN).

cenário do aplicativo

Auxílios educacionais
O TEN Agent pode ser usado para criar assistentes de aprendizagem interativos. Os alunos fazem perguntas por voz, e o corpo inteligente responde em tempo real e gera imagens relevantes. Por exemplo, se um aluno perguntar "O que é um vulcão?", o TEN Agent explicará os princípios da formação de vulcões e gerará uma imagem de um vulcão em erupção para aumentar o interesse no aprendizado.
Sistema inteligente de atendimento ao cliente
As empresas podem usar a estrutura TEN para criar um serviço de atendimento ao cliente por voz em tempo real que ofereça suporte a interações em vários idiomas. As inteligências de atendimento ao cliente podem lidar com perguntas comuns, como consultas de pedidos ou suporte técnico, e encontrar informações atualizadas por meio de extensões de pesquisa na Web.
Controle de dispositivos IoT
Em um cenário de casa inteligente, o TEN Agent é executado no dispositivo ESP32 e permite que o usuário controle os aparelhos por voz. Por exemplo, diga "ligue a luz da sala de estar" e o corpo inteligente analisará o comando e enviará um sinal de controle.
Geração de histórias infantis
Os pais podem usar a extensão StoryTeller para permitir que o TEN Agent gere histórias personalizadas para seus filhos e ilustrações em tempo real para aprimorar a experiência imersiva.

QA

A estrutura do TEN é gratuita?
A estrutura do TEN é totalmente de código aberto e está liberada sob a licença Apache 2.0. Os usuários podem fazer o download e usá-lo gratuitamente, mas alguns recursos exigem chaves de API de terceiros, o que pode envolver custos.
É necessário ter experiência em programação para usar a estrutura do TEN?
Não necessariamente. O TMAN Designer oferece uma interface de baixo código para usuários sem experiência em programação. Os desenvolvedores podem oferecer suporte a várias linguagens de programação por meio de recursos de personalização de código.
Quais modelos grandes são compatíveis com o TEN Agent?
Atualmente, há suporte para modelos do Llama 4, Google Gemini, DeepSeek R1 e OpenAI, e o suporte a mais modelos será ampliado no futuro.
Como implantar o TEN Agent em dispositivos de borda?
Para executar o TEN Agent em dispositivos como o ESP32, você precisa instalar a cadeia de ferramentas ESP-IDF e configurar o firmware. Para obter mais informações, consulteTEN-Agent/esp32-clientDocumentação.

Projeto de código aberto de IA Produtos interativos multimodais em tempo real

Ferramentas de produtividade de IA » TEN: uma ferramenta de código aberto para criar inteligências de IA de fala multimodal em tempo real Publicado em 2025-07-30, entre em contato conosco se achar que o URL está desatualizado ou inacessível.

0Marcado

0Recomendado

TEN: uma ferramenta de código aberto para criar inteligências de IA de fala multimodal em tempo real

Lista de funções

Usando a Ajuda

Processo de instalação

Função Fluxo de operação

interação de voz em tempo real

Construção de fluxo de trabalho (TMAN Designer)

Integração estendida

Suporte de hardware (ESP32)

advertência

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Seleção → Redação → Publicação, totalmente automatizada!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

TEN: uma ferramenta de código aberto para criar inteligências de IA de fala multimodal em tempo real

Lista de funções

Usando a Ajuda

Processo de instalação

Função Fluxo de operação

interação de voz em tempo real

Construção de fluxo de trabalho (TMAN Designer)

Integração estendida

Suporte de hardware (ESP32)

advertência

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Seleção → Redação → Publicação, totalmente automatizada!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida