Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O TEN Framework é uma plataforma de software de código aberto focada em ajudar os desenvolvedores a criar inteligências de IA de fala em tempo real, multimodais e de baixa latência. Ele oferece suporte a várias linguagens de programação, incluindo C, C++, Go, Python, JavaScript e TypeScript, e permite que os desenvolvedores criem rapidamente inteligências com recursos de voz, visão e interação de texto. A estrutura oferece um sistema de extensão modular que se integra perfeitamente a plataformas externas, como Dify e Coze. Ela também é compatível com a implantação na nuvem e em dispositivos de borda, o que a torna adequada para uma ampla gama de cenários de aplicativos. A estrutura TEN é lançada sob a licença Apache 2.0, que incentiva a colaboração de código aberto, e os desenvolvedores podem participar livremente de contribuições de código, melhorias na documentação ou desenvolvimento de recursos. A documentação oficial e os blogs fornecem orientações detalhadas para desenvolvedores iniciantes e profissionais.

 

Lista de funções

  • Suporte à interação de voz em tempo real: alcance um diálogo full-duplex, suporte ao reconhecimento de fala em tempo real e à conversão de texto em fala.
  • Suporte multimodal: combinando fala, visão e processamento de texto para criar inteligências de IA integradas.
  • Sistema de extensão modular: fornece extensões reutilizáveis para facilitar a integração de ferramentas externas, como consulta meteorológica, pesquisa na Web etc.
  • Operação entre plataformas: compatível com Windows, Mac, Linux e dispositivos móveis, compatível com dispositivos de borda como o ESP32.
  • Ferramenta de criação de fluxo de trabalho: simplifica o desenvolvimento de corpos inteligentes, fornecendo uma interface com pouco ou nenhum código por meio do TMAN Designer.
  • Integre os principais modelos de grande porte: suporte a Llama 4, Google Gemini, DeepSeek R1, etc., fornecendo capacidade de interação em tempo real.
  • Geração de imagens em tempo real: suporte à geração de imagens relacionadas à história para aprimorar a experiência interativa por meio da extensão StoryTeller.
  • Suporte à colaboração de código aberto: fornece problemas e projetos do GitHub para que os desenvolvedores contribuam com código ou deem feedback sobre problemas.

Usando a Ajuda

Processo de instalação

O processo de instalação da estrutura TEN varia de acordo com a plataforma de destino e os requisitos de desenvolvimento. As etapas de instalação genéricas a seguir, baseadas na documentação oficial, são adequadas para a maioria dos usuários:

  1. Preparação ambiental
    • Certifique-se de que as ferramentas de desenvolvimento necessárias estejam instaladas em seu sistema. Por exemplo, o desenvolvimento em C/C++ requer a instalação de um compilador (por exemplo, GCC), e o desenvolvimento em Python requer o ambiente Python 3.8+.
    • Instale o Git para clonar o repositório de código do TEN Framework. Execute o seguinte comando para clonar o repositório:
      git clone https://github.com/TEN-framework/ten-framework.git
      
    • Vá para o catálogo de projetos:
      cd ten-framework
      
  2. Instalação de dependências
    • A estrutura do TEN depende de várias bibliotecas de terceiros, que estão listadas na seçãoLICENSEarquivo. Execute o seguinte comando para instalar as dependências básicas:
      pip install -r requirements.txt
      
    • Para componentes C/C++, a estrutura TEN usa um sistema de compilação baseado no Google GN. As ferramentas GN precisam ser instaladas, conforme descrito nas etapas abaixoten_gndo submóduloREADME.md::
      git submodule update --init --recursive
      cd core/ten_gn
      ./configure
      
  3. Configuração de serviços externos
    • A estrutura do TEN oferece suporte à integração com APIs externas, como Deepgram (reconhecimento de fala), Elevenlabs (conversão de texto em fala) e OpenAI (grandes modelos). Os usuários precisam se registrar para esses serviços e obter uma chave de API.
    • Crie um arquivo de configuração no diretório raiz do projeto (por exemploconfig.json), preencha a chave da API:
      {
      "agora_app_id": "<your_agora_app_id>",
      "openai_api_key": "<your_openai_api_key>",
      "deepgram_api_key": "<your_deepgram_api_key>",
      "elevenlabs_api_key": "<your_elevenlabs_api_key>"
      }
      
    • Essas chaves estão disponíveis por meio de uma avaliação gratuita em cada plataforma; consulte a documentação do Portal TEN.
  4. Administração do playground
    • O TEN fornece um exemplo de Playground para uma rápida experiência da funcionalidade da estrutura. Execute o seguinte comando para iniciá-lo:
      python playground.py
      
    • O Playground suporta a interação com o TEN Agent para demonstrar o diálogo de voz em tempo real e os recursos de geração de imagens.

Função Fluxo de operação

interação de voz em tempo real

A estrutura do TEN permite a interação de voz em tempo real por meio do TEN Agent. Os usuários podem experimentá-la por meio das seguintes etapas:

  • Depois de iniciar o TEN Agent, selecione DeepSeek R1 ou Google Gemini como o modelo de idioma.
  • Usando o microfone para inserir a fala, o sistema converte a fala em texto em tempo real e gera uma resposta usando um modelo grande.
  • As respostas serão emitidas como fala por meio do recurso de conversão de texto em fala da Elevenlabs.
  • Exemplo de ação: diga "Tell a story about an adventure in the forest" (Conte uma história sobre uma aventura na floresta), o TEN Agent gerará a história e a imagem relacionada por meio da extensão StoryTeller.

Construção de fluxo de trabalho (TMAN Designer)

O TMAN Designer é uma ferramenta de baixo código para criar rapidamente inteligências de IA:

  • Acesso à interface da Web do TMAN Designer (para ser executada localmente ou para acessar a versão on-line oficialmente disponível).
  • Arraste e solte os módulos na interface para criar um fluxo de interação por voz. Por exemplo, adicione o módulo "Speech Input" para conectar-se ao módulo "OpenAI Processing" e, em seguida, conecte-se ao módulo "Speech Output".
  • Depois de salvar o fluxo de trabalho, clique no botão "Run" (Executar) para testar a interação do corpo inteligente.
  • O TMAN Designer oferece suporte à alternância de temas escuro/claro, editor integrado e visualizador de registros para facilitar a depuração.

Integração estendida

O design modular da estrutura do TEN permite que os desenvolvedores adicionem extensões personalizadas. Por exemplo, a integração de uma função de pesquisa meteorológica:

  • Faça o download da extensão Weather Check e instale-a na seçãoextensionsCatálogo.
  • Adicione o módulo Weather Check ao fluxo de trabalho e configure a chave de API (por exemplo, OpenWeatherMap).
  • Procedimento de teste: Insira "How is the weather in Beijing today" (Como está o tempo em Pequim hoje) e o sistema retornará informações meteorológicas em tempo real.

Suporte de hardware (ESP32)

O agente TEN é compatível com a placa de desenvolvimento ESP32-S3 Korvo V3:

  • clone (palavra emprestada)TEN-Agent/esp32-clientRamificação.
  • Use a cadeia de ferramentas ESP-IDF para compilar e fazer o flash do firmware, consulte a seçãoesp32-client/README.md.
  • Depois que o Wi-Fi e as chaves de API são configurados, o dispositivo ESP32 está pronto para executar o TEN Agent, que oferece suporte à interação de voz em tempo real.

advertência

  • Garanta uma conexão estável com a Internet, pois alguns dos recursos dependem da API da nuvem.
  • Verifique regularmente se há atualizações no GitHub executando o comandogit pullObtenha a versão mais recente.
  • Se você encontrar problemas, envie comentários no GitHub Issues ou participe da discussão no Discord na comunidade TEN (link no Portal TEN).

cenário do aplicativo

  1. Auxílios educacionais
    O TEN Agent pode ser usado para criar assistentes de aprendizagem interativos. Os alunos fazem perguntas por voz, e o corpo inteligente responde em tempo real e gera imagens relevantes. Por exemplo, se um aluno perguntar "O que é um vulcão?", o TEN Agent explicará os princípios da formação de vulcões e gerará uma imagem de um vulcão em erupção para aumentar o interesse no aprendizado.
  2. Sistema inteligente de atendimento ao cliente
    As empresas podem usar a estrutura TEN para criar um serviço de atendimento ao cliente por voz em tempo real que ofereça suporte a interações em vários idiomas. As inteligências de atendimento ao cliente podem lidar com perguntas comuns, como consultas de pedidos ou suporte técnico, e encontrar informações atualizadas por meio de extensões de pesquisa na Web.
  3. Controle de dispositivos IoT
    Em um cenário de casa inteligente, o TEN Agent é executado no dispositivo ESP32 e permite que o usuário controle os aparelhos por voz. Por exemplo, diga "ligue a luz da sala de estar" e o corpo inteligente analisará o comando e enviará um sinal de controle.
  4. Geração de histórias infantis
    Os pais podem usar a extensão StoryTeller para permitir que o TEN Agent gere histórias personalizadas para seus filhos e ilustrações em tempo real para aprimorar a experiência imersiva.

QA

  1. A estrutura do TEN é gratuita?
    A estrutura do TEN é totalmente de código aberto e está liberada sob a licença Apache 2.0. Os usuários podem fazer o download e usá-lo gratuitamente, mas alguns recursos exigem chaves de API de terceiros, o que pode envolver custos.
  2. É necessário ter experiência em programação para usar a estrutura do TEN?
    Não necessariamente. O TMAN Designer oferece uma interface de baixo código para usuários sem experiência em programação. Os desenvolvedores podem oferecer suporte a várias linguagens de programação por meio de recursos de personalização de código.
  3. Quais modelos grandes são compatíveis com o TEN Agent?
    Atualmente, há suporte para modelos do Llama 4, Google Gemini, DeepSeek R1 e OpenAI, e o suporte a mais modelos será ampliado no futuro.
  4. Como implantar o TEN Agent em dispositivos de borda?
    Para executar o TEN Agent em dispositivos como o ESP32, você precisa instalar a cadeia de ferramentas ESP-IDF e configurar o firmware. Para obter mais informações, consulteTEN-Agent/esp32-clientDocumentação.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil