Acesso no exterior: www.kdjingpai.com

Ctrl + D Marcar este site como favorito

Produtos interativos multimodais em tempo real

 Enviar site

TEN: uma ferramenta de código aberto para criar inteligências de IA de fala multimodal em tempo real
O TEN Framework é uma plataforma de software de código aberto focada em ajudar os desenvolvedores a criar inteligências de IA de fala em tempo real, multimodais e de baixa latência. Ele é compatível com várias linguagens de programação, incluindo C, C++, Go, Python, JavaScript e TypeScript. Os desenvolvedores podem usar o TEN Framework para criar rapidamente fala, visão e texto com...
07-30 2.2 K0Recomendado
wukong-robot: um projeto de alto-falante inteligente para criar um diálogo de voz personalizado em chinês
O wukong-robot é um robô de diálogo de voz em chinês de código aberto e um projeto de alto-falante inteligente, projetado para ajudar os desenvolvedores a criar rapidamente alto-falantes inteligentes personalizados. Ele é compatível com reconhecimento de fala em chinês, síntese de fala e função de diálogo em várias rodadas, integrado com ChatGPT, Baidu, KDDI e outras tecnologias. O design do projeto é modular, os plug-ins e os recursos podem ser estendidos livremente, adequados...
07-24 2.3 K0Recomendado
BAGEL
O BAGEL é um modelo de base multimodal de código aberto desenvolvido pela equipe do ByteDance Seed e hospedado no GitHub. Ele integra recursos de compreensão de texto, geração de imagens e edição para dar suporte a tarefas multimodais. O modelo tem 7 bilhões de parâmetros ativos (14 bilhões de parâmetros no total) e usa a mistura de...
05-22 3.3 K0Recomendado
RealtimeVoiceChat
O RealtimeVoiceChat é um projeto de código aberto que se concentra em conversas naturais e em tempo real com inteligência artificial por meio de voz. Os usuários usam o microfone para inserir a fala, o sistema captura o áudio por meio do navegador, converte-o rapidamente em texto, gera uma resposta a partir de um modelo de linguagem grande (LLM) e, em seguida, converte o texto em saída de fala, sendo que todo o processo é quase em tempo real. O projeto adota ...
05-06 4.1 K0Recomendado
Stepsailor: integração de barras de comando de IA em produtos SaaS existentes
Stepsailor 是一个专为开发者打造的工具，核心是一个 AI 命令栏。开发者可以用它让自己的软件产品听懂用户的话，比如用户说“添加新任务”，软件就自动执行。它通过简单的 SDK 集成到 SaaS 产品中，不需要开发者懂 AI 技术。S...
04-10 2.2 K0Recomendado
OpenAvatarChat: uma ferramenta de diálogo humano digital projetada de forma modular
O OpenAvatarChat é um projeto de código aberto desenvolvido pela equipe HumanAIGC-Engineering e hospedado no GitHub. É uma ferramenta modular de diálogo humano digital que permite aos usuários executar todas as funcionalidades em um único PC. O projeto combina vídeo em tempo real, reconhecimento de fala e tecnologia humana digital...
04-05 4.1 K0Recomendado
VideoMind
O VideoMind é uma ferramenta de IA multimodal de código aberto que se concentra em inferência, perguntas e respostas e geração de resumo para vídeos longos. Ela foi desenvolvida por Ye Liu, da Universidade Politécnica de Hong Kong, e por uma equipe do Show Lab da Universidade Nacional de Cingapura. A ferramenta imita a maneira como os humanos entendem o vídeo, dividindo a tarefa em etapas como planejamento, posicionamento, verificação e resposta, uma por...
04-02 3.4 K0Recomendado
MoshiVis
O MoshiVis é um projeto de código aberto desenvolvido pela Kyutai Labs e hospedado no GitHub. Ele se baseia no modelo de fala para texto Moshi (7B parâmetros), com cerca de 206 milhões de novos parâmetros de adaptação e o codificador visual PaliGemma2 congelado (400M parâmetros), permitindo que o modelo...
03-28 3.2 K0Recomendado
Qwen2.5-Omni
O Qwen2.5-Omni é um modelo de IA multimodal de código aberto desenvolvido pela equipe do Alibaba Cloud Qwen. Ele pode processar várias entradas, como texto, imagens, áudio e vídeo, e gerar respostas em texto ou fala natural em tempo real. O modelo foi lançado em 26 de março de 2025, e o código e os arquivos do modelo estão hospedados no GitHu...
03-27 4.9 K0Recomendado
xiaozhi-esp32-server: serviço de back-end de código aberto do chatbot de IA da Xiaozhi
O xiaozhi-esp32-server é uma ferramenta para fornecer serviço de back-end para o chatbot de IA Xiaozhi (xiaozhi-esp32). Ele é escrito em Python e baseado no protocolo WebSocket para ajudar os usuários a criar rapidamente um servidor para controlar dispositivos ESP32. Esse projeto é adequado ...
03-18 9.6 K0Recomendado
Baichuan-Audio
O Baichuan-Audio é um projeto de código aberto desenvolvido pela Baichuan Intelligence (baichuan-inc), hospedado no GitHub, com foco na tecnologia de interação de voz de ponta a ponta. O projeto fornece uma estrutura completa de processamento de áudio que pode converter a entrada de voz em tokens de áudio discretos e, em seguida, gerar o texto correspondente por meio de um grande modelo ...
02-28 2.9 K0Recomendado
PowerAgents: plataforma de corpo inteligente de IA para execução de tarefas na Web com tempo determinado
O PowerAgents é uma plataforma de inteligências de IA focada em tarefas de automação da Web, que permite aos usuários criar e implementar inteligências de IA capazes de clicar, inserir e extrair dados. A plataforma suporta a configuração de tarefas a serem executadas automaticamente de hora em hora, diariamente ou semanalmente, e os usuários podem observar as inteligências trabalhando em tempo real. Ela não só oferece recursos de construção autônoma, mas também possui...
02-28 2.4 K0Recomendado
Step-Audio
O Step-Audio é uma estrutura de interação de voz inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a diálogos em vários idiomas (por exemplo, chinês, inglês, japonês), fala emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, Sichuan), velocidade de fala ajustável e estilo rítmico (por exemplo, rap).
02-19 3.1 K0Recomendado
Gemini Cursor: um assistente inteligente de desktop com IA baseado no Gemini que pode ver, ouvir e falar
O Gemini Cursor é um assistente inteligente de desktop baseado no modelo Gemini 2.0 Flash (experimental) do Google. Ele permite interações visuais, auditivas e de voz por meio de uma API multimodal, proporcionando uma experiência de usuário em tempo real e de baixa latência. O projeto, criado por @13point5, tem como objetivo passar...
02-12 2.9 K0Recomendado
DeepSeek-VL2
O DeepSeek-VL2 é uma série de modelos avançados de linguagem visual Mixture-of-Experts (MoE) que melhoram significativamente o desempenho de seu antecessor, o DeepSeek-VL. Os modelos são excelentes em tarefas como perguntas e respostas visuais, reconhecimento óptico de caracteres, compreensão de documentos/tabelas/diagramas e localização visual.De...
02-12 3.5 K0Recomendado
AI Web Operator: automação do navegador, implementação de código aberto do OpenAI Operator
O AI Web Operator é uma ferramenta de operador de navegador de IA de código aberto projetada para simplificar a experiência do usuário no navegador, integrando várias tecnologias de IA e SDKs. Criada com base no Browserbase e no Vercel AI SDK, a ferramenta oferece suporte a uma variedade de modelos de linguagem grande (LLM)...
01-31 3.0 K0Recomendado
SpeechGPT 2.0-preview: um macromodelo de diálogo de fala antropomórfico de ponta a ponta para interação em tempo real
O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real introduzido pelo OpenMOSS, que é treinado em milhões de horas de dados de fala. O SpeechGPT 2.0-previ...
01-30 2.8 K0Recomendado
OpenAI Realtime Agents
O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como as APIs em tempo real da OpenAI podem ser usadas para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite que os desenvolvedores criem sistemas complexos de fala corporal multiinteligente em um curto período de tempo. O projeto ...
01-19 3.5 K0Recomendado
Fiança
O Bailing é um assistente de diálogo de voz de código aberto projetado para estabelecer um diálogo natural com os usuários por meio da fala. O projeto combina tecnologias de reconhecimento de fala (ASR), detecção de atividade de voz (VAD), modelo de linguagem ampla (LLM) e síntese de fala (TTS) para implementar um robô de diálogo de voz semelhante ao GPT-4o. A latência de ponta a ponta do BaiLing ...
01-19 3.4 K0Recomendado