O Linly-Talker é um sistema inovador de diálogo digital humano inteligente desenvolvido e de código aberto pela equipe do Kedreamix. O sistema cria uma experiência de interação humano-computador altamente realista, integrando tecnologias multimodais que combinam modelos de linguagem grandes (LLMs) com modelos visuais.
Sua pilha de tecnologia principal consiste principalmente em:
- Módulo de processamento de falaIntegração do Whisper e do FunASR para reconhecimento de fala, Microsoft TTS para síntese de fala
- Módulo de compreensão do idiomaMecanismo de diálogo baseado no modelo de linguagem grande da Linly
- Módulo de geração de visãoImplementação da geração de pessoas digitais usando o SadTalker, com suporte à síntese de animação facial
- Sistema de clonagem de somIntegração do modelo GPT-SoVITS para dar suporte à clonagem de fala personalizada
- RTICMódulo MuseTalk para respostas de diálogo de baixa latência
Essas tecnologias trabalham em conjunto para permitir que o sistema lide com tarefas complexas, como diálogos de upload de imagens, geração de legendas de vídeo e diálogos situacionais de várias rodadas, obtendo uma experiência de interação mais natural do que os sistemas de diálogo tradicionais.
Essa resposta foi extraída do artigoLinly-Talker: sistema de diálogo inteligente para pessoas digitais, combinando grandes modelos de linguagem e modelos visuais para novas experiências interativasO































