Arquitetura de sistema e convergência de tecnologia da Linly-Talker
O Linly-Talker cria uma nova geração de paradigma de interação humana digital ao integrar profundamente o processamento de linguagem natural e as pilhas de tecnologia de visão computacional. O sistema adota um design modular, integrando quatro componentes principais: reconhecimento de fala Whisper, modelo de linguagem grande Linly, síntese de fala Microsoft TTS e geração de visão SadTalker. Na arquitetura subjacente, esses módulos alcançam a interoperabilidade de dados por meio de interfaces API, formando um link de processamento completo de entrada de fala - compreensão semântica - geração de conteúdo - saída visual. O destaque da tecnologia se reflete em seu recurso de fusão multimodal, que pode traduzir com precisão a semântica do texto em expressões faciais e movimentos da boca de humanos digitais, alcançando uma precisão de sincronização labial de mais de 95%.
- Camada de compreensão do idioma: baseada no modelo Linly-7B com 7 bilhões de parâmetros, que oferece suporte à compreensão de contextos mistos em chinês e inglês
- Camada de apresentação visual: usando a tecnologia de reencenação facial 3D do SadTalker, renderizando 30 quadros por segundo
- Camada de controle de interação: rastreador de estado de diálogo (DST) integrado para manter mais de 20 rodadas de diálogo contínuo
Essa resposta foi extraída do artigoLinly-Talker: sistema de diálogo inteligente para pessoas digitais, combinando grandes modelos de linguagem e modelos visuais para novas experiências interativasO































