Análise de áudio precisa e tecnologia de previsão de padrões
A chave para a excelente sincronização da boca do LiteAvatar é sua profunda integração da tecnologia ASR avançada da plataforma ModelScope. Os destaques técnicos do sistema incluem:
- Uso da arquitetura de rede neural híbrida para lidar com o reconhecimento de fala e a extração de recursos visuais simultaneamente
- Construiu uma biblioteca visual de pronúncia completa contendo dezenas de padrões básicos de boca
- Obtenção de mapeamento não linear de fonemas para peças bucais para lidar com fenômenos complexos de articulação sinérgica
- Incorpora um mecanismo de adaptação à velocidade para garantir um desempenho natural em velocidades rápidas e lentas.
Testes reais mostram que a precisão do reconhecimento do sistema para mandarim chinês excede 95%, e o suporte ao inglês também atinge um nível profissional. Juntamente com o algoritmo de suavização de tempo especialmente desenvolvido, a animação gerada evita completamente os problemas de jitter e atraso da boca comumente encontrados nas soluções tradicionais.
Essa resposta foi extraída do artigoLiteAvatar: retratos 2D orientados por áudio de pessoas digitais interativas em tempo real, executados a 30 fps na CPUO































