O sistema de interação em tempo real da Yuanzhen Digital Human Platform resolve os principais pontos problemáticos dos aplicativos de humanos digitais virtuais. Sua tecnologia orientada por voz adota uma arquitetura de rede neural de ponta a ponta, que pode transformar sinais de voz em formato de boca, expressão e movimentos corporais de uma pessoa digital em tempo real, com latência controlada em 200 milissegundos.
Os principais avanços tecnológicos incluem:
- Algoritmo de extração de recursos de fala de alta precisão, compatível com o reconhecimento de mandarim e vários dialetos.
- Modelos generativos intermodais para o mapeamento preciso da fala para representações visuais
- Mecanismo de renderização adaptável para garantir um desempenho consistente em diferentes dispositivos finais
Em termos de transmissão ao vivo em várias plataformas, o sistema adota uma arquitetura de fluxo distribuído, que pode sincronizar a distribuição de conteúdo ao vivo para as principais plataformas, como Joyo, Taobao e Shutterbugs, e manter a consistência das interações em tempo real entre as plataformas. Essa combinação de tecnologias permite que as transmissões ao vivo com humanos digitais tenham um senso de presença e interatividade comparável ao de âncoras reais e, ao mesmo tempo, obtenham um efeito de escala que as transmissões ao vivo tradicionais não conseguem alcançar.
Essa resposta foi extraída do artigoYuanzhen Digital Human: transmissão ao vivo de humanos digitais, vídeo oral curto, ferramenta comercial de transmissão ao vivo de humanos virtuais de IAO































