O mecanismo de clonagem de fala do VisionStory usa uma arquitetura híbrida de coeficientes de cepstrum de frequência de mel (MFCC) e vocoder neural. Os usuários só precisam fornecer 1 minuto de áudio nítido, e o sistema pode extrair recursos acústicos de 128 dimensões, incluindo frequência fundamental, picos de ressonância, velocidade de fala, etc., e gerar fala clonada com 99% de similaridade com a fonte original após o treinamento de rede neural profunda. A tecnologia foi aprovada no teste MOS (Mean Opinion Score), com uma pontuação de 4,3 de 5 em uma escala de 5 pontos, que está próxima dos resultados de estúdios profissionais. Por exemplo, uma instituição educacional usou esse recurso para converter em lote o áudio de palestras de professores famosos em vídeos de cursos de IA com vozes personalizadas, economizando 90% em custos de regravação. A plataforma também configura especialmente um mecanismo de armazenamento de criptografia de impressão de voz para garantir a segurança dos dados biométricos do usuário.
Essa resposta foi extraída do artigoVisionStory: geração de vídeos explicativos com IA a partir de imagens e textosO





























