Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O CanonSwap é um projeto de pesquisa e uma estrutura que se concentra na tecnologia de substituição de faces em vídeos. Ele se concentra na solução de um desafio central das tecnologias existentes: ao substituir o rosto de um personagem em um vídeo, muitas vezes são destruídos os atributos dinâmicos da expressão do personagem, o movimento da cabeça e a sincronização da boca no vídeo original, resultando em um efeito de troca de rosto não natural e instável.

Para resolver esse problema, a CanonSwap criou uma abordagem inovadora. Primeiro, ele transforma cada quadro do vídeo no chamado Espaço Canônico. Nesse espaço especial, as informações sobre a aparência e o movimento de um rosto (por exemplo, expressão, gesto) são separadas umas das outras. Dessa forma, os pesquisadores podem modificar apenas as informações de aparência sem afetar os movimentos e as expressões originais. Após a substituição do rosto, as imagens são "convidadas a voltar" desse espaço canônico para o vídeo original, e suas informações de movimento originais são devolvidas.

Dessa forma, o CanonSwap é capaz de gerar efeitos de troca de rosto de alta qualidade visual, manter as informações de identidade intactas e mover-se de forma consistente, sem oscilações, durante a reprodução do vídeo. O projeto também desenvolveu um módulo chamado "Partial Identity Modulation (PIM)", que funde com mais precisão os recursos do novo rosto na região facial de destino, reduzindo assim a distorção da imagem e as modificações desnecessárias.

Lista de funções

  • Migração de identidade de alta qualidadeRosto: A capacidade de migrar um rosto em uma imagem (origem) para um rosto em um vídeo (destino) com alta fidelidade, reduzindo a distorção da imagem e os artefatos.
  • consistência de tempoA transição entre os quadros do vídeo de troca de rosto gerado é suave e natural, evitando efetivamente os problemas de oscilação e tremulação comumente encontrados nos métodos tradicionais.
  • Retenção dinâmica de atributosA postura original da cabeça, a expressão facial, a sincronização da boca e outros recursos dinâmicos do personagem no vídeo de destino são completamente mantidos, tornando o efeito de troca de rosto mais realista.
  • Movimento e aparência desacopladosA tecnologia principal para o transplante facial de alta qualidade é a separação das informações de aparência facial e movimento por meio de uma estrutura inovadora de transformação de "espaço normativo".
  • Modulação de identidade local (PIM)Módulo especialmente projetado que reconhece e modifica com precisão apenas as áreas faciais, evitando efeitos indesejados em áreas não faciais do vídeo.
  • Geração de animação facialAlém da troca de faces, a estrutura também oferece suporte à funcionalidade de animação facial, que permite a condução de faces estáticas aplicando expressões e movimentos da imagem de origem à imagem de destino.

Usando a Ajuda

O CanonSwap é uma estrutura de troca de faces de vídeo baseada em aprendizagem profunda, e não um software com interface gráfica de usuário, que não pode ser baixado e instalado diretamente para uso por usuários comuns. Ele é usado principalmente por pesquisadores ou desenvolvedores com experiência em programação e IA para configurar o ambiente e executar o código para implementar a troca de faces de vídeo.

A ajuda de uso hipotética a seguir foi elaborada com base em seus princípios técnicos e no fluxo geral do projeto de IA, e tem o objetivo de ajudar a entender seu fluxo de trabalho:

Etapa 1: Preparação ambiental

Como um projeto de IA, a execução do CanonSwap requer um computador configurado com um ambiente de aprendizagem profunda.

  1. softwarePlaca de vídeo NVIDIA (GPU) de boa qualidade é necessária porque os modelos de aprendizagem profunda são muito intensivos em termos de computação.
  2. hardware::
    • Sistema operacional: geralmente Linux (por exemplo, Ubuntu).
    • Linguagem de programação: Python 3.x.
    • Estruturas de aprendizagem profunda: PyTorch ou TensorFlow, etc. precisam ser instaladas.
    • Outras bibliotecas dependentes: várias bibliotecas Python, como OpenCV (para processamento de imagem e vídeo), NumPy (para computação científica) etc., precisam ser instaladas. Normalmente, os projetos fornecem uma bibliotecarequirements.txtvocê pode usar o comandopip install -r requirements.txtpara instalar todas as bibliotecas necessárias em um clique.

Etapa 2: Obter documentos do projeto

  1. Os desenvolvedores precisam fazer download da plataforma de hospedagem de código do projeto (por exemplo, GitHub)CanonSwapO código-fonte do
  2. Também é necessário fazer o download dos arquivos de modelos treinados do projeto (modelos pré-treinados). Esses arquivos, que foram treinados em uma grande quantidade de dados, contêm os dados principais para a implementação do recurso de troca de faces e geralmente são grandes.

Etapa 3: Preparar o material de entrada

  1. Imagem de origemImagem: Uma imagem nítida de um rosto que você deseja trocar em um vídeo.
  2. Vídeo de destinoVídeo: um vídeo no qual os rostos serão substituídos.

Etapa 4: Executar a operação de troca de face (processo principal)

Os desenvolvedores executam os scripts do CanonSwap por meio de uma ferramenta de linha de comando que executa automaticamente os seguintes processos técnicos complexos nos bastidores:

  1. script de inicializaçãoNo terminal (interface de linha de comando), digite um comando semelhante ao seguinte para iniciar o trocador de faces:
    python run_inference.py --source_image path/to/source_face.jpg --target_video path/to/target_video.mp4 --output_video path/to/result.mp4
    ```2.  **身份特征提取**:程序首先会运行一个“身份编码器”(ID encoder),从你提供的`源图片`中提取出核心的面部身份特征。
    
  2. Acesso ao espaço normativo::
    • Em seguida, o programa o processa quadro a quadro目标视频.
    • Um extrator de movimento analisa cada quadro em busca de informações de movimento, como a postura e a expressão da cabeça.
    • Com base nessas informações de movimento, o programa "distorce" ou "transforma" cada quadro em uma pose padronizada, que é chamada de "espaço normativo". Esse estado é chamado de "espaço normativo". Nesse espaço, todos os quadros têm o rosto voltado para a frente, sem alteração na expressão.
  3. Realizar a troca de rosto (modulação de identidade local)::
    • No espaço canônico, os recursos de identidade extraídos anteriormente da imagem de origem são fundidos com precisão à região facial do quadro de destino por meio do módulo "Local Identity Modulation (PIM)".
    • O módulo PIM gera uma máscara espacial que garante que as modificações sejam feitas apenas em áreas importantes, como olhos, nariz e boca, enquanto áreas como o fundo e o cabelo permanecem inalteradas.
  4. Retornar ao espaço original::
    • A imagem espacial canônica do rosto alterado é "distorcida reversamente" de volta à sua pose e expressão originais usando as informações de movimento registradas na etapa 3.
    • Esse processo garante que os movimentos e as expressões do personagem sejam exatamente os mesmos do vídeo original após a colocação do novo rosto.
  5. Gerar resultadosTodos os quadros processados são recompostos em um novo arquivo de vídeo (por exemplo, oresult.mp4), e este é o resultado final da troca de faces.

Por meio dessa série de etapas automatizadas, oCanonSwapA complexa tarefa de preservar a dinâmica nativa do vídeo e, ao mesmo tempo, realizar uma substituição de identidade de alta qualidade foi finalmente alcançada.

cenário do aplicativo

  1. pós-produção
    Na produção de filmes ou TV, ele pode ser usado para mudar o rosto de dublês ou para fazer tomadas quando os atores não estão disponíveis. Ao preservar a dinâmica e as expressões do desempenho original, o custo e a dificuldade da pós-produção podem ser significativamente reduzidos.
  2. Avatares de IA e criação de conteúdo digital
    Os criadores podem usar essa tecnologia para dar a qualquer rosto humano expressões e movimentos vívidos para âncoras virtuais, atendimento ao cliente digital ou personagens de jogos, permitindo uma representação mais natural e vívida dos personagens virtuais.
  3. Educação e treinamento
    Ele pode ser usado para criar vídeos instrutivos de apresentação, como a aplicação de rostos de figuras históricas a atores para criar um conteúdo de ensino de história mais imersivo.
  4. Entretenimento e mídia social
    Os usuários podem criar vídeos curtos e divertidos nas mídias sociais, como trocar seu próprio rosto ou o de um amigo por um clipe de filme clássico ou celebridade, mantendo as excelentes performances do vídeo original.

QA

  1. O software CanonSwap é para pessoas comuns?
    Não. O CanonSwap é uma estrutura técnica destinada a pesquisadores e desenvolvedores com experiência em IA e programação. Ele não fornece software de GUI que possa ser usado diretamente pelo usuário comum e precisa ser operado por meio de código e linha de comando.
  2. Como essa tecnologia é diferente dos aplicativos de troca de rosto comuns no mercado?
    Os aplicativos de troca de rosto existentes no mercado geralmente se concentram mais no entretenimento e na facilidade de uso, e podem perder alguns detalhes ou produzir tremores ao processar vídeos, enquanto o CanonSwap é um projeto de pesquisa acadêmica que se concentra na solução dos principais problemas técnicos, e seu principal objetivo é obter "alta fidelidade" e "estabilidade temporal". Seu principal objetivo é obter "alta fidelidade" e "estabilidade temporal", ou seja, ao mesmo tempo em que preserva os recursos de identidade, sincroniza totalmente os atributos dinâmicos do vídeo original (por exemplo, expressões, bocas, gestos), de modo que o resultado da troca de rostos possa atingir o nível de estabilidade e realismo de filmes e TV.
  3. É falso usar o CanonSwap para troca de faces?
    De acordo com seu artigo de pesquisa, o CanonSwap é significativamente melhor do que muitos métodos existentes. Ao desacoplar as informações de movimento e aparência, o CanonSwap resolve especificamente os problemas de "rosto rígido", expressões incompatíveis e cintilação em vídeos de troca de rosto e produz vídeos com excelente qualidade visual e consistência.
  4. Que tipo de animação facial o CanonSwap pode fazer?
    Além de trocar o rosto de A pelo vídeo de B, o CanonSwap também pode aplicar as expressões e os movimentos de A ao rosto de B. Isso significa que você pode usar um vídeo para conduzir uma imagem estática e fazer com que as pessoas na imagem se movam da mesma forma que no vídeo, o que tem um grande potencial de aplicação em cenários como unidades de avatar.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil