Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O OmniInsert é um projeto de pesquisa desenvolvido pelo ByteDance Intelligent Creation Lab. É uma ferramenta que insere perfeitamente qualquer objeto de referência em um vídeo sem o uso de uma máscara. No processo tradicional de edição de vídeo, se você quiser adicionar um novo objeto a um vídeo, geralmente é necessário criar manualmente uma "máscara" precisa para enquadrar o objeto, o que é um processo muito complicado e demorado. O principal recurso do OmniInsert é o uso da tecnologia DTM (Diffusion Transformer Models, modelos de transformador de difusão) para automatizar esse processo. Tudo o que o usuário precisa fazer é fornecer um vídeo original e o objeto que deseja inserir (uma imagem ou outro vídeo) e o modelo mesclará naturalmente o objeto na nova cena. Ele lida automaticamente com a iluminação, as sombras e as cores para fazer com que o objeto inserido pareça já estar na cena. O projeto tem como objetivo enfrentar os principais desafios, como a escassez de dados, a combinação de objetos e cenas e a coordenação, e lançou um projeto chamado InsertBench de novas rubricas para medir sua eficácia.

Lista de funções

  • Inserção sem máscaraA funcionalidade principal elimina a necessidade de os usuários criarem máscaras manualmente, e o modelo insere automaticamente objetos de referência no vídeo de destino.
  • Oferece suporte a várias fontes de referênciaInserção de objetos de referência únicos ou múltiplos é suportada, e as referências podem ser de imagens estáticas ou clipes de vídeo.
  • Integração de cenasAjuste automático da iluminação, das sombras e dos tons dos objetos inseridos para mantê-los alinhados com o estilo do plano de fundo do vídeo e obter um efeito visual harmonioso.
  • A aparência principal é mantida: por meio de um arquivo chamado Subject-Focused Loss para garantir que os objetos inseridos mantenham os detalhes nítidos e a consistência da aparência no vídeo.
  • sensível ao contextoUtilização Context-Aware Rephraser O módulo entende o contexto do vídeo para que os objetos inseridos sejam mais bem integrados à cena original.
  • Pipelines de dados automatizadosO projeto está usando internamente um projeto chamado InsertPipe de um pipeline de dados que pode gerar automaticamente grandes quantidades de dados diversos para treinamento de modelos.

Usando a Ajuda

O OmniInsert é atualmente um projeto de pesquisa e seu código de inferência ainda não foi lançado publicamente. Portanto, ele ainda não está disponível para download e instalação direta pelos usuários em geral. O conteúdo a seguir é baseado em seu relatório técnico publicado, que fornece uma descrição detalhada do possível processo de uso futuro e dos princípios técnicos fundamentais para ajudar os usuários a entender como ele funciona.

Processo de uso pretendido

Quando o código do OmniInsert for lançado, espera-se que o processo de utilização seja muito simples. Os usuários não precisarão mais de softwares e habilidades especializados em edição de vídeo, como o Adobe After Effects ou a tecnologia Dynamic Masking (Rotoscoping) do DaVinci Resolve.

  1. Preparar o material::
    • Vídeo de destinoPrepare um arquivo de vídeo ao qual você deseja adicionar um objeto (por exemplo, um vídeo de uma cena de rua).
    • objeto de referênciaPrepare uma imagem ou um vídeo que contenha o objeto que você deseja inserir (por exemplo, uma foto de uma pessoa específica ou um curta-metragem de um animal de estimação correndo).
  2. fornecer informações::
    • Inicie o programa OmniInsert (por meio da interface de linha de comando ou de uma interface gráfica simples).
    • Especifique o caminho do arquivo do "vídeo de destino" e o caminho do arquivo do "objeto de referência" de acordo com as instruções.
  3. processo de escorva::
    • Execute o comando generate. O modelo começará a analisar cada quadro do vídeo de destino enquanto extrai os principais recursos do objeto de referência.
  4. Fusão e geração automáticas::
    • O modelo reconhece automaticamente o objeto de referência e o "cola" no lugar certo no vídeo de destino.
    • Em segundo plano, o modelo executa cálculos complexos para ajustar o tamanho, o ângulo, a iluminação e a cor dos objetos inseridos para que pareçam parte do vídeo original. Por exemplo, se a cena do vídeo original for pouco iluminada, o objeto inserido será escurecido de acordo.
    • Quando o processamento é concluído, o programa gera um novo arquivo de vídeo. Esse novo vídeo é o resultado que já contém o objeto inserido.

Princípio de desmontagem da tecnologia principal

Para que os usuários entendam como o OmniInsert pode realizar a "inserção sem máscara", apresentaremos as principais tecnologias por trás dele de forma simples:

  1. Modelo de transformador de difusão
    Essa é a base técnica do OmniInsert. Pense nele como um "pintor de restauração" altamente qualificado. O modelo de difusão funciona adicionando repetidamente pequenos pedaços de ruído a uma imagem nítida até que a imagem se torne um floco de neve aleatório. Em seguida, o modelo aprende a "desfazer" o processo passo a passo, ou seja, a recuperar a imagem original nítida dos flocos de neve. No OmniInsert, esse processo é usado para a geração de vídeo: o modelo não apenas recupera a imagem, mas, no processo de recuperação da imagem, ele desenha objetos no vídeo de forma inteligente, com base no "objeto de referência" e no "vídeo de destino" que você fornece como condições. O modelo gera objetos em cada quadro do vídeo, com base nas condições do "objeto de referência" e do "vídeo de destino" fornecidas pelo usuário.
  2. Injeção de recursos específicos da condição
    O mecanismo parece complicado, mas o princípio é simples. O modelo precisa entender duas coisas ao mesmo tempo: como é a cena do "vídeo de destino" e como é o "objeto de referência". Para não confundir essas duas informações, o modelo projeta diferentes "canais" para injetar essas duas informações separadamente. Um canal é dedicado aos recursos do plano de fundo do vídeo (por exemplo, layout da cena, iluminação), e o outro canal é dedicado aos recursos do objeto de referência (por exemplo, a aparência da pessoa, a cor do pelo do gato). Dessa forma, o modelo pode saber claramente "o que colocar onde", de modo a obter um equilíbrio entre o objeto e a cena.
  3. Treinamento progressivo
    Para fazer com que o modelo equilibrasse melhor o fundo do vídeo e o objeto inserido, os pesquisadores usaram um método de treinamento inteligente. Nos estágios iniciais do treinamento, eles fizeram com que o modelo se concentrasse mais no próprio objeto de referência, certificando-se de que o modelo poderia desenhar esse objeto com precisão. Nos estágios posteriores do treinamento, eles aumentaram gradualmente o peso da cena de vídeo de destino, para que o modelo pudesse aprender a integrar naturalmente esse objeto desenhado em seu ambiente. Esse processo é como aprender a desenhar: primeiro aprenda a desenhar pessoas, depois aprenda a desenhar pessoas na paisagem e a lidar com as relações de luz e sombra.
  4. Otimização de preferências insertivas
    Para produzir resultados que sejam esteticamente mais agradáveis para os seres humanos, o projeto também introduz um método de otimização que imita as preferências humanas. Os pesquisadores podem usar um conjunto de critérios de pontuação para dizer ao modelo que tipo de inserção é "boa" (por exemplo, sem emendas, natural) e que tipo de efeito é "ruim" (por exemplo, bordas visíveis, iluminação incompatível). Ao fazer esse ajuste fino, o modelo aprende gradualmente a produzir vídeos mais realistas e agradáveis.

cenário do aplicativo

  1. Pós-produção e efeitos especiais para cinema e televisão
    Na produção de filmes ou TV, muitas vezes é necessário adicionar personagens ou objetos gerados por computador a cenas de ação ao vivo. Os métodos tradicionais são caros e demorados. Com o OmniInsert, pequenos estúdios e até mesmo criadores individuais podem adicionar rapidamente personagens ou adereços virtuais a filmagens de ação ao vivo, reduzindo bastante o limite e o custo da produção de efeitos especiais. Por exemplo, em um curta-metragem de ficção científica, um criador pode inserir facilmente uma imagem de uma criatura alienígena em um vídeo de uma rua da cidade.
  2. Publicidade e marketing
    Os anunciantes podem usar essa tecnologia para conseguir a "colocação virtual de produtos". Por exemplo, um produto recém-lançado (por exemplo, uma bebida, um telefone celular) pode ser perfeitamente inserido em um vídeo ou clipe de filme popular existente sem a necessidade de refazer a cena. Isso não é apenas econômico, mas também permite que você altere rapidamente o produto para atender a diferentes mercados e públicos.
  3. Mídia social e criação de conteúdo
    Para blogueiros de vídeo e criadores de conteúdo, o OmniInsert oferece uma poderosa ferramenta de criação. Eles podem adicionar facilmente emojis populares, personagens de anime ou qualquer elemento interessante da Web a seus vídeos para criar conteúdo mais criativo e divertido que atrairá mais espectadores.
  4. Registros pessoais de recreação e vida
    Os usuários comuns podem usá-lo para criar vídeos familiares divertidos. Por exemplo, insira o personagem de desenho animado favorito do seu filho no vídeo da festa de aniversário dele ou adicione um animal de estimação virtual a um vídeo de gravação diária da vida da sua família para dar um toque de diversão à sua vida.

QA

  1. Qual é a diferença entre o OmniInsert e as técnicas tradicionais de keying de vídeo e tela verde?
    A grande diferença é que o OmniInsert não requer "keying" ou "green-screening". Enquanto as técnicas tradicionais exigem um plano de fundo sólido (por exemplo, verde ou azul) para isolar facilmente o tema, ou exigem que o editor de vídeo desenhe manualmente máscaras quadro a quadro para isolar o tema, o OmniInsert é totalmente automatizado e simplifica o processo, identificando o tema diretamente de uma imagem ou vídeo com um plano de fundo simples e mesclando-o perfeitamente em outro vídeo.
  2. Essa ferramenta pode inserir qualquer tipo de objeto?
    De acordo com o relatório técnico, o modelo foi projetado para suportar a inserção de "objetos de referência arbitrários". Isso significa que um personagem, um animal ou um objeto comum pode, teoricamente, ser usado como fonte de referência. Ele suporta não apenas objetos únicos, mas também vários objetos. No entanto, o resultado final ainda pode ser afetado por fatores como a clareza do objeto de referência, as condições de iluminação e a correspondência com a cena de vídeo de destino.
  3. O uso do OmniInsert é gratuito? Quando o código será liberado?
    O OmniInsert é um projeto de pesquisa cujos documentos de pesquisa estão agora disponíveis publicamente. De acordo com sua página no GitHub, o código, os modelos e os InsertBench O conjunto de dados de revisão está planejado para ser divulgado ao público no futuro para promover pesquisas em áreas relacionadas. O projeto segue a licença de código aberto Apache-2.0, o que significa que, uma vez lançado, provavelmente será gratuito para pesquisa e desenvolvimento.
  4. Que tipo de configuração de computador é necessária para usar essa ferramenta?
    Embora os requisitos específicos não tenham sido anunciados oficialmente, com base no modelo de conversor de difusão que ele usa, pode-se esperar que ele exija altos recursos de computação, especialmente uma GPU (processador gráfico) potente e memória gráfica (VRAM) suficiente. Esses tipos de modelos costumam exigir mais do hardware ao realizar cálculos de inferência, portanto, podem ser executados muito lentamente ou até mesmo ser inviáveis em computadores de consumo ou sem placas gráficas discretas.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil