Inovações tecnológicas na síntese de dados e no treinamento de modelos
O sistema de processamento de dados do UNO consiste em duas tecnologias principais: primeiro, um processo inteligente de aprimoramento de dados com base na modelagem de difusão, capaz de gerar automaticamente amostras de treinamento de várias visualizações e várias cenas a partir de uma única imagem de referência; e, segundo, a introdução de uma estratégia de amostragem de dados com reconhecimento de assunto, que garante que os recursos de cada entidade em uma cena com vários assuntos sejam aprendidos de maneira equilibrada.
Em termos de estratégia de treinamento, a equipe usou um esquema de otimização em três estágios: pré-treinamento com base em dados de uso geral em larga escala, ajuste fino com dados sintéticos e, por fim, uso de treinamento contraditório para melhorar a qualidade dos detalhes. Esse esquema permite que o modelo atinja uma taxa de retenção de recursos de mais de 85% com apenas 1 a 4 imagens de referência. O código de treinamento de código aberto do projeto oferece suporte ao ajuste fino para conjuntos de dados personalizados, e os pesquisadores podem iniciar rapidamente novas tarefas modificando o arquivo de configuração configs/training.yaml.
Essa resposta foi extraída do artigoUNO: suporte para ferramentas de geração de imagens personalizadas de assunto único e de vários assuntos (adequadas para gráficos de comércio eletrônico)O































