Sistema de avaliação padronizado do Step1X-Edit
O GEdit-Bench é um componente essencial do projeto Step1X-Edit, estabelecendo a primeira referência de avaliação padronizada para o campo da edição de imagens em linguagem natural. O conjunto de testes contém um grande número de comandos de edição do usuário e os resultados esperados correspondentes em cenários do mundo real, abrangendo uma ampla gama de tipos de tarefas, desde a simples remoção de objetos até transições de estilo complexas. As métricas de avaliação levam em conta várias dimensões, como a precisão da adesão ao comando, a retenção da qualidade da imagem e a naturalidade da imagem editada.
Em comparação com os métodos de avaliação tradicionais que se concentram apenas na qualidade da geração de imagens, o GEdit-Bench dá ênfase especial à compreensão e à realização precisas da intenção editorial. O conjunto de testes contém comandos em chinês e inglês, o que permite uma avaliação abrangente do desempenho do modelo em ambientes de idiomas diferentes. A equipe do projeto usou o benchmark para validar o desempenho do Step1X-Edit próximo aos modelos comerciais, como o GPT-4o, e também forneceu uma direção clara de otimização para que outros pesquisadores aprimorassem seus modelos.
O design aberto e padronizado do GEdit-Bench faz dele o padrão de fato para os acadêmicos avaliarem novos algoritmos, e a página do projeto no GitHub detalha o protocolo de teste e os critérios de pontuação, permitindo que os pesquisadores usem ou ampliem esse sistema de avaliação diretamente. Esse método de medição padronizado preenche uma lacuna na falta de avaliação sistemática de ferramentas de edição de imagens de código aberto.
Essa resposta foi extraída do artigoStep1X-Edit: uma ferramenta de código aberto para editar imagens com instruções em linguagem naturalO































