Descrições precisas com a tecnologia Focal Prompting da DAM
As ferramentas tradicionais de anotação de imagens geralmente não levam em conta o contexto global e os detalhes locais. O Describe Anything resolve esse problema com a seguinte solução em três etapas:
- Suporte a várias anotaçõesFornece quatro tipos de rotulagem: ponto/caixa/grafite/máscara, com a mais alta precisão para rotulagem de máscara (que pode ser gerada automaticamente pelo SAM).
- Aplicativos do portfólio de tecnologia::
- Ativar o modo Focal Prompting (ativado por padrão) para otimizar automaticamente as palavras do prompt
- Ativar o mecanismo Gated Cross-Attention para evitar a interferência de informações irrelevantes
- Ajuste max_new_tokens=512 para obter a descrição completa
- Programa de ajuste fino dos parâmetrosQuando a descrição não corresponde às expectativas:
- Redução da temperatura ≤ 0,2 Redução da aleatoriedade
- Defina top_p=0,9 para manter a diversidade
- Validação em tempo real de ajustes usando demo_simple.py
Exemplo típico de aplicação: ao rotular imagens médicas, o DAM pode gerar uma descrição profissional de "lesão oval de 2,3 cm x 1,8 cm com bordas semelhantes a rebarbas e um valor de CT de cerca de 35HU".
Essa resposta foi extraída do artigoDescribe Anything: uma ferramenta de código aberto para gerar descrições detalhadas de imagens e áreas de vídeoO































