Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

Como posso usar o VLM-R1 para tarefas de compreensão de representação de dedos?

2025-09-05 1.8 K

O delegado entende os procedimentos operacionais da missão

O VLM-R1 é particularmente bom na tarefa de Compreensão de Expressão Referencial (REC). Veja abaixo os detalhes de como usá-lo:

fase de treinamento

  1. Faça o download dos conjuntos de dados necessários: incluindo o conjunto de dados de imagem COCO Train2014 e o arquivo de anotação RefCOCO
  2. Configure os parâmetros de treinamento: modifique o script de treinamento no diretório src/open-r1-multimodal
  3. Iniciar o treinamento: use o comando de treinamento multi-GPU, por exemplo: torchrun -nproc_per_node=8 ...

estágio de inferência

  1. Vá para o diretório eval: cd src/eval
  2. Execute o script de teste: python test_rec_r1.py -model_path ...
  3. Forneça entrada: carregue uma imagem e insira uma pergunta em linguagem natural, como "Onde está o carro azul na imagem?"

Exemplo de entrada/saída

  • importação: uma imagem contendo vários objetos + uma consulta em linguagem natural (por exemplo, "encontre a xícara vermelha no canto inferior direito da imagem")
  • exportaçõesCoordenadas da caixa de limite ou descrição posicional do objeto de destino

advertência

Para dados personalizados, você pode modificar o arquivo de configuração data_config/rec.yaml para adicionar seus próprios caminhos de imagem e arquivos de anotação.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo