O delegado entende os procedimentos operacionais da missão
O VLM-R1 é particularmente bom na tarefa de Compreensão de Expressão Referencial (REC). Veja abaixo os detalhes de como usá-lo:
fase de treinamento
- Faça o download dos conjuntos de dados necessários: incluindo o conjunto de dados de imagem COCO Train2014 e o arquivo de anotação RefCOCO
- Configure os parâmetros de treinamento: modifique o script de treinamento no diretório src/open-r1-multimodal
- Iniciar o treinamento: use o comando de treinamento multi-GPU, por exemplo: torchrun -nproc_per_node=8 ...
estágio de inferência
- Vá para o diretório eval: cd src/eval
- Execute o script de teste: python test_rec_r1.py -model_path ...
- Forneça entrada: carregue uma imagem e insira uma pergunta em linguagem natural, como "Onde está o carro azul na imagem?"
Exemplo de entrada/saída
- importação: uma imagem contendo vários objetos + uma consulta em linguagem natural (por exemplo, "encontre a xícara vermelha no canto inferior direito da imagem")
- exportaçõesCoordenadas da caixa de limite ou descrição posicional do objeto de destino
advertência
Para dados personalizados, você pode modificar o arquivo de configuração data_config/rec.yaml para adicionar seus próprios caminhos de imagem e arquivos de anotação.
Essa resposta foi extraída do artigoVLM-R1: um modelo de linguagem visual para localizar alvos de imagem por meio de linguagem naturalO































