Posição atual:fig. início " Respostas da IA

Como posso usar o VLM-R1 para tarefas de compreensão de representação de dedos?

2025-09-05

1.8 K

O delegado entende os procedimentos operacionais da missão

O VLM-R1 é particularmente bom na tarefa de Compreensão de Expressão Referencial (REC). Veja abaixo os detalhes de como usá-lo:

fase de treinamento

Faça o download dos conjuntos de dados necessários: incluindo o conjunto de dados de imagem COCO Train2014 e o arquivo de anotação RefCOCO
Configure os parâmetros de treinamento: modifique o script de treinamento no diretório src/open-r1-multimodal
Iniciar o treinamento: use o comando de treinamento multi-GPU, por exemplo: torchrun -nproc_per_node=8 ...

estágio de inferência

Vá para o diretório eval: cd src/eval
Execute o script de teste: python test_rec_r1.py -model_path ...
Forneça entrada: carregue uma imagem e insira uma pergunta em linguagem natural, como "Onde está o carro azul na imagem?"

Exemplo de entrada/saída

importação: uma imagem contendo vários objetos + uma consulta em linguagem natural (por exemplo, "encontre a xícara vermelha no canto inferior direito da imagem")
exportaçõesCoordenadas da caixa de limite ou descrição posicional do objeto de destino

advertência

Para dados personalizados, você pode modificar o arquivo de configuração data_config/rec.yaml para adicionar seus próprios caminhos de imagem e arquivos de anotação.

Essa resposta foi extraída do artigoVLM-R1: um modelo de linguagem visual para localizar alvos de imagem por meio de linguagem naturalO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " Como posso usar o VLM-R1 para tarefas de compreensão de representação de dedos?

Como posso usar o VLM-R1 para tarefas de compreensão de representação de dedos?

O delegado entende os procedimentos operacionais da missão

fase de treinamento

estágio de inferência

Exemplo de entrada/saída

advertência

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Como posso usar o VLM-R1 para tarefas de compreensão de representação de dedos?

O delegado entende os procedimentos operacionais da missão

fase de treinamento

estágio de inferência

Exemplo de entrada/saída

advertência

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida