Posição atual:fig. início " Respostas da IA

O VLM-R1 é um modelo de linguagem visual de código aberto para localização de alvos de imagem por meio de linguagem natural

2025-09-05

1.9 K

O VLM-R1 é um modelo de IA multimodal desenvolvido pelo Om AI Lab com base na metodologia DeepSeek R1, com o recurso principal de associar com precisão comandos de linguagem natural a conteúdo visual. O projeto combina de forma inovadora as vantagens arquitetônicas do modelo Qwen2.5-VL e adota as estratégias de otimização dupla de aprendizado por reforço (R1) e ajuste fino supervisionado (SFT), o que permite que o modelo tenha um bom desempenho na tarefa de Compreensão de Expressão de Representação (REC). Exemplos típicos incluem a análise de instruções como "Onde está a xícara vermelha na imagem?" e a localização precisa do objeto-alvo na forma de uma caixa delimitadora ou coordenadas.

Em termos de implementação técnica, o projeto adota o algoritmo de aprendizagem por reforço GRPO para otimizar os parâmetros do modelo e trabalha com o treinamento de precisão mista bfloat16 para aumentar a eficiência computacional. A comunidade de código aberto oferece suporte aos conjuntos de dados padrão COCO e RefCOCO, incluindo 340.000 imagens de treinamento e 120.000 anotações de dedos, para garantir que o modelo tenha excelente capacidade de generalização. O projeto obteve quase 2.000 rótulos com estrelas em três meses após a abertura do código-fonte no GitHub, o que comprova a vanguarda de sua solução técnica.

Essa resposta foi extraída do artigoVLM-R1: um modelo de linguagem visual para localizar alvos de imagem por meio de linguagem naturalO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " O VLM-R1 é um modelo de linguagem visual de código aberto para localização de alvos de imagem por meio de linguagem natural