O VLM-R1 é um modelo de IA multimodal desenvolvido pelo Om AI Lab com base na metodologia DeepSeek R1, com o recurso principal de associar com precisão comandos de linguagem natural a conteúdo visual. O projeto combina de forma inovadora as vantagens arquitetônicas do modelo Qwen2.5-VL e adota as estratégias de otimização dupla de aprendizado por reforço (R1) e ajuste fino supervisionado (SFT), o que permite que o modelo tenha um bom desempenho na tarefa de Compreensão de Expressão de Representação (REC). Exemplos típicos incluem a análise de instruções como "Onde está a xícara vermelha na imagem?" e a localização precisa do objeto-alvo na forma de uma caixa delimitadora ou coordenadas.
Em termos de implementação técnica, o projeto adota o algoritmo de aprendizagem por reforço GRPO para otimizar os parâmetros do modelo e trabalha com o treinamento de precisão mista bfloat16 para aumentar a eficiência computacional. A comunidade de código aberto oferece suporte aos conjuntos de dados padrão COCO e RefCOCO, incluindo 340.000 imagens de treinamento e 120.000 anotações de dedos, para garantir que o modelo tenha excelente capacidade de generalização. O projeto obteve quase 2.000 rótulos com estrelas em três meses após a abertura do código-fonte no GitHub, o que comprova a vanguarda de sua solução técnica.
Essa resposta foi extraída do artigoVLM-R1: um modelo de linguagem visual para localizar alvos de imagem por meio de linguagem naturalO































