A principal inovação tecnológica desse projeto está na construção de uma estrutura de treinamento híbrida de R1+SFT. A fase R1 usa o aprendizado por reforço por meio do algoritmo Gradient Rewarded Policy Optimization (GRPO), que permite que o modelo domine gradualmente a capacidade de alinhamento visual-verbal em mais de 8 milhões de interações de treinamento. A fase de ajuste fino supervisionado, por outro lado, emprega o Qwen2.5-VL-3B-Instruct como modelo de base e usa 120.000 dados anotados do conjunto de dados RefCOCO para o ajuste fino das instruções.
O processo de treinamento é configurado para uma validação em dois estágios: a primeira rodada otimiza a rede de políticas por meio de 72 horas de aprendizagem por reforço, e a segunda rodada realiza 48 horas de ajuste fino supervisionado. Os testes mostram que esse paradigma híbrido permite que o modelo atinja uma precisão de 78,31 TP3T no conjunto de testes RefCOCOg, uma melhoria de 12,6 pontos percentuais em relação ao aprendizado supervisionado puro. A documentação do projeto fornece detalhes do arquivo de configuração zero3.json do deepspeed para dar suporte aos desenvolvedores na reprodução do processo de treinamento completo.
Essa resposta foi extraída do artigoVLM-R1: um modelo de linguagem visual para localizar alvos de imagem por meio de linguagem naturalO































