Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

O VLM-R1 usa um paradigma de treinamento híbrido que combina o aprendizado por reforço e o ajuste fino tradicional

2025-09-05 1.8 K

A principal inovação tecnológica desse projeto está na construção de uma estrutura de treinamento híbrida de R1+SFT. A fase R1 usa o aprendizado por reforço por meio do algoritmo Gradient Rewarded Policy Optimization (GRPO), que permite que o modelo domine gradualmente a capacidade de alinhamento visual-verbal em mais de 8 milhões de interações de treinamento. A fase de ajuste fino supervisionado, por outro lado, emprega o Qwen2.5-VL-3B-Instruct como modelo de base e usa 120.000 dados anotados do conjunto de dados RefCOCO para o ajuste fino das instruções.

O processo de treinamento é configurado para uma validação em dois estágios: a primeira rodada otimiza a rede de políticas por meio de 72 horas de aprendizagem por reforço, e a segunda rodada realiza 48 horas de ajuste fino supervisionado. Os testes mostram que esse paradigma híbrido permite que o modelo atinja uma precisão de 78,31 TP3T no conjunto de testes RefCOCOg, uma melhoria de 12,6 pontos percentuais em relação ao aprendizado supervisionado puro. A documentação do projeto fornece detalhes do arquivo de configuração zero3.json do deepspeed para dar suporte aos desenvolvedores na reprodução do processo de treinamento completo.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo