Histórico da questão
Os VLMs tradicionais geralmente sofrem com a degradação repentina do desempenho em tarefas entre domínios, e o R1-V permite que o modelo obtenha excelentes recursos de generalização com pequenas quantidades de dados, projetando funções de recompensa verificáveis.
Principais tecnologias
- Cálculo dinâmico de recompensas::
- Pontuação de alinhamento entre imagem e texto (similaridade CLIP)
- Verificação da conformidade lógica (por meio de uma rede de pequenos verificadores)
- Avaliação conceitual da cobertura (com base na análise dos mecanismos de atenção)
- Aprimoramento em vários estágios::
- Nível elementar: reforço do reconhecimento básico de objetos
- Nível intermediário: compreensão aprimorada das relações espaciais
- Nível avançado: reforço de habilidades de raciocínio complexas
Método de implementação
- Preparar conjuntos de validação contendo de 5 a 10 tarefas de vários domínios
- Personalize a função de prêmios em r1v/rewards.py:
- Adição de itens de avaliação de adaptação de domínio
- Definição de fatores de ponderação de recompensas dinâmicas
- Carregamento de modelos pré-treinados usando a interface model.finetune()
- 3-5 iterações de reforço por meio do pipeline RLHF
Verificação da eficácia
Recomenda-se o seguinte programa de avaliação:
- Teste de pontuações estéticas no conjunto de dados Aesthetics não visualizado
- Avaliação do raciocínio usando referências de VCR
- Teste de generalização combinatória com o Winoground
Essa resposta foi extraída do artigoR1-V: Aprendizado de reforço de baixo custo para a capacidade de generalização de modelos de linguagem visualO































