preliminar
Para tarefas de detecção de alvos em cenários específicos (por exemplo, imagens médicas/CQ industrial), o R1-V oferece dois esquemas de aprendizado de migração: extrator de recursos e ajuste fino de ponta a ponta.
Opções de programa
| volume de dados | Programa recomendado | PMA esperado |
|---|---|---|
| <500 folhas | Codificador Freeze Vision | 45-55% |
| 500-2000 folhas | Ajuste fino parcial | 60-70% |
| >2000 folhas | treinamento de parâmetros completos | 75%+ |
Principais etapas
- Anotação de dados: usando a ferramenta LabelImg para gerar anotações no formato PASCAL VOC
- Pré-processamento:
- Redimensionamento da imagem para 384 x 384
- Aplicar aprimoramentos do ColorJitter
- Gerar arquivos de anotação no formato COCO
- Modificar detection/configs/r1v_detection.yaml:
- Ajuste do parâmetro num_classes
- Configuração de anchor_size para corresponder ao tamanho de destino
- Iniciar o treinamento: python tools/train.py -config configs/r1v_detection.yaml
Dicas de otimização de desempenho
- Mineração de amostra difícil: ativação da perda focal em loss_func.py
- Treinamento em várias escalas: defina multi_scale=[0.8,1.2]
- Aprimoramentos durante o teste: Habilitação do módulo TTA para melhorar as taxas de detecção de alvos pequenos
Essa resposta foi extraída do artigoR1-V: Aprendizado de reforço de baixo custo para a capacidade de generalização de modelos de linguagem visualO































