O projeto foi concebido para ser uma solução de engenharia completa para as necessidades do desenvolvedor. O script de download automático integrado no nível de dados é compatível com os conjuntos de dados COCO2014 e RefCOCO, e o arquivo de configuração YAML de suporte padroniza o pipeline de dados. A sessão de treinamento fornece scripts distribuídos de várias GPUs para dar suporte à aceleração do Flash Attention e à precisão mista do BF16, e o servidor A100 de 8 placas pode concluir o ajuste fino completo dos parâmetros dos modelos paramétricos 3B.
Em termos de implementação, o projeto integra a interface de inferência HuggingFace e o sistema de demonstração Gradio, que permite aos usuários chamar o modelo treinado diretamente por meio da API. Os testes mostram que a velocidade de inferência de uma única placa de vídeo RTX4090 atinge 23,5 FPS depois que o Flash Attention é ativado, e o projeto também inclui scripts de teste no diretório eval, que oferecem suporte ao cálculo automático de mAP, Recall@1 e outros indicadores para formar um loop fechado completo de desenvolvimento de modelos.
Essa resposta foi extraída do artigoVLM-R1: um modelo de linguagem visual para localizar alvos de imagem por meio de linguagem naturalO































