O modelo apresenta vantagens excepcionais em cenários de compreensão multimodal: no campo do guia de compras de comércio eletrônico, ele pode executar comandos complexos, como "descobrir as informações de garantia na página de detalhes do produto"; na direção automática, ele pode responder com precisão a comandos espaciais, como "navegar até a terceira vaga de estacionamento à esquerda". De acordo com o white paper técnico, no teste de cenário de estrada real, a precisão do modelo na identificação de alvos de veículos atingiu 91,2%.
A equipe do projeto fornece uma solução de adaptação de domínio, e os desenvolvedores podem acessar dados personalizados modificando o arquivo de configuração data_config/rec.yaml. Os casos de aplicativos típicos incluem "desligar a lâmpada no canto superior direito da tela" na casa inteligente e "marcar a área arranhada na superfície da chapa de aço" na inspeção de qualidade industrial, etc. A taxa de conclusão de tarefas do modelo pode ser aumentada para mais de 89% após o ajuste fino do domínio. A taxa de conclusão de tarefas pode ser aumentada para mais de 89% depois que o modelo tiver sido ajustado pelo domínio.
Essa resposta foi extraída do artigoVLM-R1: um modelo de linguagem visual para localizar alvos de imagem por meio de linguagem naturalO































