Posição atual:fig. início " Respostas da IA

O VLM-R1 é particularmente adequado para cenários de interação visual-verbal na área de atendimento ao cliente inteligente e direção autônoma

2025-09-05

1.8 K

O modelo apresenta vantagens excepcionais em cenários de compreensão multimodal: no campo do guia de compras de comércio eletrônico, ele pode executar comandos complexos, como "descobrir as informações de garantia na página de detalhes do produto"; na direção automática, ele pode responder com precisão a comandos espaciais, como "navegar até a terceira vaga de estacionamento à esquerda". De acordo com o white paper técnico, no teste de cenário de estrada real, a precisão do modelo na identificação de alvos de veículos atingiu 91,2%.

A equipe do projeto fornece uma solução de adaptação de domínio, e os desenvolvedores podem acessar dados personalizados modificando o arquivo de configuração data_config/rec.yaml. Os casos de aplicativos típicos incluem "desligar a lâmpada no canto superior direito da tela" na casa inteligente e "marcar a área arranhada na superfície da chapa de aço" na inspeção de qualidade industrial, etc. A taxa de conclusão de tarefas do modelo pode ser aumentada para mais de 89% após o ajuste fino do domínio. A taxa de conclusão de tarefas pode ser aumentada para mais de 89% depois que o modelo tiver sido ajustado pelo domínio.

Essa resposta foi extraída do artigoVLM-R1: um modelo de linguagem visual para localizar alvos de imagem por meio de linguagem naturalO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " O VLM-R1 é particularmente adequado para cenários de interação visual-verbal na área de atendimento ao cliente inteligente e direção autônoma