Esquema de aprimoramento da precisão da tarefa multimodal
As estratégias de otimização para tarefas de compreensão de imagens incluem:
- aprimoramento do pré-processamento: em
preprocessors/vision.py
ajuste do estágio centralaugmentation_level
Aprimoramento paramétrico da qualidade de entrada - fusão de modelosModelos combinados CLIP e BLIP, modificados
multimodal_strategy
para conjunto - Calibração pós-processamento: Habilitar
--post_verify
Os parâmetros permitem que as inteligências textuais calibrem secundariamente os resultados visuais - adaptação do domínio: Uso
finetune_vision.sh
Os scripts ajustam os modelos em dados de domínio especializado
Os dados de teste mostram que o uso do esquema de fusão de modelos + calibração pós-processamento melhora a precisão de 68% para 82% na tarefa de descrição de imagens médicas.
Essa resposta foi extraída do artigoJoyAgent-JDGenie: uma estrutura de inteligência múltipla de código aberto para dar suporte ao processamento automatizado de tarefas complexasO