Posição atual:fig. início " Respostas da IA

O que é o Qwen 2.5-VL e que melhorias ele oferece em relação ao seu antecessor?

2025-09-10

1.8 K

O Qwen2.5-VL é um grande modelo multimodal de código aberto desenvolvido pela equipe do Alibaba Cloud Qwen, capaz de processar dados multimodais como texto, imagens, vídeos e documentos simultaneamente. Como uma versão atualizada do Qwen2-VL, ele foi desenvolvido com base no modelo de linguagem Qwen2.5, mais avançado.

Em comparação com seu antecessor, o Qwen 2.5-VL oferece melhorias significativas nas seguintes áreas principais:

Recursos aprimorados de análise de documentos para extrair melhor textos manuscritos, tabelas, gráficos e fórmulas químicas
Melhoria na compreensão de vídeos, apoiando a análise de vídeos muito longos, com mais de uma hora de duração, e identificando clipes de eventos até o segundo nível
Funcionalidade de agente inteligente otimizada para um controle mais preciso do seu computador ou telefone celular por meio de comandos visuais e textuais
Suporta modelos com tamanhos de parâmetros maiores (até 72B), adequados para cenários de aplicação com diferentes requisitos aritméticos
Em termos de métricas de desempenho, ele tem um bom desempenho em vários testes, com algumas métricas superando até mesmo os modelos de código fechado

Essa resposta foi extraída do artigoQwen2.5-VL: um grande modelo multimodal de código aberto para análise de documentos de imagem e vídeoO

O que é o Qwen 2.5-VL e que melhorias ele oferece em relação ao seu antecessor?

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

O que é o Qwen 2.5-VL e que melhorias ele oferece em relação ao seu antecessor?

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida