GLM-4.5V: um modelo de diálogo multimodal capaz de compreender imagens e vídeos e gerar código
O GLM-4.5V é uma nova geração do Visual Language Megamodel (VLM) desenvolvido pela Zhipu AI (Z.AI). O modelo é construído com base no modelo de texto principal GLM-4.5-Air usando a arquitetura MOE, com 106 bilhões de referências totais, incluindo 12 bilhões de parâmetros de ativação. O GLM-4.5V não só processa imagens e textos, mas também entende a linguagem visual...
ARC-Hunyuan-Video-7B: um modelo inteligente para entender o conteúdo de vídeos curtos
O ARC-Hunyuan-Video-7B é um modelo multimodal de código aberto desenvolvido pelo ARC Lab da Tencent que se concentra na compreensão do conteúdo de vídeos curtos gerados pelo usuário. Ele oferece uma análise estruturada e aprofundada, integrando informações visuais, de áudio e textuais dos vídeos. O modelo pode lidar com elementos visuais complexos, informações de áudio de alta densidade...
GLM-4.1V-Thinking: um modelo de inferência visual de código aberto para dar suporte a tarefas multimodais complexas
O GLM-4.1V-Thinking é um modelo de linguagem visual de código aberto desenvolvido pelo Laboratório KEG da Universidade de Tsinghua (THUDM), com foco em recursos de raciocínio multimodal. Com base no modelo básico GLM-4-9B-0414, o GLM-4.1V-Thinking usa aprendizado por reforço e mecanismos de raciocínio de "cadeia mental" para...
VideoMind
O VideoMind é uma ferramenta de IA multimodal de código aberto que se concentra em inferência, perguntas e respostas e geração de resumo para vídeos longos. Foi desenvolvido por Ye Liu, da Universidade Politécnica de Hong Kong, e por uma equipe do Show Lab da Universidade Nacional de Cingapura. A ferramenta imita a maneira como os humanos entendem o vídeo, dividindo a tarefa em planejamento, posicionamento, verificação...
DeepSeek-VL2
O DeepSeek-VL2 é uma série de modelos avançados de linguagem visual Mixture-of-Experts (MoE) que melhoram significativamente o desempenho de seu antecessor, o DeepSeek-VL. Os modelos são excelentes em tarefas como perguntas e respostas visuais, reconhecimento óptico de caracteres, compreensão de documentos/tabelas/diagramas e localização visual.De...
Reka: fornecimento de modelos de IA multimodais, suporte ao processamento multilíngue, otimização da análise de dados e aprimoramento da compreensão visual
A Reka é uma empresa dedicada a fornecer uma nova geração de soluções multimodais de IA. Seus produtos incluem os modelos Reka Core, Flash, Edge e Spark, que suportam o processamento de dados de texto, código, imagem, vídeo e áudio. Os modelos da Reka têm recursos avançados de raciocínio e suporte multilíngue para uma variedade de...
voltar ao topo