
GLM-4.5V: um modelo de diálogo multimodal capaz de compreender imagens e vídeos e gerar código
O GLM-4.5V é uma nova geração do Visual Language Megamodel (VLM) desenvolvido pela Zhipu AI (Z.AI). O modelo é construído com base no modelo de texto principal GLM-4.5-Air usando a arquitetura MOE, com 106 bilhões de referências totais, incluindo 12 bilhões de parâmetros de ativação. O GLM-4.5V não só processa imagens e textos, mas também entende a linguagem visual...

ARC-Hunyuan-Video-7B: um modelo inteligente para entender o conteúdo de vídeos curtos
ARC-Hunyuan-Video-7B 是一个由腾讯 ARC 实验室开发的开源多模态模型,专注于理解用户生成的短视频内容。它通过整合视频的视觉、音频和文本信息,提供深度的结构化分析。该模型能处理复杂视觉元素、高密度音频信息和快速节奏的短视...

GLM-4.1V-Thinking: um modelo de inferência visual de código aberto para dar suporte a tarefas multimodais complexas
O GLM-4.1V-Thinking é um modelo de linguagem visual de código aberto desenvolvido pelo Laboratório KEG da Universidade de Tsinghua (THUDM), com foco em recursos de raciocínio multimodal. Com base no modelo básico GLM-4-9B-0414, o GLM-4.1V-Thinking usa aprendizado por reforço e mecanismos de raciocínio de "cadeia mental" para...

VideoMind
VideoMind 是一个开源的多模态AI工具,专注于长视频的推理、问答和摘要生成。它由香港理工大学的刘晔(Ye Liu)和新加坡国立大学Show Lab的团队共同开发。工具模仿人类理解视频的方式,把任务拆成规划、定位、验证和回答等步骤,逐...

DeepSeek-VL2
O DeepSeek-VL2 é uma série de modelos avançados de linguagem visual Mixture-of-Experts (MoE) que melhoram significativamente o desempenho de seu antecessor, o DeepSeek-VL. Os modelos são excelentes em tarefas como perguntas e respostas visuais, reconhecimento óptico de caracteres, compreensão de documentos/tabelas/diagramas e localização visual.De...

Reka: fornecimento de modelos de IA multimodais, suporte ao processamento multilíngue, otimização da análise de dados e aprimoramento da compreensão visual
Reka 是一家致力于提供新一代多模态AI解决方案的公司。其产品包括Reka Core、Flash、Edge和Spark等多种型号,支持文本、代码、图像、视频和音频数据的处理。Reka 的模型具有强大的推理能力和多语言支持,适用于各种部署环...
voltar ao topo