modelo multimodal

 Enviar site

GLM-4.5V: um modelo de diálogo multimodal capaz de compreender imagens e vídeos e gerar código
O GLM-4.5V é uma nova geração do Visual Language Megamodel (VLM) desenvolvido pela Zhipu AI (Z.AI). O modelo é construído com base no modelo de texto principal GLM-4.5-Air usando a arquitetura MOE, com 106 bilhões de referências totais, incluindo 12 bilhões de parâmetros de ativação. O GLM-4.5V não só processa imagens e textos, mas também entende a linguagem visual...
2.9 Katravés (como em "através do trem")0Recomendado
0Marcado
Etapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodal
O Step3 é um projeto de macromodelagem multimodal de código aberto desenvolvido pela StepFun e hospedado no GitHub, com o objetivo de fornecer recursos eficientes e econômicos de geração de conteúdo de texto, imagem e fala. O projeto está centrado em um Modelo Especialista Misto (MoE) de 32,1 bilhões de parâmetros (3,8 bilhões de parâmetros ativos), otimizado para velocidade e desempenho de inferência, adequado para...
1.6 Katravés (como em "através do trem")0Recomendado
0Marcado
AutoArk: uma plataforma de IA multiinteligência para colaboração em tarefas complexas
A AutoArk é uma empresa focada em tecnologia de inteligência artificial, cujo núcleo é o modelo multimodal de ponta a ponta EVA-1, desenvolvido pela própria empresa, que supera o GPT-4o em muitos benchmarks internacionais. Com base no modelo EVA-1, a AutoArk desenvolveu uma estrutura multimodal chamada “ArkAgentOS”. Com base no modelo EVA-1, a Boundless Ark desenvolveu uma estrutura de inteligência múltipla chamada "ArkAgentOS". Com base no modelo EVA-1, a Boundless Ark desenvolveu ainda mais uma estrutura de inteligência múltipla chamada "ArkAgentOS", que...
1.7 Katravés (como em "através do trem")0Recomendado
0Marcado
GLM-4.1V-Thinking: um modelo de inferência visual de código aberto para dar suporte a tarefas multimodais complexas
O GLM-4.1V-Thinking é um modelo de linguagem visual de código aberto desenvolvido pelo Laboratório KEG da Universidade de Tsinghua (THUDM), com foco em recursos de raciocínio multimodal. Com base no modelo básico GLM-4-9B-0414, o GLM-4.1V-Thinking usa aprendizado por reforço e mecanismos de raciocínio de "cadeia mental" para...
2.5 Katravés (como em "através do trem")0Recomendado
0Marcado
Gemma 3n
O Google está expandindo sua pegada para IA inclusiva com o lançamento do Gemma 3 e do Gemma 3 QAT, modelos de código aberto que são executados em uma única nuvem ou acelerador de desktop. Se o Gemma 3 trouxe recursos avançados de nuvem e desktop para os desenvolvedores, este lançamento de 20 de maio de 2025...
2.3 Katravés (como em "através do trem")0Recomendado
0Marcado
BAGEL
O BAGEL é um modelo de base multimodal de código aberto desenvolvido pela equipe do ByteDance Seed e hospedado no GitHub. Ele integra recursos de compreensão de texto, geração de imagens e edição para dar suporte a tarefas multimodais. O modelo tem 7 bilhões de parâmetros ativos (14 bilhões de parâmetros no total) e usa a mistura de...
3.2 Katravés (como em "através do trem")0Recomendado
0Marcado
MoshiVis
O MoshiVis é um projeto de código aberto desenvolvido pela Kyutai Labs e hospedado no GitHub. Ele se baseia no modelo de fala para texto Moshi (7B parâmetros), com cerca de 206 milhões de novos parâmetros de adaptação e o codificador visual PaliGemma2 congelado (400M parâmetros), permitindo que o modelo...
3.1 Katravés (como em "através do trem")0Recomendado
0Marcado
Qwen2.5-Omni
O Qwen2.5-Omni é um modelo de IA multimodal de código aberto desenvolvido pela equipe do Alibaba Cloud Qwen. Ele pode processar várias entradas, como texto, imagens, áudio e vídeo, e gerar respostas em texto ou fala natural em tempo real. O modelo foi lançado em 26 de março de 2025, e o código e os arquivos do modelo estão hospedados no GitHu...
4.6 Katravés (como em "através do trem")0Recomendado
0Marcado
Step-Audio
O Step-Audio é uma estrutura de interação de voz inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a diálogos em vários idiomas (por exemplo, chinês, inglês, japonês), fala emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, Sichuan), velocidade de fala ajustável e estilo rítmico (por exemplo, rap).
2.9 Katravés (como em "através do trem")0Recomendado
0Marcado
VITA
O VITA é um projeto líder de modelagem de linguagem grande multimodal interativa de código aberto, pioneiro na capacidade de obter uma verdadeira interação multimodal completa. O projeto lançou o VITA-1.0 em agosto de 2024, sendo pioneiro no primeiro modelo de linguagem grande totalmente modal e interativo de código aberto. Em dezembro de 2024, o projeto lançou uma grande atualização, o VITA-1.5,...
3.5 Katravés (como em "através do trem")0Recomendado
0Marcado
Megrez-3B-Omni
O Infini-Megrez é uma solução de inteligência de ponta desenvolvida pela cúpula de núcleo inquestionável (Infinigence AI), com o objetivo de obter compreensão e análise multimodais eficientes por meio de co-projeto de hardware e software. No centro do projeto está o modelo Megrez-3B, que oferece suporte à compreensão integrada de imagem, texto e áudio com alta precisão e inferência rápida...
2.7 Katravés (como em "através do trem")0Recomendado
0Marcado

modelo multimodal

Ferramenta de IA da estação de consulta rápida