
GLM-4.5V: um modelo de diálogo multimodal capaz de compreender imagens e vídeos e gerar código
O GLM-4.5V é uma nova geração do Visual Language Megamodel (VLM) desenvolvido pela Zhipu AI (Z.AI). O modelo é construído com base no modelo de texto principal GLM-4.5-Air usando a arquitetura MOE, com 106 bilhões de referências totais, incluindo 12 bilhões de parâmetros de ativação. O GLM-4.5V não só processa imagens e textos, mas também entende a linguagem visual...

Etapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodal
Step3 是由 StepFun 开发的一个开源多模态大模型项目,托管在 GitHub 上,旨在提供高效、经济的文本、图像和语音内容生成能力。项目以 321 亿参数(38 亿活跃参数)的混合专家模型(MoE)为核心,优化了推理速度和性能,适...

AutoArk: uma plataforma de IA multiinteligência para colaboração em tarefas complexas
无界方舟(AutoArk)是一家专注于人工智能技术的公司,其核心是自研的,在多项国际基准测试中表现比肩GPT-4o的端到端多模态大模型EVA-1。 基于EVA-1模型,无界方舟进一步打造了名为“ArkAgentOS”的多智能体框架。这个框架...

GLM-4.1V-Thinking: um modelo de inferência visual de código aberto para dar suporte a tarefas multimodais complexas
O GLM-4.1V-Thinking é um modelo de linguagem visual de código aberto desenvolvido pelo Laboratório KEG da Universidade de Tsinghua (THUDM), com foco em recursos de raciocínio multimodal. Com base no modelo básico GLM-4-9B-0414, o GLM-4.1V-Thinking usa aprendizado por reforço e mecanismos de raciocínio de "cadeia mental" para...

Gemma 3n
O Google está expandindo sua pegada para IA inclusiva com o lançamento do Gemma 3 e do Gemma 3 QAT, modelos de código aberto que são executados em uma única nuvem ou acelerador de desktop. Se o Gemma 3 trouxe recursos avançados de nuvem e desktop para os desenvolvedores, este lançamento de 20 de maio de 2025...

BAGEL
O BAGEL é um modelo de base multimodal de código aberto desenvolvido pela equipe do ByteDance Seed e hospedado no GitHub. Ele integra recursos de compreensão de texto, geração de imagens e edição para dar suporte a tarefas multimodais. O modelo tem 7 bilhões de parâmetros ativos (14 bilhões de parâmetros no total) e usa a mistura de...

MoshiVis
O MoshiVis é um projeto de código aberto desenvolvido pela Kyutai Labs e hospedado no GitHub. Ele se baseia no modelo de fala para texto Moshi (7B parâmetros), com cerca de 206 milhões de novos parâmetros de adaptação e o codificador visual PaliGemma2 congelado (400M parâmetros), permitindo que o modelo...

Qwen2.5-Omni
Qwen2.5-Omni 是阿里巴巴云 Qwen 团队开发的一款开源多模态 AI 模型。它能处理文本、图像、音频和视频等多种输入,并实时生成文本或自然语音响应。这款模型于 2025 年 3 月 26 日发布,代码和模型文件托管在 GitHu...

Step-Audio
Step-Audio 是一个开源的智能语音交互框架,旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话(如中文、英文、日语)、情感语音(如快乐、悲伤)、区域方言(如粤语、四川话)、可调节的语速和韵律风格(如说唱)。Step-...

VITA
VITA是一个领先的开源交互式多模态大语言模型项目,率先实现了真正的全方位多模态交互能力。该项目于2024年8月推出VITA-1.0版本,开创了首个开源交互式全模态大语言模型的先河。2024年12月,项目推出了重大升级版本VITA-1.5,...

Megrez-3B-Omni
Infini-Megrez是由无问芯穹(Infinigence AI)开发的边缘智能解决方案,旨在通过软硬件协同设计,实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型,支持图像、文本和音频的综合理解,具有高准确性和快速推理能...
voltar ao topo