Gemma 3n
O Google está expandindo sua pegada para IA inclusiva com o lançamento do Gemma 3 e do Gemma 3 QAT, modelos de código aberto que são executados em uma única nuvem ou acelerador de desktop. Se o Gemma 3 trouxe recursos avançados de nuvem e desktop para os desenvolvedores, este lançamento de 20 de maio de 2025...
BAGEL
O BAGEL é um modelo de base multimodal de código aberto desenvolvido pela equipe do ByteDance Seed e hospedado no GitHub. Ele integra recursos de compreensão de texto, geração de imagens e edição para dar suporte a tarefas multimodais. O modelo tem 7 bilhões de parâmetros ativos (14 bilhões de parâmetros no total) e usa a mistura de...
MoshiVis
O MoshiVis é um projeto de código aberto desenvolvido pela Kyutai Labs e hospedado no GitHub. Ele se baseia no modelo de fala para texto Moshi (7B parâmetros), com cerca de 206 milhões de novos parâmetros de adaptação e o codificador visual PaliGemma2 congelado (400M parâmetros), permitindo que o modelo...
Qwen2.5-Omni
O Qwen2.5-Omni é um modelo de IA multimodal de código aberto desenvolvido pela equipe do Alibaba Cloud Qwen. Ele pode processar várias entradas, como texto, imagens, áudio e vídeo, e gerar respostas em texto ou fala natural em tempo real. O modelo foi lançado em 26 de março de 2025, e o código e os arquivos do modelo estão hospedados no GitH....
Step-Audio
O Step-Audio é uma estrutura de interação de voz inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a diálogos em vários idiomas (por exemplo, chinês, inglês, japonês), fala emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, Sichuan), taxa de fala ajustável...
VITA
O VITA é um projeto líder de modelagem de linguagem grande multimodal interativa de código aberto, pioneiro na capacidade de obter uma verdadeira interação multimodal completa. O projeto lançou o VITA-1.0 em agosto de 2024, sendo pioneiro no primeiro modelo de linguagem grande totalmente modal e interativo de código aberto.
Megrez-3B-Omni
O Infini-Megrez é uma solução de inteligência de ponta desenvolvida pela cúpula de núcleo inquestionável (Infinigence AI), com o objetivo de obter compreensão e análise multimodais eficientes por meio de co-projeto de hardware e software. No centro do projeto está o modelo Megrez-3B, que oferece suporte à compreensão integrada de imagem, texto e áudio com alta precisão e rapidez...