Gemma 3n
O Google está expandindo sua pegada para IA inclusiva com o lançamento do Gemma 3 e do Gemma 3 QAT, modelos de código aberto que são executados em uma única nuvem ou acelerador de desktop. Se o Gemma 3 trouxe recursos avançados de nuvem e desktop para os desenvolvedores, este lançamento de 20 de maio de 2025...
MoviiGen 1.1
O MoviiGen 1.1 é uma ferramenta de IA de código aberto desenvolvida pela ZuluVision que se concentra na geração de vídeos de alta qualidade a partir de texto. Ela é compatível com as resoluções 720P e 1080P e é especialmente adequada para a produção de vídeos profissionais que exigem efeitos visuais cinematográficos. Os usuários podem gerar vídeos a partir de descrições de texto simples com dinâmica natural...
HiDream-I1
O HiDream-I1 é um modelo básico de geração de imagens de código aberto com 17 bilhões de parâmetros que pode gerar rapidamente imagens de alta qualidade. Os usuários só precisam inserir uma descrição textual, e o modelo pode gerar imagens em vários estilos, incluindo realista, desenho animado e artístico. Desenvolvido pela equipe do HiDream.ai e hospedado no GitHub, o projeto escolhe...
Imagem 4
O recém-lançado modelo Imagen 4 do Google DeepMind, a mais recente iteração de sua tecnologia de geração de imagens, está rapidamente se tornando um ponto focal do setor. O modelo fez avanços significativos para melhorar a riqueza, a precisão dos detalhes e a velocidade da geração de imagens, trabalhando para dar vida à imaginação do usuário de uma forma nunca antes vista...
BAGEL
O BAGEL é um modelo de base multimodal de código aberto desenvolvido pela equipe do ByteDance Seed e hospedado no GitHub. Ele integra recursos de compreensão de texto, geração de imagens e edição para dar suporte a tarefas multimodais. O modelo tem 7 bilhões de parâmetros ativos (14 bilhões de parâmetros no total) e usa a mistura de...
MiniMax Speech 02
Com a evolução contínua das tecnologias de IA, a interação de voz personalizada e altamente natural tornou-se um requisito fundamental para muitos aplicativos inteligentes. No entanto, as tecnologias de conversão de texto em fala (TTS) existentes ainda enfrentam desafios para atender a tons personalizados em grande escala, cobertura multilíngue e expressão de emoções altamente realistas. Para abordar essas linhas...
Windsurf SWE-1
SWE-1: uma nova geração de modelos de ponta para engenharia de software Recentemente, foi lançada a tão esperada família de modelos SWE-1. Projetada para otimizar todo o processo de engenharia de software, essa família de modelos vai muito além da tarefa tradicional de escrever código. Atualmente, a família SWE-1 consiste em três modelos bem posicionados:...
VideoMind
O VideoMind é uma ferramenta de IA multimodal de código aberto que se concentra em inferência, perguntas e respostas e geração de resumo para vídeos longos. Foi desenvolvido por Ye Liu, da Universidade Politécnica de Hong Kong, e por uma equipe do Show Lab da Universidade Nacional de Cingapura. A ferramenta imita a maneira como os humanos entendem o vídeo, dividindo a tarefa em planejamento, posicionamento, verificação...
MoshiVis
O MoshiVis é um projeto de código aberto desenvolvido pela Kyutai Labs e hospedado no GitHub. Ele se baseia no modelo de fala para texto Moshi (7B parâmetros), com cerca de 206 milhões de novos parâmetros de adaptação e o codificador visual PaliGemma2 congelado (400M parâmetros), permitindo que o modelo...
Qwen2.5-Omni
O Qwen2.5-Omni é um modelo de IA multimodal de código aberto desenvolvido pela equipe do Alibaba Cloud Qwen. Ele pode processar várias entradas, como texto, imagens, áudio e vídeo, e gerar respostas em texto ou fala natural em tempo real. O modelo foi lançado em 26 de março de 2025, e o código e os arquivos do modelo estão hospedados no GitH....
Vetor estelar
O StarVector é um projeto de código aberto criado por desenvolvedores como Juan A. Rodriguez para converter imagens e textos em SVG (Scalable Vector Graphics). Essa ferramenta usa um modelo de linguagem visual que entende o conteúdo da imagem e as instruções de texto para gerar código SVG de alta qualidade. Seu núcleo...
LaWGPT
O LaWGPT é um projeto de código aberto apoiado pelo Grupo de Pesquisa em Aprendizado de Máquina e Mineração de Dados da Universidade de Nanjing, dedicado à criação de um grande modelo de linguagem baseado no conhecimento jurídico chinês. Ele amplia as listas de palavras proprietárias no domínio jurídico com base em modelos genéricos chineses (por exemplo, Chinese-LLaMA e ChatGLM) e por meio de...
Baichuan-Áudio
O Baichuan-Audio é um projeto de código aberto desenvolvido pela Baichuan Intelligence (baichuan-inc), hospedado no GitHub, com foco na tecnologia de interação de voz de ponta a ponta. O projeto fornece uma estrutura completa de processamento de áudio que pode transformar a entrada de voz em tokens de áudio discretos e, em seguida, por meio de um grande modelo para gerar um par de ...
Step-Audio
O Step-Audio é uma estrutura de interação de voz inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a diálogos em vários idiomas (por exemplo, chinês, inglês, japonês), fala emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, Sichuan), taxa de fala ajustável...
DeepSeek-VL2
O DeepSeek-VL2 é uma série de modelos avançados de linguagem visual Mixture-of-Experts (MoE) que melhoram significativamente o desempenho de seu antecessor, o DeepSeek-VL. Os modelos são excelentes em tarefas como perguntas e respostas visuais, reconhecimento óptico de caracteres, compreensão de documentos/tabelas/diagramas e localização visual.De...
VITA
O VITA é um projeto líder de modelagem de linguagem grande multimodal interativa de código aberto, pioneiro na capacidade de obter uma verdadeira interação multimodal completa. O projeto lançou o VITA-1.0 em agosto de 2024, sendo pioneiro no primeiro modelo de linguagem grande totalmente modal e interativo de código aberto.
Qualquer texto
O AnyText é uma ferramenta revolucionária de geração e edição de texto visual multilíngue desenvolvida com base no modelo de difusão. Ela gera texto multilíngue natural e de alta qualidade em imagens e oferece suporte a recursos flexíveis de edição de texto. Foi desenvolvido por uma equipe de pesquisadores e recebeu honras de destaque na conferência ICLR 2024...
Megrez-3B-Omni
O Infini-Megrez é uma solução de inteligência de ponta desenvolvida pela cúpula de núcleo inquestionável (Infinigence AI), com o objetivo de obter compreensão e análise multimodais eficientes por meio de co-projeto de hardware e software. No centro do projeto está o modelo Megrez-3B, que oferece suporte à compreensão integrada de imagem, texto e áudio com alta precisão e rapidez...
OmniGen
O OmniGen é um modelo "universal" de geração de imagens desenvolvido pela VectorSpaceLab que permite aos usuários criar visuais diversificados e contextualmente ricos com instruções de texto simples ou entradas multimodais. Ele é especialmente adequado para cenas que exigem reconhecimento de caracteres e renderização consistente de caracteres. Os usuários...