
xAI Grok Imagine API: serviço pronto para uso de geração de áudio e vídeo multimodal para ambientes de produção
Em janeiro de 2026, a xAI lançou oficialmente a API Grok Imagine, um serviço de geração de vídeo multimodal de nível de produção para desenvolvedores e empresas. Criado com base no modelo “Aurora” desenvolvido internamente pela xAI, o recurso principal do serviço é a capacidade de gerar texto com base em...

DeepSeek-OCR: uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto
O DeepSeek-OCR é uma ferramenta de reconhecimento óptico de caracteres (OCR) desenvolvida e de código aberto pelo DeepSeek-AI. Ela propõe uma nova abordagem chamada “Compressão Óptica Contextual”, que repensa a função do codificador visual a partir da perspectiva do Modelo de Linguagem Grande (LLM). A ferramenta não reconhece simplesmente a imagem...

OmniInsert: uma ferramenta para inserir qualquer imagem de referência em um vídeo sem mascaramento
O OmniInsert é um projeto de pesquisa desenvolvido pelo ByteDance Intelligent Creation Lab. É uma ferramenta que insere perfeitamente qualquer objeto de referência em um vídeo sem o uso de uma máscara. No processo tradicional de edição de vídeo, se você quiser adicionar um novo objeto ao vídeo, geralmente precisará criar manualmente uma “máscara” precisa para enquadrar o objeto...

Wan2.2-S2V-14B: modelo de geração de vídeo para sincronização da boca do personagem com base na fala
O Wan2.2-S2V-14B é um modelo de IA de grande escala desenvolvido pela equipe do Wan-AI especificamente para gerar vídeos de alta qualidade com base em áudio, texto e imagens. Ele adota uma arquitetura inovadora de especialista misto (MoE) com um total de 27 bilhões de parâmetros de modelo, mas apenas 14 bilhões deles são ativados no tempo de execução, equilibrando de forma eficaz o desempenho e o custo computacional. ...

SpatialLM: Varra a sala e a IA desenha automaticamente o modelo 3D para você!
O SpatialLM é um modelo de linguagem grande projetado especificamente para processar dados de nuvem de pontos tridimensionais (3D). Sua função principal é compreender dados geométricos 3D não estruturados e transformá-los em representações de cenas 3D estruturadas. Esses resultados estruturados contêm elementos arquitetônicos (por exemplo, paredes, portas, janelas), bem como caixas delimitadoras de objetos com orientação e suas categorias semânticas. Em contraste com as muitas necessidades ...

VibeVoice-1.5B: um modelo de geração de fala para diálogos de áudio longos com várias funções da Microsoft
O VibeVoice-1.5B é um modelo de conversão de texto em fala (TTS) de código aberto de última geração lançado pela Microsoft Research. Ele foi projetado especificamente para gerar áudio de diálogo expressivo, longo e com vários caracteres, como podcasts ou audiolivros. A principal inovação do VibeVoice é o uso de um sistema de 7...

Grok-2: Modelo de linguagem grande de especialista híbrido de código aberto da xAI
O Grok-2 é um modelo de macrolinguagem de segunda geração desenvolvido pela xAI de Elon Musk em 2024. Um recurso importante do modelo é sua arquitetura Mixture-of-Experts (MoE), projetada para processar informações com mais eficiência. Em termos simples, há vários "especialistas" no modelo...

Baichuan-M2: um modelo de linguagem grande para raciocínio aumentado na área de saúde
O Baichuan-M2 é um modelo de linguagem grande de código aberto com 32 bilhões (32B) de parâmetros da Baichuan Intelligence. O modelo se concentra no domínio médico e foi projetado para lidar com tarefas de raciocínio médico do mundo real. Ele se baseia no modelo Qwen2.5-32B, que foi desenvolvido com a introdução de um inovador “Large ...

Genie 3: Geração de mundos virtuais que podem ser interagidos em tempo real
O Genie 3 é um modelo de mundo genérico (modelo de mundo) lançado pelo Google DeepMind, que representa o mais recente avanço em IA na simulação e criação de ambientes virtuais. O principal recurso desse modelo é que ele pode gerar um mundo diversificado e dinâmico que suporta interações em tempo real com base apenas em uma descrição textual. Os usuários podem usar esse...

Seed-OSS: Modelo de linguagem grande de código aberto para raciocínio de contexto longo e aplicativos versáteis
O Seed-OSS é uma série de grandes modelos de linguagem de código aberto desenvolvidos pela equipe do Seed na ByteDance, com foco no processamento de contextos longos, recursos de raciocínio e otimização de tarefas de agentes. Os modelos contêm 36 bilhões de parâmetros e são treinados com apenas 12 trilhões de tokens, com excelente desempenho em vários benchmarks convencionais e suporte para ...

HRM: modelos de raciocínio hierárquico para raciocínio complexo
O HRM (Hierarchical Reasoning Model) é um modelo de raciocínio hierárquico com apenas 27 milhões de parâmetros projetado para resolver tarefas de raciocínio complexas no campo da inteligência artificial. O design do modelo é inspirado no processamento de informações hierárquico e em várias escalas de tempo do cérebro humano. Ele faz isso por meio de um módulo de alto nível (responsável por facilitar...

DeepSeek-V3.1-Base: um modelo de linguagem em grande escala para o processamento eficiente de tarefas complexas
O DeepSeek-V3.1-Base é um modelo de linguagem grande de código aberto desenvolvido pela DeepSeek e lançado na plataforma Hugging Face, projetado para tarefas de processamento de linguagem natural. Ele tem 685 bilhões de parâmetros, é compatível com vários tipos de dados (BF16, F8_E4M3, F32) e pode...

Qwen-Image-Edit: modelo de IA para edição de imagens com base em comandos textuais
O Qwen-Image-Edit é um modelo de IA para edição de imagens desenvolvido pela equipe da Alibaba Tongyi Qianqian. Ele é treinado com base no modelo Qwen-Image com 20 bilhões de parâmetros, e sua função principal é permitir que os usuários modifiquem imagens por meio de comandos simples de texto em chinês ou inglês. Esse modelo utiliza tanto a compreensão semântica visual quanto...

GLM-4.5V: um modelo de diálogo multimodal capaz de compreender imagens e vídeos e gerar código
O GLM-4.5V é uma nova geração do Visual Language Megamodel (VLM) desenvolvido pela Zhipu AI (Z.AI). O modelo é construído com base no modelo de texto principal GLM-4.5-Air usando a arquitetura MOE, com 106 bilhões de referências totais, incluindo 12 bilhões de parâmetros de ativação. O GLM-4.5V não só processa imagens e textos, mas também entende a linguagem visual...

Qwen-Image: uma ferramenta de IA para gerar imagens de alta fidelidade com renderização precisa de texto
O Qwen-Image é um modelo de difusão multimodal paramétrico 20B (MMDiT) desenvolvido pela equipe do Qwen, com foco na geração de imagens de alta fidelidade e na renderização precisa de textos. Ele se destaca no processamento de textos complexos (especialmente chinês e inglês) e na edição de imagens. O modelo suporta uma ampla variedade de estilos de arte, como pôsteres realistas, de anime e de alta definição,...

A MiniMax lança o Speech 2.5: a tecnologia de síntese de fala é inovadora em multilinguismo e reprodução de tons
No dia 7 de agosto, a MiniMax anunciou seu modelo de geração de fala de última geração, o Speech 2.5, que, de acordo com dados oficiais, melhora seu antecessor, o Speech 02, em termos de expressividade multilíngue, precisão de reprodução de timbre e número de idiomas suportados. No campo do Conteúdo Gerado por Inteligência Artificial (AIGC), o texto...

KittenTTS: um modelo leve de conversão de texto em fala
O KittenTTS é um modelo de conversão de texto em fala (TTS) de código aberto focado em leveza e eficiência. Ele ocupa menos de 25 MB de armazenamento, tem cerca de 15 milhões de parâmetros e é executado em dispositivos de baixo custo sem suporte a GPU.

GPT-OSS: Grande modelo de código aberto da OpenAI para raciocínio eficiente
O GPT-OSS é uma família de modelos de linguagem de código aberto da OpenAI, incluindo o gpt-oss-120b e o gpt-oss-20b, com 117 bilhões e 210 bilhões de parâmetros, respectivamente, licenciados sob a licença Apache 2.0, que permite aos desenvolvedores baixá-los, modificá-los e implantá-los gratuitamente. gpt-oss...

SongGeneration: um modelo de IA de código aberto para gerar músicas e letras de alta qualidade
O SongGeneration é um modelo de geração de música desenvolvido e de código aberto pelo Tencent AI Lab, com foco na geração de músicas de alta qualidade, incluindo letras, acompanhamento e vocais. Ele se baseia na estrutura LeVo, combinando o modelo de linguagem LeLM e codecs de música para oferecer suporte à geração de músicas em inglês e chinês. O modelo é treinado em um conjunto de dados de um milhão de músicas e pode...
voltar ao topo