
xAI Grok Imagine API: serviço pronto para uso de geração de áudio e vídeo multimodal para ambientes de produção
Em janeiro de 2026, a xAI lançou oficialmente a API Grok Imagine, um serviço de geração de vídeo multimodal de nível de produção para desenvolvedores e empresas. Criado com base no modelo “Aurora” desenvolvido internamente pela xAI, o recurso principal do serviço é a capacidade de gerar texto com base em...

OmniInsert: uma ferramenta para inserir qualquer imagem de referência em um vídeo sem mascaramento
O OmniInsert é um projeto de pesquisa desenvolvido pelo ByteDance Intelligent Creation Lab. É uma ferramenta que insere perfeitamente qualquer objeto de referência em um vídeo sem o uso de uma máscara. No processo tradicional de edição de vídeo, se você quiser adicionar um novo objeto ao vídeo, geralmente precisará criar manualmente uma “máscara” precisa para enquadrar o objeto...

Qwen-Image-Edit: modelo de IA para edição de imagens com base em comandos textuais
O Qwen-Image-Edit é um modelo de IA para edição de imagens desenvolvido pela equipe da Alibaba Tongyi Qianqian. Ele é treinado com base no modelo Qwen-Image com 20 bilhões de parâmetros, e sua função principal é permitir que os usuários modifiquem imagens por meio de comandos simples de texto em chinês ou inglês. Esse modelo utiliza tanto a compreensão semântica visual quanto...

Qwen-Image: uma ferramenta de IA para gerar imagens de alta fidelidade com renderização precisa de texto
O Qwen-Image é um modelo de difusão multimodal paramétrico 20B (MMDiT) desenvolvido pela equipe do Qwen, com foco na geração de imagens de alta fidelidade e na renderização precisa de textos. Ele se destaca no processamento de textos complexos (especialmente chinês e inglês) e na edição de imagens. O modelo suporta uma ampla variedade de estilos de arte, como pôsteres realistas, de anime e de alta definição,...

SkyworkUniPic: um modelo de código aberto para compreensão e geração de imagens de processamento unificado
O SkyworkUniPic é um modelo multimodal de código aberto desenvolvido pela SkyworkAI que se concentra na compreensão de imagens, imagens geradas por texto e edição de imagens. Ele integra três tarefas de linguagem visual usando uma única arquitetura de 150 milhões de parâmetros. Os usuários podem executar o 102 em GPUs de consumo, como a RTX 4090...

FLUX.1 Krea: uma ferramenta gratuita de código aberto para gerar imagens altamente realistas
FLUX.1 Krea [dev] é uma ferramenta de geração de imagens de código aberto desenvolvida pela Black Forest Labs em colaboração com a Krea AI e hospedada na plataforma Hugging Face. Ela se baseia em uma transformação de fluxo retificado de 12 bilhões de parâmetros...

Diffuman4D: Geração de imagens 4D de alta fidelidade do corpo humano a partir de vídeos esparsos
O Diffuman4D é um projeto desenvolvido pela equipe de pesquisa ZJU3DV da Universidade de Zhejiang, com foco na geração de visualizações do corpo humano em 4D de alta fidelidade a partir de vídeos com visualizações esparsas. O projeto combina o modelo de difusão espaço-temporal e a técnica 4DGS (4D Gaussian Splatting), que soluciona a dificuldade dos métodos tradicionais de geração de entradas esparsas...

Lançamento do FLUX.1 Kontext e do BFL Playground
Hoje, temos o orgulho de lançar o FLUX.1 Kontext - um conjunto de modelos de correspondência de fluxo generativo para oferecer suporte à geração e edição de imagens. Diferentemente dos modelos de geração de imagens baseados em texto existentes, a família FLUX.1 Kontext oferece suporte a...

PartCrafter: geração de modelos de peças 3D editáveis a partir de uma única imagem
O PartCrafter é um projeto inovador de código aberto voltado para a geração de modelos de peças 3D editáveis a partir de uma única imagem RGB. Ele usa técnicas avançadas de geração 3D estruturada para gerar simultaneamente várias peças 3D semanticamente significativas a partir de uma única imagem, adequadas para desenvolvimento de jogos, design de produtos e outros campos. O projeto é baseado em um transformador de difusão de malha 3D pré-treinado...

HiDream-I1
O HiDream-I1 é um modelo básico de geração de imagens de código aberto com 17 bilhões de parâmetros que pode gerar rapidamente imagens de alta qualidade. Os usuários só precisam inserir uma descrição de texto e o modelo pode gerar uma variedade de estilos, incluindo imagens realistas, de desenho animado, de arte e outras. O projeto é desenvolvido pela equipe do HiDream.ai, hospedado no GitHub sob a licença MIT...

Imagen 4
O recém-lançado modelo Imagen 4 do Google DeepMind, a mais recente iteração de sua tecnologia de geração de imagens, está rapidamente se tornando um ponto focal do setor. O modelo fez avanços significativos para melhorar a riqueza, a precisão dos detalhes e a velocidade da geração de imagens, trabalhando para dar vida à imaginação dos usuários de maneiras nunca antes possíveis. Atualmente, o uso de ...

StarVector: um modelo básico para gerar gráficos vetoriais SVG a partir de imagens e texto
O StarVector é um projeto de código aberto criado por desenvolvedores como Juan A. Rodriguez para converter imagens e textos em SVG (Scalable Vector Graphics). Essa ferramenta usa um modelo de linguagem visual que entende o conteúdo da imagem e as instruções textuais para gerar código SVG de alta qualidade. Seus principais recursos são...

AnyText
O AnyText é uma ferramenta revolucionária de geração e edição de texto visual multilíngue desenvolvida com base no modelo de difusão. Ele gera texto multilíngue natural e de alta qualidade em imagens e oferece suporte a recursos flexíveis de edição de texto. Foi desenvolvido por uma equipe de pesquisadores e recebeu honras de destaque na conferência ICLR 2024.

OmniGen
O OmniGen é um modelo “universal” de geração de imagens desenvolvido pela VectorSpaceLab que permite aos usuários criar visuais diversificados e contextualmente ricos com instruções de texto simples ou entradas multimodais. Ele é especialmente adequado para cenas que exigem identificação de caracteres e renderização consistente de caracteres. Os usuários podem carregar até três imagens...

CogView3: modelo de imagem de geração de texto de difusão em cascata de código aberto do Wisdom Spectrum
Introdução abrangente O CogView3 é um sistema avançado de geração de imagens de texto desenvolvido pela Universidade de Tsinghua e pela equipe do Think Tank (Smart Spectrum Qingyan). Ele se baseia no modelo de difusão em cascata e gera imagens de alta resolução por meio de vários estágios. Os principais recursos do CogView3 incluem geração em vários estágios, arquitetura inovadora e desempenho eficiente, o que é adequado para a criação de arte, design de anúncios, desenvolvimento de jogos e muitos outros...
voltar ao topo