Qwen-Image-Edit: modelo de IA para edição de imagens com base em comandos textuais
O Qwen-Image-Edit é um modelo de IA para edição de imagens desenvolvido pela equipe da Alibaba Tongyi Qianqian. Ele é treinado com base no modelo Qwen-Image com 20 bilhões de parâmetros, e sua função principal é permitir que os usuários modifiquem imagens por meio de comandos simples de texto em chinês ou inglês. Esse modelo também utiliza...
Qwen-Image: uma ferramenta de IA para gerar imagens de alta fidelidade com renderização precisa de texto
O Qwen-Image é um modelo de difusão multimodal paramétrico 20B (MMDiT) desenvolvido pela equipe do Qwen, com foco na geração de imagens de alta fidelidade e na renderização precisa de textos. Ele se destaca no processamento de textos complexos (especialmente chinês e inglês) e na edição de imagens. O modelo oferece suporte a vários estilos de arte, como realista,...
SkyworkUniPic: um modelo de código aberto para compreensão e geração de imagens de processamento unificado
O SkyworkUniPic é um modelo multimodal de código aberto desenvolvido pela SkyworkAI que se concentra na compreensão de imagens, imagens geradas por texto e edição de imagens. Ele integra três tarefas de linguagem visual usando uma única arquitetura de 150 milhões de parâmetros. Os usuários podem executar o 102 em GPUs de consumo, como a RTX 4090...
FLUX.1 Krea: uma ferramenta gratuita de código aberto para gerar imagens altamente realistas
FLUX.1 Krea [dev] é uma ferramenta de geração de imagens de código aberto desenvolvida pela Black Forest Labs em colaboração com a Krea AI e hospedada na plataforma Hugging Face. Ela se baseia em uma transformação de fluxo retificado de 12 bilhões de parâmetros...
Diffuman4D: Geração de imagens 4D de alta fidelidade do corpo humano a partir de vídeos esparsos
O Diffuman4D é um projeto desenvolvido pela equipe de pesquisa ZJU3DV da Universidade de Zhejiang, com foco na geração de visualizações do corpo humano em 4D de alta fidelidade a partir de vídeos com visualizações esparsas. O projeto combina o modelo de difusão espaço-temporal e a técnica 4DGS (4D Gaussian Splatting), que soluciona a dificuldade dos métodos tradicionais de geração de entradas esparsas...
Lançamento do FLUX.1 Kontext e do BFL Playground
Hoje, temos o orgulho de lançar o FLUX.1 Kontext - um conjunto de modelos de correspondência de fluxo generativo para oferecer suporte à geração e edição de imagens. Diferentemente dos modelos de geração de imagens baseados em texto existentes, a família FLUX.1 Kontext oferece suporte a...
PartCrafter: geração de modelos de peças 3D editáveis a partir de uma única imagem
O PartCrafter é um projeto inovador de código aberto voltado para a geração de modelos de peças 3D editáveis a partir de uma única imagem RGB. Ele usa tecnologia avançada de geração de 3D estruturada para gerar várias peças 3D semanticamente significativas simultaneamente a partir de uma única imagem, adequada para desenvolvimento de jogos, design de produtos e outros campos. O projeto é baseado em pré-treinamento...
HiDream-I1
O HiDream-I1 é um modelo básico de geração de imagens de código aberto com 17 bilhões de parâmetros que pode gerar rapidamente imagens de alta qualidade. Os usuários só precisam inserir uma descrição textual, e o modelo pode gerar imagens em vários estilos, incluindo realista, desenho animado e artístico. Desenvolvido pela equipe do HiDream.ai e hospedado no GitHub, o projeto escolhe...
Imagem 4
O recém-lançado modelo Imagen 4 do Google DeepMind, a mais recente iteração de sua tecnologia de geração de imagens, está rapidamente se tornando um ponto focal do setor. O modelo fez avanços significativos para melhorar a riqueza, a precisão dos detalhes e a velocidade da geração de imagens, trabalhando para dar vida à imaginação do usuário de uma forma nunca antes vista...
StarVector: um modelo básico para gerar gráficos vetoriais SVG a partir de imagens e texto
O StarVector é um projeto de código aberto criado por desenvolvedores como Juan A. Rodriguez para converter imagens e textos em SVG (Scalable Vector Graphics). Essa ferramenta usa um modelo de linguagem visual que entende o conteúdo da imagem e as instruções de texto para gerar código SVG de alta qualidade. Seu núcleo...
Qualquer texto
O AnyText é uma ferramenta revolucionária de geração e edição de texto visual multilíngue desenvolvida com base no modelo de difusão. Ela gera texto multilíngue natural e de alta qualidade em imagens e oferece suporte a recursos flexíveis de edição de texto. Foi desenvolvido por uma equipe de pesquisadores e recebeu honras de destaque na conferência ICLR 2024...
OmniGen
O OmniGen é um modelo "universal" de geração de imagens desenvolvido pela VectorSpaceLab que permite aos usuários criar visuais diversificados e contextualmente ricos com instruções de texto simples ou entradas multimodais. Ele é especialmente adequado para cenas que exigem reconhecimento de caracteres e renderização consistente de caracteres. Os usuários...
CogView3: modelo de imagem de geração de texto de difusão em cascata de código aberto do Wisdom Spectrum
Introdução abrangente O CogView3 é um sistema avançado de geração de imagens de texto desenvolvido pela Universidade de Tsinghua e pela Think Tank Team (Chi Spectrum Qingyan). Ele se baseia no modelo de difusão em cascata e gera imagens de alta resolução por meio de vários estágios. Os principais recursos do CogView3 incluem geração em vários estágios, arquitetura inovadora e desempenho eficiente para a criação artística...
voltar ao topo