
OmniInsert: uma ferramenta para inserir qualquer imagem de referência em um vídeo sem mascaramento
OmniInsert 是一个由字节跳动智能创作实验室开发的研究项目。它是一个无需使用蒙版(Mask)就能将任意参考对象无缝插入到视频中的工具。传统的视频编辑流程中,如果想在视频里加入一个新对象,通常需要手动创建一个精确的“蒙版”来框出这个对...

Qwen-Image-Edit: modelo de IA para edição de imagens com base em comandos textuais
Qwen-Image-Edit 是由阿里巴巴通义千问团队开发的一款图像编辑AI模型。 它基于拥有200亿参数的Qwen-Image模型进行训练,核心功能是让用户通过简单的中文或英文文字指令,对图片进行修改。 这款模型同时利用了视觉语义理解和...

Qwen-Image: uma ferramenta de IA para gerar imagens de alta fidelidade com renderização precisa de texto
Qwen-Image 是一个由 Qwen 团队开发的 20B 参数多模态扩散模型(MMDiT),专注于高保真图像生成和精准文本渲染。它在复杂文本处理(尤其是中文和英文)以及图像编辑方面表现卓越。模型支持多种艺术风格,如写实、动漫和高清海报,...

SkyworkUniPic: um modelo de código aberto para compreensão e geração de imagens de processamento unificado
O SkyworkUniPic é um modelo multimodal de código aberto desenvolvido pela SkyworkAI que se concentra na compreensão de imagens, imagens geradas por texto e edição de imagens. Ele integra três tarefas de linguagem visual usando uma única arquitetura de 150 milhões de parâmetros. Os usuários podem executar o 102 em GPUs de consumo, como a RTX 4090...

FLUX.1 Krea: uma ferramenta gratuita de código aberto para gerar imagens altamente realistas
FLUX.1 Krea [dev] é uma ferramenta de geração de imagens de código aberto desenvolvida pela Black Forest Labs em colaboração com a Krea AI e hospedada na plataforma Hugging Face. Ela se baseia em uma transformação de fluxo retificado de 12 bilhões de parâmetros...

Diffuman4D: Geração de imagens 4D de alta fidelidade do corpo humano a partir de vídeos esparsos
O Diffuman4D é um projeto desenvolvido pela equipe de pesquisa ZJU3DV da Universidade de Zhejiang, com foco na geração de visualizações do corpo humano em 4D de alta fidelidade a partir de vídeos com visualizações esparsas. O projeto combina o modelo de difusão espaço-temporal e a técnica 4DGS (4D Gaussian Splatting), que soluciona a dificuldade dos métodos tradicionais de geração de entradas esparsas...

Lançamento do FLUX.1 Kontext e do BFL Playground
Hoje, temos o orgulho de lançar o FLUX.1 Kontext - um conjunto de modelos de correspondência de fluxo generativo para oferecer suporte à geração e edição de imagens. Diferentemente dos modelos de geração de imagens baseados em texto existentes, a família FLUX.1 Kontext oferece suporte a...

PartCrafter: geração de modelos de peças 3D editáveis a partir de uma única imagem
PartCrafter 是一个创新的开源项目,专注于从单张RGB图片生成可编辑的3D零件模型。它采用先进的结构化3D生成技术,通过单一图像同时生成多个具有语义意义的3D零件,适用于游戏开发、产品设计等领域。项目基于预训练的3D网格扩散变换器...

HiDream-I1
HiDream-I1是一个开源的图像生成基础模型,拥有170亿参数,能够快速生成高质量图像。用户只需输入文字描述,模型即可生成包括写实、卡通、艺术等多种风格的图像。该项目由HiDream.ai团队开发,托管在GitHub上,采用MIT许可证...

Imagem 4
Google DeepMind 近期推出的 Imagen 4 模型,作为其图像生成技术的最新迭代,正迅速成为行业焦点。该模型在提升图像的丰富性、细节精确度以及生成速度方面取得了显著进展,致力于将用户的想象力以前所未有的方式变为现实。目前,用...

StarVector: um modelo básico para gerar gráficos vetoriais SVG a partir de imagens e texto
StarVector 是一个开源项目,它由 Juan A. Rodriguez 等开发者创建,目的是将图像和文字转化为可缩放矢量图形(SVG)。这个工具使用视觉语言模型,能够理解图像内容和文字指令,生成高质量的 SVG 代码。它的核心特点是...

Qualquer texto
AnyText是一个革命性的多语言视觉文本生成和编辑工具,基于扩散模型开发。它能够在图像中生成自然、高质量的多语种文本,并支持灵活的文本编辑功能。该项目由研究团队开发,并在ICLR 2024会议上获得Spotlight荣誉。AnyText的...

OmniGen
OmniGen 是一个由 VectorSpaceLab(智源) 开发的“通用”图像生成模型,允许用户通过简单的文本提示或多模态输入来创建多样化且具有上下文丰富的视觉效果。它特别适合于需要识别人物和一致性角色渲染的场景。用户可以上传最多三张图...

CogView3: modelo de imagem de geração de texto de difusão em cascata de código aberto do Wisdom Spectrum
综合介绍 CogView3 是由清华大学和智囊团队(智谱清言)开发的先进文本生成图像系统。它基于级联扩散模型,通过多阶段生成高分辨率图像。CogView3 的主要特点包括多阶段生成、创新架构和高效性能,适用于艺术创作、广告设计、游戏开发等多...
voltar ao topo