Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

Infinity是一个开创性的高分辨率图像生成框架,由FoundationVision团队开发。该项目通过创新的位级视觉自回归建模方法,突破了传统图像生成模型的限制。Infinity的核心特点是采用了无限词汇量的分词器和分类器,配合位级自校正机制,能够生成超高质量的真实感图像。项目完全开源,提供了从2B到20B参数规模的模型选择,支持最高1024×1024分辨率的图像生成。作为一个前沿的研究项目,Infinity不仅推动了计算机视觉领域的技术进步,也为图像生成任务提供了新的解决方案。

Infinity: modelagem autorregressiva bit a bit para geração de imagens de alta resolução para geração ilimitada de imagens de alta resolução-1

Participe do canal discord para experimentar o modelo de geração de imagens do Infinity!

 

Lista de funções

  • 2B参数模型支持高达1024×1024分辨率的高质量图像生成
  • Fornece um léxico visual com vocabulário ilimitado para dar suporte à extração de recursos de imagem mais refinados
  • Implementação do mecanismo de autocorreção em nível de bit para melhorar a qualidade e a precisão das imagens geradas
  • Suporta a seleção flexível de vários tamanhos de modelo (parâmetros 125M, 1B, 2B, 20B)
  • Fornecer uma interface de inferência interativa para facilitar aos usuários a realização de experimentos de geração de imagens
  • Integrado a uma estrutura completa de treinamento e avaliação
  • Oferece suporte à avaliação multidimensional do desempenho do modelo (GenEval, DPG, HPSv2.1 e outras métricas)
  • Oferece uma plataforma de demonstração on-line que permite que os usuários experimentem a geração de imagens diretamente

 

Usando a Ajuda

1. configuração ambiental

1.1 Requisitos básicos:

  • Ambiente Python
  • PyTorch >= 2.5.1 (requer suporte ao FlexAttention)
  • Instale outras dependências via pip:pip3 install -r requirements.txt

2. uso de modelos

2.1 Início rápido:

  • Baixe o modelo pré-treinado do HuggingFace: infinity_2b_reg.pth
  • Download do Visual Segmenter: infinity_vae_d32_reg.pth
  • Geração de imagens interativas usando interactive_infer.ipynb

2.2 Configuração do treinamento:

# 使用单条命令启动训练
bash scripts/train.sh

# 不同规模模型的训练命令
# 125M模型(256x256分辨率)
torchrun --nproc_per_node=8 train.py --model=layer12c4 --pn 0.06M

# 2B模型(1024x1024分辨率)
torchrun --nproc_per_node=8 train.py --model=2bc8 --pn 1M

2.3 Preparação de dados:

  • Os dados de treinamento precisam ser preparados no formato JSONL
  • Cada item de dados contém: caminho da imagem, descrição de texto longo e curto, proporção da imagem e outras informações
  • Os conjuntos de dados de amostra são fornecidos pelo projeto para referência

2.4 Avaliação do modelo:

  • Suporte a vários indicadores de avaliação:
    • ImageReward: avaliação das pontuações de preferência humana para gerar imagens
    • HPS v2.1: métricas de avaliação baseadas em 798 mil classificações manuais
    • GenEval: Avaliação do alinhamento de texto para imagem
    • FID: avaliação da qualidade e da diversidade das imagens geradas

2.5 Apresentação on-line:

  • Visite a plataforma de demonstração oficial: https://opensource.bytedance.com/gmpt/t2i/invite
  • Insira uma descrição de texto para gerar uma imagem de alta qualidade correspondente
  • Suporta o ajuste de várias resoluções de imagem e parâmetros de geração

3. funções avançadas

3.1 Mecanismos de autocorreção em nível de bit:

  • Reconhecimento e correção automáticos de erros no processo de geração
  • Melhorar a qualidade e a precisão das imagens geradas

3.2 Extensões do modelo:

  • Suporta escalonamento flexível de tamanhos de modelos
  • Vários modelos estão disponíveis com parâmetros de 125M a 20B.
  • Adaptar-se a diferentes ambientes de hardware e requisitos de aplicativos

4. cuidados

  • Garantir que os recursos de hardware atendam aos requisitos do modelo
  • Modelos de grande escala exigem memória suficiente na GPU
  • Recomendado para treinamento com equipamentos de HPC
  • Pontos de verificação regulares de treinamento de apoio
  • Observe a adesão ao protocolo de código aberto do MIT
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil