Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O HiDream-I1 é um modelo básico de geração de imagens de código aberto com 17 bilhões de parâmetros que pode gerar rapidamente imagens de alta qualidade. Os usuários só precisam inserir uma descrição textual, e o modelo pode gerar imagens em vários estilos, incluindo realista, desenho animado e artístico. Desenvolvido pela equipe da HiDream.ai, o projeto está hospedado no GitHub sob a licença MIT e é compatível com uso pessoal, científico e comercial. A HiDream-I1 teve um bom desempenho em vários benchmarks, como HPS v2.1, GenEval e DPG, e alcançou níveis líderes do setor em termos de qualidade das imagens geradas e da capacidade de seguir palavras-chave. Os usuários podem experimentar o modelo por meio da plataforma Hugging Face ou fazer o download dos pesos do modelo para executá-lo localmente. O projeto também fornece uma interface de demonstração do Gradio para facilitar a geração interativa de imagens.

HiDream-I1-1

 

Lista de funções

  • Text to Image: gere imagens de alta qualidade com base nas descrições de texto inseridas pelos usuários.
  • Suporte a vários estilos: gere imagens realistas, de desenho animado, artísticas e de outros estilos.
  • Geração rápida: gere imagens em segundos otimizando as etapas de inferência.
  • Variantes do modelo: estão disponíveis as versões completa (HiDream-I1-Full), de desenvolvimento (HiDream-I1-Dev) e rápida (HiDream-I1-Fast).
  • Suporte à edição de imagens: com base no modelo HiDream-E1-Full, ele oferece suporte à modificação de imagens por meio de comandos de texto.
  • Código aberto e comercial: a licença MIT permite o uso gratuito das imagens geradas.
  • Interface interativa do Gradio: fornece uma demonstração on-line para que os usuários experimentem a geração de imagens diretamente.

 

Usando a Ajuda

Processo de instalação

Para usar o HiDream-I1, é necessário configurar o ambiente de tempo de execução do modelo em seu ambiente local. Veja a seguir as etapas detalhadas de instalação:

  1. Preparação do ambiente
    Recomenda-se usar o Python 3.12 e criar um novo ambiente virtual para evitar conflitos de dependência. Execute o seguinte comando:

    conda create -n hdi1 python=3.12
    conda activate hdi1

ou usar um ambiente virtual:

python3 -m venv venv
source venv/bin/activate  # Linux
.\venv\Scripts\activate   # Windows
  1. Instalação de dependências
    Instale as bibliotecas necessárias, especialmente a biblioteca Hugging Face Diffusers. Recomenda-se a instalação a partir da fonte para garantir a compatibilidade:

    pip install git+https://github.com/huggingface/diffusers.git
    

    Além disso, o Flash Attention é instalado para otimizar o desempenho e o CUDA 12.4 é recomendado:

    pip install flash-attn
    
  2. Modelos para download
    Os pesos do modelo HiDream-I1 estão disponíveis na Hugging Face. Há suporte para três variantes:

    • HiDream-ai/HiDream-I1-FullModelo completo, adequado para geração de alta qualidade.
    • HiDream-ai/HiDream-I1-DevA versão de desenvolvimento, com menos etapas de inferência, é mais rápida.
    • HiDream-ai/HiDream-I1-FastVersão rápida, adequada para geração rápida.
      A execução do script de raciocínio fará o download automáticometa-llama/Meta-Llama-3.1-8B-InstructModelos. Se a rede estiver instável, faça o download dos modelos do Hugging Face com antecedência e coloque-os no diretório de cache.
  3. raciocínio de execução
    Execute a geração de imagens usando o seguinte código Python:

    import torch
    from transformers import PreTrainedTokenizerFast, LlamaForCausalLM
    from diffusers import HiDreamImagePipeline
    tokenizer_4 = PreTrainedTokenizerFast.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
    text_encoder_4 = LlamaForCausalLM.from_pretrained(
    "meta-llama/Meta-Llama-3.1-8B-Instruct",
    output_hidden_states=True,
    output_attentions=True,
    torch_dtype=torch.bfloat16
    )
    pipe = HiDreamImagePipeline.from_pretrained(
    "HiDream-ai/HiDream-I1-Full",
    tokenizer_4=tokenizer_4,
    text_encoder_4=text_encoder_4,
    torch_dtype=torch.bfloat16
    )
    pipe = pipe.to('cuda')
    image = pipe(
    'A cat holding a sign that says "HiDream.ai"',
    height=1024,
    width=1024,
    guidance_scale=5.0,
    num_inference_steps=50,
    generator=torch.Generator("cuda").manual_seed(0)
    ).images[0]
    image.save("output.png")
    

    Descrição do parâmetro:

    • heightresponder cantandowidthResolução: Defina a resolução da imagem gerada; recomenda-se 1024 x 1024.
    • guidance_scaleControlar o grau de aderência da palavra-chave, recomendação 5.0.
    • num_inference_stepsO número de etapas de inferência é 50 para a versão Full, 28 para a versão Dev e 16 para a versão Fast.
  4. Executar a demonstração do Gradio
    O projeto fornece uma interface Gradio para facilitar a geração interativa de imagens. Execute o seguinte comando para iniciá-lo:

    python gradio_demo.py
    

    Depois de iniciado, acesse a interface da Web local e insira uma descrição de texto para gerar uma imagem.

Operação da função em destaque

  • Texto para imagemDigite o texto descritivo na tela Gradio, como "Um gato segurando uma placa que diz 'HiDream.ai'". Selecione a variante do modelo, ajuste a resolução e clique em Generate (Gerar) para obter a imagem.
  • edição de imagensUsando o modelo HiDream-E1-Full no espaço Hugging Face (https://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full) Carregue a imagem e insira um comando de alteração, como "Change background to forest" (Alterar o plano de fundo para floresta). O modelo ajustará a imagem de acordo com o comando para manter a consistência do personagem.
  • Seleção de modelosA versão Full é adequada para geração de alta qualidade, a versão Dev para desenvolvimento e teste e a versão Fast para prototipagem rápida.

advertência

  • Requisitos de hardware: Requer GPU NVIDIA (por exemplo, A100, RTX 3090) com suporte para arquitetura Ampere ou superior.hykilpikonna/HiDream-I1-nf4) pode ser executado com 16 GB de memória de vídeo.
  • Licenças: consentimento necessáriometa-llama/Meta-Llama-3.1-8B-Instructlicença comunitária e faça login no Hugging Face:
    huggingface-cli login
    

 

cenário do aplicativo

  1. criação de conteúdo
    Os criadores podem usar a HiDream-I1 para gerar ilustrações, gráficos de publicidade ou arte conceitual. Por exemplo, digite "future city night scene" (cena noturna de uma cidade futura) para gerar uma imagem no estilo ficção científica para a capa de um romance ou para o design de um jogo.
  2. Educação e pesquisa
    Os pesquisadores podem usar o modelo para realizar experimentos de geração de imagens, testar os efeitos de diferentes palavras-chave ou desenvolver novos aplicativos com base na licença do MIT.
  3. uso comercial
    As empresas podem gerar gráficos promocionais de produtos ou material de marketing. A licença MIT permite o uso gratuito das imagens geradas sem licenciamento adicional.

 

QA

  1. Que hardware é necessário para a HiDream-I1?
    Requer GPU NVIDIA (por exemplo, RTX 3090, A100) com suporte para a arquitetura Ampere ou superior. A versão quantisada de 4 bits é executada em 16 GB de memória de vídeo.
  2. Como escolher uma variante do modelo?
    A versão Full é boa para geração de alta qualidade, a versão Dev é boa para desenvolvimento rápido e a versão Fast é boa para geração rápida, mas com qualidade ligeiramente inferior.
  3. As imagens geradas estão disponíveis comercialmente?
    Sim. A licença do MIT permite que as imagens geradas sejam usadas para fins pessoais, científicos e comerciais.
  4. Como resolver a falha no download do modelo?
    Download antecipado de Hugging Facemeta-llama/Meta-Llama-3.1-8B-Instructcolocado no diretório de cache.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil