O recém-lançado modelo Imagen 4 do Google DeepMind, a mais recente iteração de sua tecnologia de geração de imagens, está rapidamente se tornando um ponto focal do setor. Com avanços significativos na riqueza de imagens, na precisão dos detalhes e na velocidade de geração, o modelo tem como objetivo dar vida à imaginação dos usuários de uma forma nunca antes possível. Atualmente, os usuários podem Gêmeos Experimente o poder do Imagen 4 em plataformas como Whisk e Vertex AI.
Competências essenciais: novos patamares de realismo, clareza e expressão textual
O Imagen 4 demonstra seu desempenho superior em várias dimensões essenciais.
Em primeiro lugarFoto-realistaO modelo é capaz de gerar imagens realistas de paisagens, plantas, pessoas e animais. O modelo é capaz de gerar imagens realistas de paisagens, plantas, pessoas e animais em grande detalhe, próximas à vida real.
Próximo.Detalhes finosO Imagen 4 é capaz de renderizar close-ups com cores, texturas e gradações ricas, além de texturas de imagem que parecem estar na ponta de seus dedos.
Além dissoAdvanced spelling and typography (Ortografia e tipografia avançadas)Recursos. Isso permite que conteúdos como histórias em quadrinhos, designs de embalagens e itens colecionáveis ganhem vida com ortografia aprimorada, sequências de texto mais longas e novos layouts e estilos - um grande avanço para muitas ferramentas de imagem de IA.
Além disso, o Imagen 4 renderiza com maior precisãoDiversos estilos de arteA arte de pintar é uma das mais importantes, variando do foto-realismo e impressionismo à abstração e ilustração.
O que há de novo no Imagen 4: um aumento triplo de velocidade, criatividade e clareza
A última geração do Imagen 4 traz melhorias funcionais significativas:
- Opção ultra-rápida (Opção ultra-rápida)O próximo modelo deverá ser até 10 vezes mais rápido que seu antecessor, permitindo que os usuários testem dezenas de ideias criativas instantaneamente. Isso, sem dúvida, aumentará muito a eficiência criativa.
- Realize sua visão (实现您的愿景)Expandir ainda mais os limites criativos com cores, estilos, detalhes e renderização de texto aprimorados.
- Clareza excepcional (Clareza excepcional)Imagen 4: Otimizado para a criatividade, o Imagen 4 produz imagens com resolução de até 2K para uma saída de alta qualidade.
Especificações técnicas e visão geral da versão
para imagen-4-0-generate-preview-05-20
(visualização) e imagen-4.0-ultra-generate-exp-05-20
(Experimental Ultra) como exemplo para nos dar uma ideia do poder técnico do Imagen 4. Esses modelos suportam a geração de imagens, a validação e a marca d'água digital de pré-visualização, as configurações de segurança configuráveis pelo usuário, o aprimoramento de dicas por meio do reescritor de dicas e a geração de caracteres (um recurso da versão de pré-visualização).
No entanto, as versões atuais (como imagen-4-0-generate-preview-05-20
) ainda não oferece suporte ao uso de um pequeno número de amostras para aprender imagens personalizadas, personalização de assunto de produto/pessoa/animal de estimação, personalização de estilo, personalização de controle, personalização de instrução ou conversão de estilo, bem como uma variedade de recursos avançados de edição de imagem (por exemplo, edição de máscara, borrões, edição de imagem de produto, aprimoramento de resolução) e dicas negativas.
Suporte a uma ampla gama de escalas e resoluções de imagem::
- 1:1: 1024 x 1024
- 3:4: 896 x 1280
- 4:3: 1280 x 896
- 9:16: 768×1408
- 16:9: 1408 x 768
Suporte a idiomas de ponta para muitos dos principais idiomasA versão de visualização está disponível em inglês, e a versão de visualização está disponível em chinês simplificado, chinês tradicional, hindi, japonês, coreano, português e espanhol.
Limitações de usoAspectos como imagen-4-0-generate-preview-05-20
O número máximo de solicitações de API por minuto por projeto é 20, o número máximo de imagens retornadas por solicitação é 4 (geração de texto para imagem) e o número máximo de símbolos inseridos é 480 símbolos.
Benchmarking e feedback do usuário
Nos testes, os usuários preferiram a versão mais recente do Imagen em relação aos modelos anteriores, bem como a outros modelos convencionais de conversão de texto em imagem. Por exemplo, o Imagen 4 superou a pontuação Elo de preferência geral na avaliação humana do GenAI-Bench. O feedback dos usuários no Product Hunt também confirma as melhorias na tipografia, nas cores e nos detalhes.
Limitações criativas e aprimoramento contínuo
Embora o Imagen 4 tenha tido um bom desempenho, o Google DeepMind admite que ainda está trabalhando para melhorar os principais recursos.
- Apresentação dos fatosO modelo de difusão em si não tem a base de conhecimento do mundo real de um modelo de linguagem grande. Os usuários ainda podem observar artefatos ao trabalhar com composições complexas, especialmente em imagens com rostos pequenos, renderizações de texto e estruturas finas.
- imagem centralImagen: Às vezes, o Imagen tem dificuldades para produzir imagens perfeitamente centralizadas, como alinhar um círculo exatamente no centro da imagem.
- Dicas de solução de problemasImagen: O Imagen responde de forma confiável a sinais textuais claros, mas a saída pode ser imprevisível diante de sinais sem sentido, como emoticons ou sequências de caracteres aleatórios.
Segurança e responsabilidade: SynthID incorporado
O Google DeepMind enfatiza a filtragem extensiva e a marcação de dados para minimizar o conteúdo prejudicial em conjuntos de dados e reduzir a probabilidade de resultados prejudiciais. A equipe também realiza testes e avaliações da equipe vermelha para segurança de conteúdo (incluindo segurança infantil) e caracterização.
O Imagen 4 foi lançado com os mais recentes recursos de privacidade e segurança, incluindo a ferramenta SynthID, que permite que marcas d'água digitais invisíveis sejam incorporadas diretamente em uma imagem, tornando possível identificar se a imagem foi ou não gerada por IA. Essa iniciativa é fundamental para melhorar a rastreabilidade e a transparência do conteúdo gerado por IA.
A importância da engenharia de pistas
Para aproveitar todo o potencial dos modelos de geração de imagens com IA, como o Imagen 4, é essencial ter dicas precisas e detalhadas. Os usuários precisam definir claramente o objeto e seus atributos (incluindo detalhes e movimentos exclusivos), especificar o ambiente ou o contexto, o estilo artístico desejado (por exemplo, foto-realista, arte vetorial ou um gênero artístico específico) e o clima ou a atmosfera desejada. A adição de parâmetros, como ângulos de câmera e elementos de composição, pode aproximar os resultados gerados das expectativas. A linguagem estruturada e descritiva é fundamental para orientar o modelo de IA a produzir o conteúdo visual desejado.
A família de modelos Imagen do Google DeepMind, em sua essência, usa modelos em grande escala Transformador A compreensão profunda do texto pelo modelo de linguagem, combinada com os poderosos recursos do modelo de difusão na geração de imagens de alta fidelidade. O lançamento do Imagen 4, sem dúvida, dá novo fôlego ao campo do AIGC, e sua abordagem à qualidade da imagem, à integração da ferramenta de criação e à exploração da IA responsável prenuncia um futuro promissor para a geração de imagens com IA.