Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

O modelo Janus-4o alcança um avanço duplo na conversão de texto em imagem e na edição de imagens no campo multimodal de código aberto

2025-08-20 472
Link diretoVisualização móvel
qrcode

O modelo Janus-4o desenvolvido com base no conjunto de dados ShareGPT-4o-Image representa um avanço importante para a comunidade de código aberto no campo da IA multimodal. Esse modelo em escala de 7B parâmetros suporta um processo completo de geração de texto para imagem, bem como recursos avançados de edição de imagem para modificar o conteúdo da imagem de entrada diretamente com base em comandos de texto. A avaliação técnica mostra que o Janus-4o supera significativamente seu antecessor, o modelo Janus-Pro, em termos de qualidade de imagem, consistência semântica e expressão criativa.

O modelo usa a estrutura do VLChatProcessor para processar entradas multimodais e suporta o carregamento direto em dispositivos CUDA para uma inferência eficiente. Os cenários típicos de aplicativos incluem a conversão de descrições de texto em imagens de alta qualidade (por exemplo, "praia ao pôr do sol") e a edição de imagens existentes com base em comandos de texto (por exemplo, "substituir o céu em uma foto por um céu estrelado"). O modelo é de código aberto na plataforma Hugging Face, que oferece suporte a pesquisadores e desenvolvedores para desenvolvimento secundário e aplicativos comerciais.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil