O Janus-4o é um modelo multimodal ajustado com base no conjunto de dados ShareGPT-4o-Image, com os principais recursos, incluindo:
- Geração de texto para imagemGeração de imagens de alta qualidade com base em dicas textuais (por exemplo, "praia ao pôr do sol").
- edição de imagensModificar o conteúdo de uma imagem com texto e imagens de entrada (por exemplo, "Substituir céu por estrelas").
Em comparação com o GPT-4o, o Janus-4o tem a vantagem de ser um modelo de código aberto com desempenho ligeiramente inferior:
- Código-fonte totalmente abertoPermitir que os desenvolvedores o usem e modifiquem livremente.
- leveAdequado para implantação localizada e suporte ao desenvolvimento de personalização da comunidade.
- Conjuntos de dados de suporte: 91K amostras são fornecidas para otimização adicional do modelo.
Observe que o Janus-4o requer uma GPU (recomenda-se 16 GB de memória de vídeo) para um desempenho ideal; o modo CPU é mais lento.
Essa resposta foi extraída do artigoShareGPT-4o-Image: um conjunto de dados de geração de imagens multimodais de código abertoO

































