Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Genie 3 é um modelo de mundo genérico (modelo de mundo) lançado pelo Google DeepMind, que representa o mais recente avanço em IA na simulação e criação de ambientes virtuais. O principal recurso desse modelo é que ele pode gerar um mundo diversificado e dinâmico que suporta interação em tempo real com base apenas em uma descrição de texto. Os usuários podem navegar e explorar esse mundo gerado por IA, com o modelo renderizando cenas subsequentes em tempo real a 24 quadros por segundo e mantendo a coerência da cena por vários minutos. O Genie 3 não apenas simula fenômenos físicos reais, como luz e fluxo de água, mas também cria cenas fictícias imaginativas e personagens animados. Como um "modelo de mundo", seu objetivo é entender e simular como o mundo funciona, o que o torna não apenas uma poderosa ferramenta de criação de conteúdo, mas também uma etapa fundamental no treinamento de inteligências de IA (AGIs) de uso geral, que são fornecidas com uma variedade praticamente ilimitada de ambientes de simulação para treinamento.

Lista de funções

  • Mundo da geração de textoGeração de um ambiente novo, acionável e dinâmico apenas com prompts de texto.
  • Experiência interativa em tempo real: suporta a navegação do usuário em tempo real pelo ambiente gerado, com modelos renderizados em resolução de 720p a 24 quadros por segundo em resposta às ações do usuário.
  • Consistência de longo prazoAmbientes gerados podem permanecer visual e fisicamente consistentes ao longo de uma interação de vários minutos, com a cena permanecendo intacta mesmo depois de sair temporariamente de um ponto de vista e retornar a ele.
  • Física analógica e naturezaCapacidade de simular fenômenos naturais, como água, luz e interações ambientais complexas, bem como a geração de ecossistemas que incorporam o comportamento de plantas e animais.
  • Criação de cenários fictíciosCrie mundos imaginativos de cenas animadas, criaturas de fantasia e estilos artísticos (como o estilo de origami) com base em solicitações.
  • exploração do espaço-tempoLocalização geográfica específica (por exemplo, Veneza) ou cena histórica (por exemplo, o antigo palácio grego de Knossos) pode ser gerada para o usuário explorar.
  • Eventos mundiais que podem ser solicitadosOs usuários podem modificar dinamicamente o ambiente alterando eventos no mundo com novos comandos de texto, além da navegação, como adicionar um urso ou um trator a uma cena existente.
  • Suporte para o treinamento Smart BodyO ambiente gerado pode ser usado como um campo de provas virtual para treinar inteligências de IA de uso geral, como o SIMA, para aprender a concluir tarefas complexas em diversos cenários.

Usando a Ajuda

No momento, o Genie 3 está disponível para visualização limitada a acadêmicos e criadores selecionados, como resultado de pesquisas de ponta, e ainda não está disponível para o público, portanto, não há processo universal de instalação ou registro. A maneira como ele é usado é um novo paradigma interativo que rompe as limitações das ferramentas tradicionais de geração de vídeo. A seção a seguir descreve em detalhes como ele funciona e o processo de uso previsto.

Princípio de funcionamento

No coração do Genie 3 está um "modelo de mundo", o que significa que ele não gera apenas uma série de imagens coerentes, mas tenta entender as regras básicas de um mundo e, com base nessas regras, prevê como o comportamento do usuário mudará esse mundo.

  1. geração autoregressivaEm vez de gerar o vídeo inteiro de uma vez quando você executa uma ação (como andar para frente), o Genie 3 prevê e renderiza quadro a quadro, de forma auto-regressiva. Ele se refere aos quadros anteriores e aos seus novos movimentos para calcular a aparência do próximo quadro. Esse processo ocorre em uma velocidade muito alta (24 vezes por segundo), de modo que parece que você está jogando um jogo real.
  2. Aprenda com um grande número de vídeosPara adquirir esse poderoso recurso de simulação do mundo, o Genie 3 aprendeu uma grande quantidade de vídeos da Internet sem instruções explícitas. Ao assistir a esses vídeos, ele aprendeu de forma autônoma como o mundo funciona, incluindo leis físicas básicas (por exemplo, objetos caem), interações entre diferentes objetos e as características visuais de um determinado ambiente.
  3. Memória e consistênciaPara fazer com que o mundo virtual pareça real, o Genie 3 tem recursos poderosos de memória de cena. Quando você explora uma área, sai e volta, o modelo precisa se lembrar de como a área era antes. O Genie 3 pode manter a consistência da cena por até vários minutos, o que é um grande avanço tecnológico, pois os erros podem se acumular facilmente com o tempo na geração autorregressiva.

Fluxo de uso previsto

Se você tiver acesso ao Genie 3, o processo pode ser o seguinte:

Etapa 1: Crie seu mundo por meio de texto

Primeiro, você precisa fornecer ao Genie 3 um prompt de texto (Prompt) que descreva o mundo que você deseja em linguagem natural. Quanto mais detalhada for a descrição, mais o mundo gerado se ajustará à sua imaginação.

Por exemplo, você pode digitar:

"Um pacífico jardim zen japonês, no início da manhã, com céu limpo. O chão está coberto de areia branca cuidadosamente varrida com padrões ondulantes. O jardim tem um pequeno lago calmo com nenúfares cor-de-rosa flutuando na superfície. Algumas pedras cinzas lisas pontuam a paisagem com musgo crescendo nelas."

Depois de enviar o prompt, o Genie 3 gerará a tela inicial do mundo, e você estará nele, pronto para começar a explorar.

Etapa 2: navegação e exploração em tempo real

Depois de entrar no mundo, você pode usar as teclas de seta semelhantes a um gamepad ou teclado para controlar a perspectiva e o movimento.

  • 向前走Explore as profundezas do jardim.
  • 向左/向右转Observação: Observe a vista de diferentes ângulos.
  • 抬头/低头Observação: Admire o céu ou observe os detalhes no solo.

Cada ação que você realiza é enviada ao modelo, que calcula e renderiza uma nova tela em tempo real, e todo o processo é suave e sem atrasos, exatamente como jogar um jogo de mundo aberto de alta definição.

Etapa 3: modifique dinamicamente o mundo por meio de "eventos de mundo promptable".

Esse é um dos recursos mais revolucionários do Genie 3. A qualquer momento durante a exploração, você pode alterar o ambiente atual ou introduzir novos elementos por meio de novos comandos de texto.

Suponha que você esteja em uma cena de esqui e possa inserir um novo comando:

"Aparece um balão de ar quente".

O Genie 3 gera um balão de ar quente no céu e permite que ele se misture naturalmente ao ambiente atual. Você também pode fazer alterações mais drásticas no mundo, como mudar o clima.

Por exemplo, em uma cena de rua ensolarada em Londres, você poderia digitar:

"Está começando a chover."

O modelo escurecerá o céu e renderizará a chuva em tempo real.

Esse recurso aumenta muito a liberdade de interação e criatividade, transformando o usuário de um "observador" em um "cocriador" do mundo.

cenário do aplicativo

  1. desenvolvimento de jogos
    Transforme rapidamente conceitos de jogos em protótipos jogáveis. Os desenvolvedores podem gerar diversos mundos e níveis de jogos apenas com descrições textuais, eliminando a necessidade de modelagem 3D complexa e design de cenários do zero, o que reduz drasticamente os ciclos de desenvolvimento e inspira a criatividade.
  2. Treinamento corporal inteligente com IA
    Fornece um ambiente de treinamento de simulação quase ilimitado e ricamente variado para inteligência artificial geral (AGI) e robótica. As inteligências de IA podem aprender a navegar, executar tarefas e responder a emergências em uma ampla variedade de mundos virtuais gerados pelo Genie 3, sem a necessidade de treinamento caro e arriscado no mundo real.
  3. Mídia criativa e criação de conteúdo
    Cineastas, animadores e artistas podem usar o Genie 3 para gerar rapidamente cenários visuais exclusivos, cenas de fantasia ou material para histórias interativas. Sua capacidade de transformar descrições textuais diretamente em conteúdo visual dinâmico e interativo oferece uma ferramenta totalmente nova para a expressão criativa.
  4. Educação e treinamento
    Crie simuladores interativos para aprendizado e treinamento profissional. Por exemplo, um cenário histórico realista pode ser gerado para os alunos explorarem, ou um ambiente operacional de equipamento complexo pode ser simulado para os técnicos realizarem treinamento de segurança, proporcionando uma experiência de aprendizado mais imersiva do que os livros ou vídeos tradicionais.

QA

  1. O que é o Genie 3?
    O Genie 3 é um modelo de mundo desenvolvido pelo Google DeepMind que gera um mundo virtual dinâmico no qual os usuários podem entrar, navegar e interagir em tempo real usando avisos textuais.
  2. Qual é a diferença entre o Genie 3 e os modelos normais de geração de vídeo, como o Veo?
    A maior diferença é a "interatividade em tempo real". Os modelos comuns de geração de vídeo geram um videoclipe completo e inalterável de uma só vez, de acordo com o sinal. O Genie 3 gera um ambiente dinâmico em que o usuário pode controlar sua própria perspectiva e comportamento, e a saída do modelo muda em tempo real de acordo com as ações do usuário, como se estivesse jogando um jogo.
  3. Quão real é o mundo gerado pelo Genie 3?
    O Genie 3 faz avanços significativos em termos de realismo visual e coerência física. Ele simula fenômenos naturais, como fluxo de água, luz e sombra, e mantém a consistência de uma cena durante vários minutos de interação. Isso significa que se você explorar um local, sair e voltar, o local permanecerá o mesmo.
  4. Quem atualmente tem acesso ao Genie 3?
    Atualmente, o Genie 3 está disponível apenas como uma prévia de pesquisa para alguns acadêmicos e criadores selecionados. Dessa forma, o Google DeepMind espera obter feedback e fazer com que a tecnologia avance de forma responsável.
  5. Quais são as limitações do Genie 3?
    O Genie 3 ainda está nos estágios iniciais de pesquisa e tem várias limitações, incluindo: o número limitado de ações diretas que podem ser executadas pelas inteligências; a dificuldade de modelar com precisão interações complexas entre várias inteligências; a incapacidade de reproduzir localizações geográficas do mundo real com total precisão; e a duração das interações, que atualmente estão limitadas a alguns minutos.
0Marcado
0Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil