Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O NVIDIA Cosmos é uma plataforma de modelo de base mundial para desenvolvedores projetada especificamente para ajudar os desenvolvedores de IA física a criar seus sistemas de IA física de forma melhor e mais rápida. A plataforma oferece uma variedade de modelos pré-treinados, incluindo modelos de base mundial baseados em difusão e autorregressivos, bem como tokenizadores para processamento eficiente de vídeo. O NVIDIA Cosmos oferece suporte a recursos como a geração Text2World e Video2World, que podem gerar simulações visuais com base em dicas textuais ou entrada de vídeo. O NVIDIA Cosmos suporta recursos como a geração de Text2World e Video2World, que podem gerar simulações visuais com base em dicas textuais ou entrada de vídeo. A plataforma é lançada como código aberto sob a licença Apache 2 para treinamento de modelos e scripts de ajuste fino, e sob a licença NVIDIA Open Model Licence para modelos pré-treinados. A plataforma é especificamente otimizada para compreender e gerar cenas físicas, fornecendo um modelo de base avançado para áreas como robótica e direção autônoma.

O que é o NVIDIA Cosmos?

O NVIDIA Cosmos™ é uma plataforma geradora de World Foundation Model (WFM) de última geração que inclui tokenizadores avançados, mecanismos de proteção e fluxos acelerados de processamento e gerenciamento de dados projetados para acelerar o desenvolvimento de sistemas físicos de AI, como carros autônomos (AVs) e robôs. Uma família de modelos pré-treinados para gerar vídeo com reconhecimento físico e estados mundiais criados especificamente para o desenvolvimento de IA física.

NVIDIA Cosmos: modelo de base mundial, plataforma para criar modelos de base de IA para o mundo físico-1

Experiência on-line: https://build.nvidia.com/explore/discover

 

Lista de funções

  • Fornece um modelo de base mundial baseado em difusão com suporte para geração de Text2World e Video2World
  • Fornecer modelo de base mundial autorregressivo com suporte à geração Video2World
  • Eficiente tokenizador de vídeo, suporta conversão de vídeo com token contínuo e discreto
  • Scripts de pós-treinamento para modelos pré-treinados para adaptação a diferentes cenários físicos de IA
  • Ferramenta de processo de gerenciamento de conjunto de dados de vídeo (em breve)
  • Scripts de treinamento completos com suporte para a criação de modelos de base mundial personalizados
  • Sistema de proteção de segurança integrado para garantir a segurança do conteúdo gerado
  • Suporta vários tamanhos de modelo (parâmetros 4B/5B/12B/13B) para acomodar diferentes configurações de hardware
  • Estratégia flexível de descarregamento de modelos para suportar a operação em ambientes com pouca memória gráfica

 

Usando a Ajuda

1. configuração ambiental

Primeiro, você precisa configurar o ambiente do Docker. Siga o guia de instalação para configurar o ambiente necessário. Todos os comandos precisam ser executados no Docker.

2. downloads de modelos

  1. Gerar tokens de acesso ao Hugging Face com permissões de "Leitura".
  2. Use o seguinte comando para fazer login no Hugging Face:
huggingface-cli login
  1. Faça o download dos pesos do modelo Cosmos:
PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3. tipos de modelos e cenários de uso

O Cosmos oferece dois tipos principais de modelos:

Modelos básicos

  • Versões do modelo: escalas paramétricas 4B e 12B
  • Principais recursos: Suporte para geração de mundo analógico a partir de entradas de imagem/vídeo
  • Cenários aplicáveis: necessidade de estender e prever cenas com base no conteúdo visual existente

Modelo Video2World

  • Versões do modelo: escalas paramétricas 5B e 13B
  • Principais recursos: Suporte ao uso simultâneo de entradas de texto e imagem/vídeo para gerar simulações de mundo
  • Cenário: necessidade de geração direcionada e modificação de conteúdo visual com base em descrições textuais

4. capacidade de geração e indicadores de desempenho

  • Suporta a geração de sequências de vídeo de até 33 quadros
  • Suporte de entrada para uma única imagem ou 9 quadros de vídeo
  • Resolução fixa em 1024 x 640
  • Tempo de inferência em GPUs H100:
    • Modelo 4B: aproximadamente 62 segundos
    • Modelo 12B: aproximadamente 119 segundos
    • Modelo 5B Video2World: aprox. 73 segundos
    • Modelo 13B Video2World: aprox. 150 segundos

5. estratégias de otimização de memória

O Cosmos oferece uma variedade de opções de otimização de memória que podem ser usadas para reduzir o espaço de memória por meio de diferentes estratégias de descarregamento de modelos:

  • Sem estratégia de otimização: o modelo 4B requer 31,3 GB, o modelo 12B requer 47,5 GB
  • Estratégia totalmente otimizada: até 18,7 GB para modelos 4B e 27,4 GB para modelos 12B
  • O modelo Video2World também oferece opções de otimização semelhantes

6. funções de segurança

  • Sistema de proteção de segurança integrado e não desativável
  • Detecção automática e desfoque do conteúdo facial
  • A filtragem de segurança de conteúdo garante que os resultados gerados estejam em conformidade com os padrões de segurança
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil