Posição atual:fig. início » Biblioteca de ferramentas de IA

Cosmos: World Base Model, uma plataforma para criar modelos de base de IA do mundo físico

2025-01-08

Biblioteca de ferramentas de IA/modelo básico

2.8 K 0

fazer uma cópia de

Link diretoVisualização móvel

O NVIDIA Cosmos é uma plataforma de modelo de base mundial para desenvolvedores projetada especificamente para ajudar os desenvolvedores de IA física a criar seus sistemas de IA física de forma melhor e mais rápida. A plataforma oferece uma variedade de modelos pré-treinados, incluindo modelos de base mundial baseados em difusão e autorregressivos, bem como tokenizadores para processamento eficiente de vídeo. O NVIDIA Cosmos oferece suporte a recursos como a geração Text2World e Video2World, que podem gerar simulações visuais com base em dicas textuais ou entrada de vídeo. O NVIDIA Cosmos suporta recursos como a geração de Text2World e Video2World, que podem gerar simulações visuais com base em dicas textuais ou entrada de vídeo. A plataforma é lançada como código aberto sob a licença Apache 2 para treinamento de modelos e scripts de ajuste fino, e sob a licença NVIDIA Open Model Licence para modelos pré-treinados. A plataforma é especificamente otimizada para compreender e gerar cenas físicas, fornecendo um modelo de base avançado para áreas como robótica e direção autônoma.

O que é o NVIDIA Cosmos?

O NVIDIA Cosmos™ é uma plataforma geradora de World Foundation Model (WFM) de última geração que inclui tokenizadores avançados, mecanismos de proteção e fluxos acelerados de processamento e gerenciamento de dados projetados para acelerar o desenvolvimento de sistemas físicos de AI, como carros autônomos (AVs) e robôs. Uma família de modelos pré-treinados para gerar vídeo com reconhecimento físico e estados mundiais criados especificamente para o desenvolvimento de IA física.

NVIDIA Cosmos：世界基础模型，构建物理世界的人工智能基础模型平台-1

Experiência on-line: https://build.nvidia.com/explore/discover

Lista de funções

Fornece um modelo de base mundial baseado em difusão com suporte para geração de Text2World e Video2World
Fornecer modelo de base mundial autorregressivo com suporte à geração Video2World
Eficiente tokenizador de vídeo, suporta conversão de vídeo com token contínuo e discreto
Scripts de pós-treinamento para modelos pré-treinados para adaptação a diferentes cenários físicos de IA
Ferramenta de processo de gerenciamento de conjunto de dados de vídeo (em breve)
Scripts de treinamento completos com suporte para a criação de modelos de base mundial personalizados
Sistema de proteção de segurança integrado para garantir a segurança do conteúdo gerado
Suporta vários tamanhos de modelo (parâmetros 4B/5B/12B/13B) para acomodar diferentes configurações de hardware
Estratégia flexível de descarregamento de modelos para suportar a operação em ambientes com pouca memória gráfica

Usando a Ajuda

1. configuração ambiental

Primeiro, você precisa configurar o ambiente do Docker. Siga o guia de instalação para configurar o ambiente necessário. Todos os comandos precisam ser executados no Docker.

2. downloads de modelos

Gerar tokens de acesso ao Hugging Face com permissões de "Leitura".
Use o seguinte comando para fazer login no Hugging Face:

huggingface-cli login

Faça o download dos pesos do modelo Cosmos:

PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py --model_sizes 4B 5B 12B 13B

3. tipos de modelos e cenários de uso

O Cosmos oferece dois tipos principais de modelos:

Modelos básicos

Versões do modelo: escalas paramétricas 4B e 12B
Principais recursos: Suporte para geração de mundo analógico a partir de entradas de imagem/vídeo
Cenários aplicáveis: necessidade de estender e prever cenas com base no conteúdo visual existente

Modelo Video2World

Versões do modelo: escalas paramétricas 5B e 13B
Principais recursos: Suporte ao uso simultâneo de entradas de texto e imagem/vídeo para gerar simulações de mundo
Cenário: necessidade de geração direcionada e modificação de conteúdo visual com base em descrições textuais

4. capacidade de geração e indicadores de desempenho

Suporta a geração de sequências de vídeo de até 33 quadros
Suporte de entrada para uma única imagem ou 9 quadros de vídeo
Resolução fixa em 1024 x 640
Tempo de inferência em GPUs H100:
- Modelo 4B: aproximadamente 62 segundos
- Modelo 12B: aproximadamente 119 segundos
- Modelo 5B Video2World: aprox. 73 segundos
- Modelo 13B Video2World: aprox. 150 segundos

5. estratégias de otimização de memória

O Cosmos oferece uma variedade de opções de otimização de memória que podem ser usadas para reduzir o espaço de memória por meio de diferentes estratégias de descarregamento de modelos:

Sem estratégia de otimização: o modelo 4B requer 31,3 GB, o modelo 12B requer 47,5 GB
Estratégia totalmente otimizada: até 18,7 GB para modelos 4B e 27,4 GB para modelos 12B
O modelo Video2World também oferece opções de otimização semelhantes

6. funções de segurança

Sistema de proteção de segurança integrado e não desativável
Detecção automática e desfoque do conteúdo facial
A filtragem de segurança de conteúdo garante que os resultados gerados estejam em conformidade com os padrões de segurança

Serviços abertos de IA Projeto de código aberto de IA

Ferramentas de produtividade de IA » Cosmos: World Base Model, uma plataforma para criar modelos de base de IA do mundo físico Publicado em 2025-01-08, entre em contato conosco se achar que o URL está desatualizado ou inacessível.

0Marcado

0Recomendado

Cosmos: World Base Model, uma plataforma para criar modelos de base de IA do mundo físico

Lista de funções

Usando a Ajuda

1. configuração ambiental

2. downloads de modelos

3. tipos de modelos e cenários de uso

Modelos básicos

Modelo Video2World

4. capacidade de geração e indicadores de desempenho

5. estratégias de otimização de memória

6. funções de segurança

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Cosmos: World Base Model, uma plataforma para criar modelos de base de IA do mundo físico

Lista de funções

Usando a Ajuda

1. configuração ambiental

2. downloads de modelos

3. tipos de modelos e cenários de uso

Modelos básicos

Modelo Video2World

4. capacidade de geração e indicadores de desempenho

5. estratégias de otimização de memória

6. funções de segurança

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida