Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Code2Video é uma estrutura inovadora de geração de vídeo do NUS Show Lab, com uma filosofia central de geração "centrada em código" de vídeos educacionais de alta qualidade. Diferentemente dos modelos tradicionais de vídeo de IA que geram pixels diretamente (por exemplo, Sora), o Code2Video não "desenha" o vídeo diretamente, mas o "renderiza" escrevendo um código Python executável (baseado no mecanismo Manim). Essa abordagem resolve o problema dos modelos tradicionais de geração de vídeo. Essa abordagem resolve as deficiências dos modelos tradicionais de geração de vídeo em termos de rigor lógico, precisão geométrica e clareza do texto, e é especialmente adequada para a geração de vídeos instrucionais do tipo STEM para matemática, física, ciência da computação e outras áreas que exigem representação precisa. A estrutura consiste em três inteligências de IA colaborativas: um Planejador para projetar os storyboards, um Codificador para escrever e depurar o código e um Crítico para revisão visual e otimização. Por meio dessa colaboração, o Code2Video é capaz de transformar simples fragmentos textuais de conhecimento em vídeos instrucionais profissionais comparáveis a produções manuais, como o estilo 3Blue1Brown.

Lista de funções

  • Planejamento inteligente em tela dividida (Planner Agent)Transforma automaticamente pontos de conhecimento de entrada ou textos curtos em roteiros de vídeo detalhados e storyboards visuais que planejam a ascensão e a queda do vídeo.
  • Geração automatizada de código (Coder Agent)Script de linguagem natural: transforma scripts de linguagem natural em código Python (Manim) executável que suporta fórmulas matemáticas complexas, geometria e lógica de animação.
  • Autocorreção e depuraçãoMecanismo integrado de detecção de erros: quando o código gerado relata um erro, o sistema pode analisar automaticamente o registro de erros e corrigir o código para garantir que ele possa ser executado com êxito.
  • Análise da qualidade visual (agente crítico)O Modelo de Linguagem Visual (VLM) é usado como um "guia estético" para verificar o layout, a sobreposição e a clareza das imagens geradas e sugerir alterações para alimentar o codificador.
  • Renderização vetorial de alta precisãoCom base no mecanismo Manim, o vídeo resultante é renderizado com clareza de resolução infinita, sem borrões ou artefatos em fórmulas e textos.
  • Suporte à API de vários modelosSuporte ao acesso a Claude, Gemini, GPT-4 e outros modelos de linguagem grandes e convencionais como o driver lógico de back-end.

Usando a Ajuda

O Code2Video é uma ferramenta de linha de comando de código aberto que requer um ambiente Python configurado localmente para ser executado. Aqui está um processo detalhado de instalação e uso para ajudá-lo a gerar seu primeiro vídeo instrucional do zero.

1. preparação e instalação do ambiente

Primeiro, verifique se você tem o Anaconda ou o Miniconda e o Git instalados em seu computador.

Etapa 1: clonar o código do projeto
Abra o Terminal ou um prompt de comando e execute o seguinte comando para fazer o download do projeto:

git clone https://github.com/showlab/Code2Video.git
cd Code2Video

Etapa 2: criar um ambiente virtual
Para evitar conflitos de dependência, crie um ambiente Python separado (recomenda-se o Python 3.9+):

conda create -n code2video python=3.9 -y
conda activate code2video

Etapa 3: Instale as dependências do sistema (Linux, por exemplo)
O mecanismo Manim requer algumas bibliotecas de nível de sistema (por exemplo, ffmpeg, cairo).

sudo apt-get update
sudo apt-get install libcairo2-dev libpango1.0-dev ffmpeg

Observação: Para usuários do Windows, consulte a documentação oficial do Manim para instalar o ffmpeg e o latex.

Etapa 4: Instalar as dependências do Python
O projeto otimizou recentemente as dependências e a velocidade de instalação foi significativamente aprimorada:

pip install -r requirements.txt

2) Configurar a chave da API

O Code2Video depende do Large Language Model para gerar código. Você precisa configurar a chave de API para o LLM.
Localize o arquivo de configuração no diretório raiz do projeto (geralmente no diretório config ou por meio de configurações de variáveis de ambiente). Recomenda-se exportar as variáveis de ambiente diretamente no terminal:

# 以使用 Claude 为例
export ANTHROPIC_API_KEY="sk-ant-..."
# 或者使用 OpenAI
export OPENAI_API_KEY="sk-..."

Dica: Certifique-se de que sua conta tenha o suficiente Token Valor.

3. geração de vídeo (operações principais)

O Code2Video oferece um conveniente script de inicialização run_agent_single.sh para gerar vídeos de pontos de conhecimento individuais.

Formato de comando básico:

bash run_agent_single.sh [模型API] [输出文件夹前缀] "[知识点描述]"

Exemplo de operação:
Suponha que você queira gerar um vídeo sobre o teorema de Pitágoras, usando o modelo Claude-3.5-Sonnet, como segue:

  1. Editar o script de inicialização (opcional)::
    Você pode executar o comando diretamente ou abrir o arquivo run_agent_single.sh Visualizar os parâmetros padrão.
  2. Executar o comando generate::
    bash run_agent_single.sh claude-3-5-sonnet test_output "The Pythagorean theorem explains the relationship between the three sides of a right-angled triangle"
    

Explicação do parâmetro:

  • claude-3-5-sonnetModelo de inferência: Especifique o modelo de inferência a ser usado, recomendando um modelo com fortes recursos de programação.
  • test_outputO vídeo gerado e os arquivos intermediários serão salvos na pasta experiments/test_output Catálogo.
  • "..."Descrição: Essa é a entrada mais importante, uma descrição clara em uma frase do ponto que você deseja ensinar.

4. visualização dos resultados

Enquanto o programa está em execução, o terminal exibe um registro da colaboração entre as três inteligências:

  1. Planejador Produzirá uma descrição bem elaborada da subtrama.
  2. Codificador Ele exibe o código Python que está sendo gerado e tenta novamente de forma automática se for relatado um erro.
  3. Crítica É fornecida uma pontuação de avaliação da tela atual.

Após a conclusão da execução, vá para experiments/test_output você verá:

  • .mp4 Arquivo: Vídeo HD final renderizado.
  • .py Arquivo: Código-fonte do Manim gerado (você pode modificar manualmente esse código para ajustar o vídeo).
  • log.txtRegistro: um registro completo do processo de geração.

5. técnicas avançadas

  • Material personalizadoSe o vídeo exigir um ícone específico, você poderá colocar o arquivo SVG na pasta assets e mencionada na palavra-chave.
  • Comprimento de ajusteNo prompt de entrada, você pode especificar "Generate a video of about 30 seconds" (Gerar um vídeo de aproximadamente 30 segundos) e o Planner ajustará o número de tomadas de acordo.

cenário do aplicativo

  1. Ensino de matemática e física
    O professor digita "Explain the basic principle of Fourier transform" (Explique o princípio básico da transformada de Fourier), e o sistema gera automaticamente um vídeo de demonstração com animação dinâmica sobreposta à forma de onda, que demonstra visualmente os conceitos abstratos.
  2. Visualização de algoritmos
    Os alunos de ciência da computação digitam "Demonstration of the binary lookup algorithm" (Demonstração do algoritmo de pesquisa binária) para gerar uma animação que mostre o processo de movimentação e pesquisa de um índice de matriz para uso em blogs técnicos ou apresentações de trabalhos de casa.
  3. Produção automatizada de cursos on-line
    As instituições educacionais podem inserir em lote o catálogo de livros didáticos no sistema e produzir rapidamente uma série de vídeos curtos explicando conceitos básicos para criar uma biblioteca de aulas padronizadas.
  4. Apresentação do trabalho de pesquisa
    Os pesquisadores podem inserir fórmulas essenciais ou modelar a lógica dos documentos para gerar animações esquemáticas altamente precisas para uso em apresentações de conferências acadêmicas ou resumos em vídeo.

QA

  1. Qual é a diferença entre a Code2Video e a Sora/Runway?
    O Code2Video não gera pixels diretamente, mas "código". Isso significa que ele gera vídeos com lógica absolutamente correta (porque se baseia em fórmulas matemáticas) e texto e linhas infinitamente claros, o que o torna perfeito para a educação e a popularização da ciência. Sora e outros modelos são adequados para gerar vídeos criativos realistas ou artísticos, mas são fracos em termos de precisão textual e lógica.
  2. Posso usá-lo se não souber programar?
    Pode. Tudo o que você precisa fazer é inserir uma descrição de texto (palavra de prompt) e o sistema completará automaticamente o código. Mas se você souber um pouco de Python/Manim, poderá modificar o código gerado diretamente e obter um nível maior de controle.
  3. E se o vídeo gerado for muito curto?
    A versão atual gera vídeos curtos (geralmente de 10 a 60 segundos) sobre um único tópico. Se você precisar de um vídeo longo, é recomendável dividir o tópico grande em vários pontos de conhecimento pequenos e gerá-los separadamente e, por fim, mesclá-los no software de edição.
  4. Falta o ffmpeg durante a instalação?
    O Manim depende muito do ffmpeg para a composição de vídeo. Certifique-se de digitar ffmpeg -version Os usuários do Windows precisam fazer o download manual do ffmpeg e adicionar seu diretório bin à variável de ambiente do sistema Path.
  5. Ele suporta entrada em chinês?
    Suporte. Embora o código subjacente esteja em inglês, você pode descrever os pontos de conhecimento em chinês. Para obter um efeito melhor, sugerimos adicionar "Por favor, use chinês para o texto no vídeo" no prompt ou substitua diretamente o texto por chinês no código gerado.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

Ferramentas de IA mais recentes

voltar ao topo

pt_BRPortuguês do Brasil