As etapas para obter a orientação temporal do vídeo são as seguintes:
- Preparando o arquivo de vídeoVídeo de destino: Coloque o vídeo de destino (por exemplo, no formato MP4) na pasta
data/input/Catálogo. - Definição da consulta:: Especifique a descrição do evento que precisa ser localizado, como a "dança do personagem" ou a "cena de abertura".
- Execute o script de localizaçãoExecutar comando
python inference.py --video_path data/input/sample.mp4 --task temporal_grounding --query "人物跳舞". - Obtenção de resultadosSaída em formato de período de tempo (por exemplo, 00:04-00:06), que pode ser usado diretamente para edição ou pesquisa de vídeo.
Esse recurso se baseia na compreensão visual e de fala combinada do modelo e é adequado para extrair rapidamente os principais segmentos de vídeo. Recomenda-se usá-lo em conjunto com o recurso de anotação de registro de data e hora para obter informações mais detalhadas sobre o contexto do evento.
Essa resposta foi extraída do artigoARC-Hunyuan-Video-7B: um modelo inteligente para entender o conteúdo de vídeos curtosO

































