Três opções para aprimorar os recursos de processamento de vídeo do CogVLM2
O CogVLM2 suporta a compreensão de vídeo de 1 minuto por padrão, mas a capacidade de processamento pode ser ampliada por meio de otimização técnica:
- Otimização da extração de quadros-chaveMudança para uma estratégia de amostragem dinâmica, aumentando a densidade de amostragem para segmentos com grandes mudanças de movimento (recomenda-se a implementação do OpenCV)
- processamento distribuídoProcessamento de vídeos longos em segmentos de 1 minuto para processá-los em paralelo e, por fim, mesclar os resultados (requer cerca de 20% de sobrecarga adicional de memória gráfica)
- Modelo leveO tempo de processamento do cogvlm2-video-4bit é de 40%, o que significa que a versão quantificada de 4 bits do cogvlm2-video-4bit é usada.
Exemplo de código:
importar cv2
from cogvlm2 import CogVLM2
modelo = CogVLM2.load('video_model')
cap = cv2.VideoCapture('long_video.mp4')
# Intervalo de quadro-chave personalizado (padrão: 2 segundos/quadro)
frame_interval = 1 # Ajustado para 1 segundo/quadro
enquanto True:
ret, frame = cap.read()
if not ret: break
if int(cap.get(1)) % frame_interval == 0:.
resultado = model.predict(frame)
print(result)
advertênciaRecomendamos o uso do processamento em lote da API do serviço de nuvem para mais de 3 minutos de vídeo; a implementação local precisa levar em conta o limite de memória de vídeo.
Essa resposta foi extraída do artigoCogVLM2: modelo multimodal de código aberto para apoiar a compreensão de vídeos e várias rodadas de diálogoO































