Drei Optionen zur Erweiterung der Videoverarbeitungsfunktionen des CogVLM2
CogVLM2 unterstützt standardmäßig das Verstehen von 1-Minuten-Videos, aber die Verarbeitungsleistung kann durch technische Optimierung erweitert werden:
- Optimierung der Keyframe-ExtraktionUmstellung auf eine dynamische Sampling-Strategie, die die Sampling-Dichte für Segmente mit großen Bewegungsänderungen erhöht (OpenCV-Implementierung empfohlen)
- verteilte VerarbeitungSlicing langer Videos in 1-Minuten-Segmente, um sie parallel zu verarbeiten und schließlich die Ergebnisse zusammenzuführen (erfordert etwa 20% zusätzlichen Grafikspeicher-Overhead)
- Modell Leichtgewicht: Es wird die quantisierte 4-Bit-Version von cogvlm2-video-4bit verwendet, mit einer um 40% längeren Verarbeitungszeit.
Code-Beispiel:
cv2 importieren
from cogvlm2 import CogVLM2
model = CogVLM2.load('video_model')
cap = cv2.VideoCapture('long_video.mp4')
# Benutzerdefiniertes Keyframe-Intervall (Standard 2 Sek/Bild)
frame_interval = 1 # Angepasst auf 1 Sekunde/Bild
while True:
ret, frame = cap.read()
if not ret: break
if int(cap.get(1)) % frame_interval == 0:.
Ergebnis = model.predict(frame)
drucken(Ergebnis)
caveatMehr als 3 Minuten Video werden empfohlen, um die Stapelverarbeitung der API des Cloud-Dienstes zu nutzen; bei der lokalen Bereitstellung muss der begrenzte Videospeicher berücksichtigt werden.
Diese Antwort stammt aus dem ArtikelCogVLM2: ein quelloffenes multimodales Modell zur Unterstützung des Videoverstehens und mehrerer DialogrundenDie































