Uma abordagem de otimização para a compreensão de ações em cenas sociais complexas
Uma estratégia de processamento hierárquico é recomendada para a compreensão da ação em cenários de interação com várias pessoas:
- Tecnologia de segmentação de cenasROI: primeiro extraia os quadros-chave do vídeo com o OpenCV (em intervalos de 0,5 segundo), obtenha as caixas delimitadoras individuais com -instruct "Segment all visible persons" e, em seguida, analise cada ROI individualmente
- Aprimoramento de ramificação dinâmicaAdicione o parâmetro -branch_weight para atribuir manualmente três pesos de ramificação (padrão 0,3:0,4:0,3), por exemplo, 0,2:0,3:0,5 para cenários de interação, exemplo: python inference.py -modal video -branch_weight 0.2 0.3 0.5 -instruct "Analyse group interaction patterns" (Analisar padrões de interação de grupo)
- Aprimoramentos na modelagem de tempo:对于超过30秒的长视频,建议先使用FFmpeg分段处理:ffmpeg -i input.mp4 -c copy -segment_time 00:00:30 -f segment output_%03d.mp4
- dica de aprimoramento semânticoFaça com que os elementos do cenário fiquem explícitos nas instruções, por exemplo, "Descreva as ações considerando-as em um contexto de reunião de negócios".
As medições mostram que essa solução pode aumentar a precisão do reconhecimento de ações de interação na cena da sala de conferência de 68% para 82%. Para cenas com mais de 5 pessoas, recomenda-se o uso de placas de vídeo NVIDIA A100 para garantir o desempenho em tempo real.
Essa resposta foi extraída do artigoHumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanosO































