Soluções para melhorar a precisão da análise de sentimento de vídeo
Para resolver o problema da análise imprecisa de sentimentos em vídeos, é possível usar a seguinte abordagem multidimensional:
- Otimização do pré-processamento de dadosObservação: Garanta uma nitidez de vídeo de pelo menos 1080p e uma taxa de amostragem de áudio ≥ 16kHz para evitar distorção de compressão. Recomenda-se usar equipamento de vídeo profissional para filmar amostras
- Estratégia de fusão multimodalAtivar o modo video_audio do HumanOmni (adicionar o parâmetro -modal video_audio) para analisar as expressões faciais e a entonação da voz, por exemplo: python inference.py -modal video_audio -model_path . /HumanOmni_7B -video_path sample.mp4 -instruct "Analyse emotion considering both face and voice "
- Programa de ajuste de parâmetrosAjuste o parâmetro -temperature para um intervalo de 0,7 a 1,2 para aumentar a diversidade de resultados quando as emoções forem complexas. Adicione os parâmetros -top_k 40 e -top_p 0,9 para otimizar a geração de resultados.
- Mecanismo de iteração de feedbackModelo: o modelo pode ser ajustado com um conjunto de dados personalizado para resultados errôneos, prepare mais de 100 amostras anotadas para executar: bash scripts/train/finetune_humanomni.sh
Observação especial: a luz ambiente insuficiente reduzirá a precisão do reconhecimento facial 37%; recomenda-se que o vídeo seja capturado em um ambiente com mais de 500lux. Câmeras com vários ângulos podem ser configuradas para análise simultânea de cenas importantes.
Essa resposta foi extraída do artigoHumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanosO































