Relatório de desempenho da análise de sentimento
O HumanOmni demonstra um desempenho líder do setor em tarefas de reconhecimento de emoções:
Comparação dos principais indicadores
- Conjunto de dados DFEWIndicador UAR de 74,861 TP3T, significativamente melhor que o GPT4-O (50,571 TP3T)
- precisãoPrecisão média das seis categorias básicas de reconhecimento de emoções 72,3%
- capacidade de respostaProcessamento em tempo real de vídeo de 1080p até 24 fps (placa de vídeo A100)
Vantagem técnica
O modelo usa um mecanismo de análise bimodal:
- análise visualCaptura alterações de microexpressão em 52 pontos-chave do rosto
- análise de vozAnálise das características de entonação/velocidade da fala/pausa por meio de espectros de Mel
- Integração da tomada de decisõesPonderação dinâmica dos dois tipos de sinais usando o mecanismo de atenção
Caso de teste
O modelo foi reconhecido com sucesso no teste de cenário educacional:
- 91,21 Expressão "confusa" de TP3T (combinada com carranca + recursos de piscadas frequentes)
- 88,71 TP3T Estado "eufórico" (avaliado pelo aumento do tom de voz + amplitude dos movimentos corporais)
Esse desempenho se deve às 14.000 horas de dados de fala rotulados e às 800.000 imagens rotuladas por expressão usadas pelo modelo.
Essa resposta foi extraída do artigoHumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanosO































