Liderança do HumanOmni no setor
Desenvolvido pela equipe do HumanMLLM e com código aberto no GitHub, o HumanOmni é atualmente o primeiro macromodelo multimodal do setor com análise de vídeo humano como sua tarefa principal. O modelo integra de forma inovadora 2,4 milhões de videoclipes centrados no ser humano e 14 milhões de dados de instrução para pré-treinamento, e usa 50.000 videoclipes finamente rotulados para ajuste fino.
Seus valores fundamentais estão refletidos em três áreas:
- Dimensões completas da análiseCobertura simultânea de expressão facial, movimento corporal e reconhecimento interativo de cenas
- Mecanismos de integração dinâmicaOs pesos dos três ramos de análise podem ser ajustados automaticamente de acordo com os inputs.
- Propriedades de código abertoDisponibilidade total de código, modelos pré-treinados e conjuntos de dados parciais
Em comparação com os modelos unimodais tradicionais, o HumanOmni alcança um UAR de 74,861 TP3T no conjunto de dados de reconhecimento de emoções DFEW, significativamente à frente dos 50,571 TP3T do GPT4-O. Esse desempenho revolucionário confirma sua superioridade tecnológica como um modelo que prioriza o domínio.
Essa resposta foi extraída do artigoHumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanosO































