Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

O HumanOmni é o primeiro grande modelo multimodal de código aberto do setor voltado para a análise de vídeo humano

2025-08-28 1.6 K

Liderança do HumanOmni no setor

Desenvolvido pela equipe do HumanMLLM e com código aberto no GitHub, o HumanOmni é atualmente o primeiro macromodelo multimodal do setor com análise de vídeo humano como sua tarefa principal. O modelo integra de forma inovadora 2,4 milhões de videoclipes centrados no ser humano e 14 milhões de dados de instrução para pré-treinamento, e usa 50.000 videoclipes finamente rotulados para ajuste fino.

Seus valores fundamentais estão refletidos em três áreas:

  • Dimensões completas da análiseCobertura simultânea de expressão facial, movimento corporal e reconhecimento interativo de cenas
  • Mecanismos de integração dinâmicaOs pesos dos três ramos de análise podem ser ajustados automaticamente de acordo com os inputs.
  • Propriedades de código abertoDisponibilidade total de código, modelos pré-treinados e conjuntos de dados parciais

Em comparação com os modelos unimodais tradicionais, o HumanOmni alcança um UAR de 74,861 TP3T no conjunto de dados de reconhecimento de emoções DFEW, significativamente à frente dos 50,571 TP3T do GPT4-O. Esse desempenho revolucionário confirma sua superioridade tecnológica como um modelo que prioriza o domínio.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo