HumanOmni是业界首个专注于人类视频分析的多模态开源大模型

2025-08-28

1.4 K

HumanOmni的行业领先性

HumanOmni由HumanMLLM团队开发并开源在GitHub上，是当前业界首个以人类视频分析为核心任务的多模态大模型。该模型创新性地整合了240万个以人为中心的视频片段和1400万条指令数据进行预训练，并采用5万个精细标注视频片段进行微调。

其核心价值体现在三个方面：

相比传统单模态模型，HumanOmni在DFEW情感识别数据集上达到74.86%的UAR，显著领先GPT4-O的50.57%。这一突破性表现印证了其作为领域首创模型的技术优势。