海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

HumanOmni是业界首个专注于人类视频分析的多模态开源大模型

2025-08-28 1.4 K

HumanOmni的行业领先性

HumanOmni由HumanMLLM团队开发并开源在GitHub上,是当前业界首个以人类视频分析为核心任务的多模态大模型。该模型创新性地整合了240万个以人为中心的视频片段和1400万条指令数据进行预训练,并采用5万个精细标注视频片段进行微调。

其核心价值体现在三个方面:

  • 完整的分析维度:同时覆盖面部表情、身体动作和互动场景的识别
  • 动态融合机制:可根据输入内容自动调整三个分析分支的权重
  • 开源属性:完整提供代码、预训练模型和部分数据集

相比传统单模态模型,HumanOmni在DFEW情感识别数据集上达到74.86%的UAR,显著领先GPT4-O的50.57%。这一突破性表现印证了其作为领域首创模型的技术优势。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文