R1-Omni由HumanMLLM团队开发,代表了情感计算领域的重要突破。该模型创新性地将强化学习与可验证奖励(RLVR)技术整合到多模态大语言模型中,通过HumanOmni-0.5B基础模型实现先进的情绪识别能力。相比传统方法,这种技术组合显著提升了模型在复杂场景下的推理和适应能力。
模型主要功能包括:
- 多模态情感分析:同时处理视频和音频数据
- 情绪状态识别:准确判断愤怒、快乐、惊讶等多种情绪
- 强化学习优化:采用RLVR技术增强模型性能
在DFEW和MAFW等标准测试集上的表现验证了其有效性,如在DFEW的情绪识别准确率(WAR)达到65.83%,远高于基础模型的22.64%。
This answer comes from the articleR1-Omni: an open source model for analyzing emotions through video and audioThe