R1-Omni二次开发实施指南
进行定制化开发需要以下关键步骤:
- 数据准备阶段:按照官方JSON格式准备标注数据,需包含
video
路径和conversations
对话模板 - 模型微调方法:使用Explainable Multimodal Emotion Reasoning数据集(232样本)进行冷启动训练
- 功能扩展接口:修改
inference.py
中的输出处理逻辑,增加自定义情感类别
详细开发流程:
- 克隆GitHub仓库并创建开发分支
- 在
config.json
中添加新情感标签(如新增"excited"
) - 准备至少100条包含新情感的视频-文本配对数据
- 运行
python train.py --data_dir ./custom_data
启动微调
注意事项:当前公开训练数据有限,建议关注项目更新。RLVR训练需要MAFW和DFEW数据集(共15,306视频),可通过--rlvr
参数启用强化学习训练模式。
本答案来源于文章《R1-Omni:通过视频和音频分析情感的开源模型》