场景化效果调优方案
针对不同的应用场景,可采取以下优化策略:
- 单图描述场景::
- 增加sft_vlm_data.jsonl中图像描述的样本比例
- 调整temperature参数控制生成多样性
- 在prompt中加入”请详细描述这张图片”等引导词
- 问答场景::
- 收集领域特定的QA数据加入微调集
- 修改LMConfig.py中max_seq_len参数扩展上下文
- 使用few-shot prompting提供示例
- 多图推理场景::
- 增加sft_vlm_data_multi.jsonl数据量
- 调整视觉token的position embedding
- 在输入中添加明确的图片顺序指示
通用优化建议:1) 在相同数据上增加训练epoch 2) 尝试dim=768的中型配置 3) 使用beam search改善生成质量。项目web_demo_vlm.py已内置效果评估工具,可实时测试优化效果。
This answer comes from the articleMiniMind-V: 1 hour training of a 26M parameter visual language modelThe