Ovis2系列的推理能力提升
Ovis2系列相比前代在推理能力方面有显著提升,主要得益于:
- 采用指令调优技术优化模型响应
- 通过DPO(Direct Preference Optimization)训练强化逻辑推理
- 增加多模态上下文长度(最高支持32768)
这些改进使Ovis2能够处理更复杂的推理任务。例如在分析”图片中有几个人?请逐步说明”这类问题时,模型会分步骤进行详细解释:”第一步观察左侧有一个人,第二步观察右侧有第二个人”。
在教育领域和数据分析任务中,这种增强推理能力特别有价值,能够提供更精确、结构化的输出结果。
本答案来源于文章《Ovis:视觉与文本对齐模型,精准反推图像提示词》