当前位置：首页 » AI答疑

怎样提升视觉语言模型在指代表达理解任务中的准确率？

2025-09-05

1.7 K

提升 REC 任务性能的实操指南

指代表达理解（REC）是 VLM-R1 的核心能力，通过以下方法可显著提升其准确率：

数据优化策略：
- 使用 RefCOCO 数据集的完整标注版本
- 在 data_config/rec.yaml 中配置数据增强参数
关键训练技巧：
- 设置 bf16 和 torch_dtype=bfloat16 确保数值稳定性
- 控制 max_prompt_length 与 query 长度匹配
- 合理设置 per_device_train_batch_size（推荐从 1 开始调试）
模型微调方案：
1. 从 Qwen2.5-VL-3B-Instruct 进行迁移学习
2. 使用 –gradient_accumulation_steps 控制更新频率
3. 通过 –logging_steps 监控训练过程

注意：在 HuggingFace 演示页面测试不同 prompt 表述对结果的影响，对于易混淆物体可增加训练样本。