Light-R1数据去污染实施方案
数据污染会导致模型在测试集上虚假高分的严重问题,Light-R1通过三层防护机制确保评估公正:
- 题目指纹过滤:对MATH-500和AIME24/25题库计算MD5哈希值,删除与训练集相似度>85%的题目
- 语义去重检测:使用Sentence-BERT模型计算题目嵌入向量,余弦相似度>0.9时触发人工复核
- 时间隔离验证:确保训练数据生成时间早于测试题库发布时间(AIME24题库晚于2023-09)
- 评测协议透明化:公开所有训练数据来源和清洗日志,支持第三方审计
实施效果:经社区验证,模型在AIME24的76.6分中0%源于数据污染,相较部分未去污染模型可避免20-35%的虚高得分。
Essa resposta foi extraída do artigoLight-R1: 360 modelo de inferência soberba de código aberto para o domínio matemáticoO