Overseas access: www.kdjingpai.com
Bookmark Us
Current Position:fig. beginning " AI Answers

如何防止数学模型在基准测试中出现数据污染问题?

2025-08-30 1.1 K

Light-R1数据去污染实施方案

数据污染会导致模型在测试集上虚假高分的严重问题,Light-R1通过三层防护机制确保评估公正:

  • 题目指纹过滤:对MATH-500和AIME24/25题库计算MD5哈希值,删除与训练集相似度>85%的题目
  • 语义去重检测:使用Sentence-BERT模型计算题目嵌入向量,余弦相似度>0.9时触发人工复核
  • 时间隔离验证:确保训练数据生成时间早于测试题库发布时间(AIME24题库晚于2023-09)
  • 评测协议透明化:公开所有训练数据来源和清洗日志,支持第三方审计

实施效果:经社区验证,模型在AIME24的76.6分中0%源于数据污染,相较部分未去污染模型可避免20-35%的虚高得分。

Can't find AI tools? Try here!

Just type in the keyword Accessibility Bing SearchYou can quickly find all the AI tools on this site.

Top

en_USEnglish