Overseas access: www.kdjingpai.com
Bookmark Us
Current Position:fig. beginning " AI Answers

Light-R1是360开源的一款专注于数学长链推理领域的AI模型

2025-08-30 1.1 K

Light-R1是奇虎360团队开发的专业级开源AI模型,其核心定位是解决数学领域的长链推理问题。该模型基于Qwen2.5-32B-Instruct架构,通过创新性的课程式监督微调(SFT)和直接偏好优化(DPO)训练方法实现性能突破。在AIME24和AIME25两项国际数学竞赛评测中,分别取得76.6和64.6的高分,显著超越了同类模型DeepSeek-R1-Distill-Qwen-32B的表现。项目的技术亮点包括采用去污染数据预处理技术、创新的模型融合方法以及独特的硬编码推理标记设计,使得训练成本控制在1000美元以内(12台H800服务器6小时训练)。

作为完全开源项目,Light-R1不仅提供预训练模型,还公开了完整的训练数据集、评估工具和基于360-LLaMA-Factory的训练脚本。这种开放模式为数学推理模型的研发设立了新的技术标杆,特别是在长链推理能力优化方面提供了可复现的技术方案。

Recommended

Can't find AI tools? Try here!

Just type in the keyword Accessibility Bing SearchYou can quickly find all the AI tools on this site.

Top

en_USEnglish