自定义模型训练指南
LettuceDetect支持基于自有数据的模型微调,具体流程如下:
Data preparation
- 下载标准格式的RAGTruth数据集
- 存放至
data/ragtruth
catalogs - 运行预处理脚本生成训练数据
训练执行
python scripts/train.py --data_path data/ragtruth/ragtruth_data.json --model_name answerdotai/ModernBERT-base --output_dir outputs/hallucination_detector --batch_size 4 --epochs 6 --learning_rate 1e-5
Description of key parameters
- batch_size:根据GPU显存调整
- epochs:通常3-6轮即可
- learning_rate:建议1e-5到5e-5
训练完成后,可将新模型路径传入HallucinationDetector
初始化使用。该功能适合需要针对特定领域优化检测效果的进阶用户。
This answer comes from the articleLettuceDetect: an efficient tool for detecting hallucinations in the RAG systemThe