zChunk提供两层级超参数调优体系:
parâmetro básico
- chunk_size(分块尺寸)
• 典型值:256-2048字符
• 优化建议:与技术文档相比,小说类文本可使用更大分块 - overlap_ratio(重叠比例)
• 典型值:10%-30%
• 优化技巧:法律文本建议较高重叠(25%+),新闻稿可降低至15%
高级参数
- temperature(采样温度)
控制LLM分块决策的随机性,处理创意文本时可适当提高 - top_k(候选标记数)
影响分块边界检测精度,复杂文档推荐值50-100 - repetition_penalty(重复惩罚)
防止过度分段,对长段落文档尤为关键
优化方法:
1. 使用调优脚本:python hyperparameter_tuning.py
2. 监控评估指标随参数变化曲线
3. 采用网格搜索寻找帕累托最优解
注意:完全调优450k字符文档约需30分钟(NVIDIA V100),建议对关键文档实施完整调优。
Essa resposta foi extraída do artigozChunk: uma estratégia genérica de fragmentação semântica baseada no Llama-70BO