如何克服长文本场景下的RAG幻觉检测难题？

2025-08-30

1.3 K

挑战说明

传统检测工具因上下文长度限制（通常512-1024token），难以处理复杂文档分析。LettuceDetect 的4096token支持能力为此提供解决方案。

text chunking::
- 若原文超过4096token，按语义段落分割
- 每块保留重叠区域（建议10%内容重叠）
parallel processing::
- 使用多线程同时检测各文本块
- pass (a bill or inspection etc)detector.predict()批量传入
Consolidation of results::
- 对跨度多个文本块的幻觉内容进行位置换算
- 取各块检测结果的置信度均值作为最终评分