通过Langfuse的Trace可视化功能,可对RAG流程实现五层优化:
- 召回诊断:
- 在Trace详情页查看关键词召回vs向量召回结果
- 分析各阶段耗时比例(如向量化耗时占比)
- 数据验证:
- 创建”golden set”数据集存储理想回答
- 通过
langfuse.score()
自动评估召回相关性
- 版本对比:
- 同时运行新旧两种召回策略
- 在Datasets页面对比评估指标(准召率/响应时延)
- 问题聚类:
- 利用Sessions功能分析高频问题模式
- 针对性地优化对应chunk的embedding质量
- AB测试:
- 通过Prompt版本管理测试不同系统指令
- 示例:对比”精简回答”vs”带引用来源”的效果差异
建议每周生成召回效果报告,重点关注长尾问题解决率。
本答案来源于文章《Langfuse:开源的 LLM 应用观测与调试平台》