通过Langfuse的Trace可视化功能,可对RAG流程实现五层优化:
- 召回诊断::
- 在Trace详情页查看关键词召回vs向量召回结果
- 分析各阶段耗时比例(如向量化耗时占比)
- Validação de dados::
- 创建”golden set”数据集存储理想回答
- aprovar (um projeto de lei ou inspeção etc.)
langfuse.score()
自动评估召回相关性
- 版本对比::
- 同时运行新旧两种召回策略
- 在Datasets页面对比评估指标(准召率/响应时延)
- 问题聚类::
- 利用Sessions功能分析高频问题模式
- 针对性地优化对应chunk的embedding质量
- Teste AB::
- 通过Prompt版本管理测试不同系统指令
- 示例:对比”精简回答”vs”带引用来源”的效果差异
建议每周生成召回效果报告,重点关注长尾问题解决率。
Essa resposta foi extraída do artigoLangfuse: Plataforma de observação e depuração de código aberto para aplicativos LLMO