提升数据提取精度的技巧
提高par_scrape的AI识别准确率可以从三方面入手:
- Seleção de modelos:复杂页面优先选用
--model gpt-4
,简单结构可使用claude-instant
reduzir custos - 提示优化:aprovar (um projeto de lei ou inspeção etc.)
--custom-prompt
提供字段的详细HTML特征描述 - 结果过滤:ajuste
--post-process
添加正则表达式二次校验
典型改进案例:当价格提取包含多余符号时,可组合使用:par_scrape --url "..." -f "Price" --post-process "d+.d{2}" --model gpt-4
建议工作流:1.先用--debug
模式查看原始HTML2.逐步细化字段定位条件3.建立.par_scrape_patterns
配置文件复用成功模板。
Essa resposta foi extraída do artigopar_scrape: uma ferramenta de rastreamento para extração inteligente de dados da WebO