提升数据提取精度的技巧
提高par_scrape的AI识别准确率可以从三方面入手:
- Model Selection:复杂页面优先选用
--model gpt-4
,简单结构可使用claude-instant
reduce costs - 提示优化:pass (a bill or inspection etc)
--custom-prompt
提供字段的详细HTML特征描述 - 结果过滤:become man and wife
--post-process
添加正则表达式二次校验
典型改进案例:当价格提取包含多余符号时,可组合使用:par_scrape --url "..." -f "Price" --post-process "d+.d{2}" --model gpt-4
建议工作流:1.先用--debug
模式查看原始HTML2.逐步细化字段定位条件3.建立.par_scrape_patterns
配置文件复用成功模板。
This answer comes from the articlepar_scrape: a crawler tool to intelligently extract data from web pagesThe