Supametas.AI 的网页数据提取包含5个关键步骤,全程可通过可视化界面操作:
- 新建数据集:登录后点击”New Dataset”,选择”URL”数据源类型
- 配置参数:
- 输入目标网页地址(如博客链接)
- 设置抓取深度(Depth Value=3可抓取三级关联页面)
- 定义更新频率(Loop Time Value=24实现每日自动更新)
- 启动处理:点击”Start Processing”,系统自动识别页面结构,提取标题、正文、图表等元素
- 结果优化:
- 使用自然语言指令精细化提取(如”抓取产品价格和库存”)
- 通过预览界面手动调整错误字段
- 导出结果:处理完成后选择JSON或Markdown格式下载,或直接推送至OpenAI Storage等知识库
实际应用时,建议开启”Schedule Update”功能实现数据自动同步。对于电商价格监控等场景,可结合”customKeys”参数定义特定字段(如优惠截止时间),系统会保持字段结构一致性便于后续分析。
本答案来源于文章《Supametas.AI:提取非结构化数据为LLM高可用数据》