A extração de dados da Web da Supametas.AI consiste em cinco etapas principais, que podem ser executadas por meio de uma interface visual:
- Novo conjunto de dadosApós fazer login, clique em "New Dataset" (Novo conjunto de dados) e selecione o tipo de fonte de dados "URL".
- Parâmetros de configuração::
- Digite o endereço da Web de destino (por exemplo, o link do blog)
- Definir a profundidade do rastreamento (Depth Value=3 para rastrear três níveis de páginas associadas)
- Definir a frequência de atualização (Loop Time Value=24 para atualizações diárias automáticas)
- processo de escorvaClique em "Start Processing" (Iniciar processamento) e o sistema identificará automaticamente a estrutura da página e extrairá o título, o texto, os gráficos e outros elementos.
- Otimização dos resultados::
- Extração refinada usando instruções de linguagem natural (por exemplo, "capturar preço e estoque do produto")
- Ajuste manual dos campos de erro por meio da tela de visualização
- Exportar resultadosEscolha fazer o download no formato JSON ou Markdown após o processamento ou envie diretamente para uma base de conhecimento, como o OpenAI Storage.
Na prática, é recomendável ativar a função "Schedule Update" para obter a sincronização automática dos dados. Para monitoramento de preços de comércio eletrônico e outros cenários, é possível definir campos específicos (por exemplo, prazo de desconto) com o parâmetro "customKeys", e o sistema manterá a consistência da estrutura do campo para análise subsequente.
Essa resposta foi extraída do artigoSupametas.AI: extração de dados não estruturados em dados altamente disponíveis do LLMO