O WaterCrawl oferece três formatos de saída padrão, JSON/Markdown/CSV, que permitem a apresentação estruturada do conteúdo por meio de um mecanismo de conversão de formatos. O formato JSON mantém a hierarquia DOM original e os metadados em sua totalidade, o que o torna adequado para o consumo direto por pipelines de aprendizado de máquina; o formato Markdown otimiza a legibilidade e é ideal para a construção de bases de conhecimento; e o formato CSV é fácil de importar para o Excel para análise de negócios.
A tecnologia principal usa a arquitetura Item Pipeline do Scrapy, que transforma dinamicamente os dados por meio de um renderizador de formato. No projeto de agregação de notícias, os desenvolvedores podem optar por gerar saídas JSON e Markdown ao mesmo tempo: a primeira é usada para o sistema de recomendação para analisar a co-ocorrência de palavras-chave, e a segunda é usada para a publicação de conteúdo CMS. Os testes mostram que o tempo médio para converter 1 MB de dados de páginas da Web é de apenas 120 ms, o que é três vezes mais rápido do que as soluções tradicionais.
Especificamente, o sistema suporta o armazenamento direto de arquivos de resultados de conversão via MinIO e a geração de links de download pré-assinados. Uma organização de pesquisa médica usa esse recurso para converter automaticamente diretrizes clínicas rastreadas em Markdown padrão e sincronizá-las com o GitBook, criando um centro de conhecimento do setor atualizado e oportuno.
Essa resposta foi extraída do artigoWaterCrawl: transformando o conteúdo da Web em dados utilizáveis para grandes modelosO































