O WaterCrawl oferece uma variedade de opções úteis de formato de saída de dados para atender às necessidades de processamento de dados de diferentes cenários:
- Formato JSONAltamente estruturado para facilitar o acompanhamento e o uso do programa
- Formato markdownPreservar a estrutura e a formatação básicas do texto para o processamento de documentos
- Armazenamento MinIOSuporte ao armazenamento e gerenciamento eficientes de arquivos em grande escala
- Saída direta da APIResultados de rastreamento em tempo real podem ser obtidos por meio de uma interface RESTful
Esses formatos foram projetados tendo em mente as necessidades de padronização de grandes modelos de linguagem para processamento de dados, bem como a facilidade de integração e uso para desenvolvedores. Os usuários podem especificar o formato de saída desejado por meio de um arquivo de configuração ou em um parâmetro de solicitação de API.
Essa resposta foi extraída do artigoWaterCrawl: transformando o conteúdo da Web em dados utilizáveis para grandes modelosO































