WaterCrawl bietet drei Standardausgabeformate (JSON/Markdown/CSV), die eine strukturierte Darstellung von Inhalten durch eine Formatkonvertierungs-Engine ermöglichen. Im JSON-Format bleiben die ursprüngliche DOM-Hierarchie und die Metadaten vollständig erhalten, so dass sie sich für die direkte Nutzung durch Pipelines für maschinelles Lernen eignen; das Markdown-Format optimiert die Lesbarkeit und ist ideal für die Erstellung von Wissensdatenbanken; und das CSV-Format lässt sich leicht in Excel für Geschäftsanalysen importieren.
Die Kerntechnologie nutzt die Item-Pipeline-Architektur von Scrapy, die Daten durch einen Format-Renderer dynamisch umwandelt. Im Projekt zur Nachrichtenaggregation können die Entwickler wählen, ob sie gleichzeitig JSON- und Markdown-Ausgaben generieren wollen: Erstere werden für Empfehlungssysteme zur Analyse der Koinzidenz von Schlüsselwörtern verwendet, letztere für die Veröffentlichung von CMS-Inhalten. Tests zeigen, dass die durchschnittliche Zeit für die Konvertierung von 1 MB an Webseitendaten nur 120 ms beträgt, was dreimal schneller ist als bei herkömmlichen Lösungen.
Insbesondere unterstützt das System die direkte Speicherung von Konvertierungsergebnisdateien über MinIO und die Generierung von vorab signierten Download-Links. Eine medizinische Forschungseinrichtung nutzt diese Funktion, um gecrawlte klinische Leitlinien automatisch in Standard-Markdown zu konvertieren und sie dann mit GitBook zu synchronisieren, um ein aktuelles und zeitgemäßes Wissenszentrum für die Branche aufzubauen.
Diese Antwort stammt aus dem ArtikelWaterCrawl: Umwandlung von Webinhalten in Daten, die für große Modelle verwendet werden könnenDie