Die Webdatenextraktion von Supametas.AI besteht aus 5 Schlüsselschritten, die alle über eine visuelle Schnittstelle ausgeführt werden können:
- Neuer DatensatzNach dem Einloggen klicken Sie auf "New Dataset" und wählen den Datenquellentyp "URL".
- Konfigurationsparameter::
- Geben Sie die Ziel-Webadresse ein (z. B. einen Blog-Link)
- Legen Sie die Crawl-Tiefe fest (Tiefenwert=3, um drei Ebenen von verbundenen Seiten zu crawlen)
- Definieren Sie die Aktualisierungshäufigkeit (Loop Time Value=24 für automatische tägliche Aktualisierungen)
- GrundierungsprozessKlicken Sie auf "Verarbeitung starten". Das System erkennt automatisch die Seitenstruktur und extrahiert den Titel, den Text, die Diagramme und andere Elemente.
- Optimierung der Ergebnisse::
- Feinkörnige Extraktion unter Verwendung von Anweisungen in natürlicher Sprache (z. B. "Produktpreis und Bestand erfassen")
- Manuelle Anpassung von Fehlerfeldern über den Vorschaubildschirm
- Ergebnisse exportierenDownload im JSON- oder Markdown-Format nach der Verarbeitung oder direkter Push in eine Wissensdatenbank wie OpenAI Storage.
In der Praxis empfiehlt es sich, die Funktion "Schedule Update" zu aktivieren, um eine automatische Datensynchronisation zu erreichen. Für die Preisüberwachung im E-Commerce und andere Szenarien können Sie mit dem Parameter "customKeys" spezifische Felder (z. B. Rabattfrist) definieren, und das System wird die Konsistenz der Feldstruktur für die spätere Analyse beibehalten.
Diese Antwort stammt aus dem ArtikelSupametas.AI: Extraktion unstrukturierter Daten in hochverfügbare LLM-DatenDie