Die aktuelle Version verfolgt eine konservative Strategie für den Umgang mit dynamischen Inhalten, hauptsächlich durch die Such-API, um grundlegende Metadaten zu erhalten. Aus der technischen Dokumentation geht jedoch hervor, dass in Version 2.0 Playwright eingeführt wird, um eine vollständige Simulation der Browserumgebung zu erreichen, und dass geplant ist, die JS-Rendering-Barriere in drei Stufen zu durchbrechen: In der ersten Stufe wird eine DOM-Snapshot-Funktion hinzugefügt, um den Anfangszustand der SPA-Anwendung zu erfassen; in der zweiten Stufe wird LLM für die Extraktion von Textkörpern integriert und das Problem der Interferenz mit fließenden Elementen gelöst; und schließlich wird Parsing auf Komponentenebene auf der Grundlage von React/Vue implementiert, um komplexe Strukturen wie Datentabellen von Finanzberichten genau zu extrahieren.
Diese inkrementelle Lösung ergibt sich aus den spezifischen Herausforderungen von Finanzwebsites: Bloomberg.com muss z.B. WebSocket-Datenströme in Echtzeit verarbeiten, und Benzinga.com verwendet ein Lazy-Loading-Kommentarmodul. Testdaten zeigen, dass die Prototypversion eine Genauigkeit von 92% bei der Extraktion des Textes von Seeking Alpha Artikeln erreicht hat, was eine Verbesserung von 47 Prozentpunkten gegenüber herkömmlichen xpath-Lösungen bedeutet. Die Entwickler der Community erweitern die Unterstützung für Puppeteer und Selenium über das Plugin-System.
Diese Antwort stammt aus dem ArtikelWeb Crawler: ein Kommandozeilen-Tool für die Echtzeitsuche von Internet-InformationenDie































