SiteMCP bietet mehrere Hilfsparameter, um den Crawling-Prozess zu optimieren:
- Gleichzeitige Kontrolle::
--concurrencyParameter (z.B.--concurrency 10) kann die Anzahl der gleichzeitig gecrawlten Seiten erhöhen - Pfadabgleich::
-m/--matchParameter unterstützt Wildcard-Matching für bestimmte URL-Pfade (z. B.-m "/blog/**"(Nur der Blog-Teil wird erfasst) - Inhalt Selektor::
--content-selectorErfassen Sie bestimmte Bereiche präzise über CSS-Selektoren (z. B.--content-selector ".content") - Cache-Verwaltung::
--cache-dirAnpassen des Cache-Pfads.--no-cacheCache deaktivieren
Diese Parameter können beispielsweise in Kombination verwendet werden:npx sitemcp https://example.com --concurrency 5 -m "/docs/**" --content-selector "#main"
Dieser Auftrag wird:
- Crawlen des Dokumentenbereichs mit 5 gleichzeitigen
- Extrahiert nur den Inhalt innerhalb des #main-Elements
- Standard-Cache-Einstellungen verwenden
Diese Antwort stammt aus dem ArtikelSiteMCP: Crawling von Website-Inhalten und deren Umwandlung in MCP-DiensteDie































