Methoden der Fehlersuche
Wenn Sie neue RSS-Feeds mit Crawl-Ausnahmen hinzufügen, empfiehlt es sich, die Fehlerbehebung nach folgendem Verfahren durchzuführen:
- Basis-Validierung: Verwenden Sie einen Online-RSS-Validator (z. B. W3C Feed Validation Service), um das Format der Feeds zu überprüfen.
- ProtokollanalyseCron-Job-Protokolle für Github-Aktionen anzeigen (Verzeichnis github/workflows)
Systematische Lösungen
- Proxy-KonfigurationFür Walled Offshore-Quellen fügen Sie den Proxy-Konfigurationseintrag in cron_job.yml ein
- Fehlertoleranzmechanismussrc/scraper.js ändern, um Wiederholungslogik hinzuzufügen (3 Wiederholungen + exponentieller Rückzug vorschlagen)
- Parse-Optimierung: Für spezielle Formate:
- Dynamisches Rendering von Webseiten mit Puppeteer (Anpassung der Docker-Konfiguration erforderlich)
- JSON-Format Quelle geändert, um mit axios Bibliothek anfordern
Vorbeugende Wartung
Es wird empfohlen, ein Gesundheitsscreening-System für RSS-Quellen einzurichten:
- Erstellen einer feed_status-Sammlung in Firestore zur Erfassung der Crawl-Erfolgsrate
- Einrichten von Discord-Webhook-Benachrichtigungen (siehe den Projektzweig alert-system)
- Aktivieren der sekundären Analyse der Readability-API für instabile Quellen
Diese Antwort stammt aus dem ArtikelAudibit: Umwandlung beliebter technischer Artikel in anhörbare Audio-PodcastsDie
































