MediaCrawler ist ein Crawler-Tool für soziale Medieninhalte, das für Entwickler entwickelt wurde. Durch die Bereitstellung einer leistungsstarken Crawler-Funktion kann es schnell Videos, Bilder, Kommentare, Likes, Retweets und andere Daten von sozialen Plattformen wie Xiaohongshu, Jieyin, Shutterbug, B-Station, Weibo und so weiter erfassen. Dieses Tool verwendet Playwright als Brücke, behält die Browserumgebung nach der Anmeldung bei und erhält verschlüsselte Parameter durch die Ausführung von JS-Ausdrücken, wodurch die Schwierigkeit eines komplexen Reverse Engineering vereinfacht wird.
Bitte beachten Sie, dass die Datenerhebung nur im Rahmen der Genehmigung erfolgen darf.
Funktionsliste
Unterstützung von Plattformen wie Xiaohongshu, Jieyin, Shutterbugs, B-station, Weibo usw.
Cookie-Login, QR-Code-Login, Login über Mobiltelefon und andere Methoden
Unterstützt die Suche nach Schlüsselwörtern und die Crawling-Funktion für bestimmte Video-/Post-IDs
Zwischenspeicherung des Anmeldestatus und Unterstützung von IP-Proxy-Pools
Bereitstellung von CAPTCHA-Slider-Lösungen (einige Plattformen)
Terrasse | Schlüsselwort-Suche | Geben Sie die zu durchsuchende Post-ID an | Sekundäre Kommentare | Seite des designierten Schöpfers | Login-Status-Cache | IP-Proxy-Pool | Kommentar-Wortwolken generieren |
---|---|---|---|---|---|---|---|
Little Red Book (Website für soziale Netzwerke) | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Jitterbug | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Geige | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Station B | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Mikroblog | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
elektronische Anzeigetafel | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
Hilfe verwenden
Erstellen und Aktivieren einer virtuellen Python-Umgebung
Installieren Sie die Abhängigkeiten: Verwenden Sie den Befehl `pip install -r requirements.txt`.
So installieren Sie den Playwright-Browsertreiber: Verwenden Sie den Befehl `playwright install`.
运行爬虫程序:使用如 `python main.py –platform xhs –lt qrcode –type search` 的命令行参数
使用 `python main.py –help` 查看其他平台的爬虫使用示例
Überprüfen Sie die Struktur des Projektcodes und beantworten Sie weitere Fragen im GitHub-Repository.