LittleCrawler ist ein modernes Framework zur Sammlung von Social Media-Daten, das auf asynchronen Python-Programmiertechniken basiert. Es wurde für Entwickler und Datenanalysten entwickelt, die öffentliche Social-Media-Daten abrufen müssen, und ist in der Lage, die Sammlung von Informationen aus den wichtigsten sozialen Plattformen zu automatisieren (derzeit werden Xiaohongshu, Zhihu und Idle Fish/Small Yellow Fish unterstützt). Im Gegensatz zu herkömmlichen Einzel-Skript-Crawlern bietet LittleCrawler eine Komplettlösung, die nicht nur die schnelle Ausführung von Aufgaben über die Befehlszeile (CLI) unterstützt, sondern auch über eine integrierte, im Web sichtbare Backend-Schnittstelle auf der Basis von FastAPI und Next.js verfügt, die es den Benutzern erleichtert, Aufgaben zu verwalten und den Status der Laufzeit über eine grafische Oberfläche zu überwachen. Die zugrundeliegende Playwright-Browser-Automatisierungstechnologie unterstützt den CDP (Chrome DevTools Protocol)-Modus, der eine komplexe Anti-Crawler-Erkennung effektiv bewältigen und die Stabilität und Erfolgsrate der Datenerfassung gewährleisten kann. Egal, ob die Daten als einfache CSV/Excel-Tabelle gespeichert oder in MySQL/MongoDB-Datenbanken abgelegt werden, Playwright wird mit jeder Situation fertig und ist ein echter One-Stop-Service von der Erfassung bis zur Speicherung.

Funktionsliste
- Unterstützung mehrerer PlattformenAktuelle KernunterstützungKleines Rotes Buch (xhs)、Zhihu (zhihu) 和 Fische im Leerlauf (xhy/xy) Datenerhebung auf drei Plattformen.
- Mehrere Erfassungsmodi:
- Erfassen suchenBatch-Crawl von Suchergebnissen basierend auf benutzerdefinierten Schlüsselwörtern (Keywords).
- Details Erfassen: Erfassen Sie Details und Kommentare zu bestimmten Artikeln, Notizen oder Produkten.
- Home Page KollektionCrawlen: Durchsucht alle öffentlich zugänglichen Inhalte der Homepage eines bestimmten Creators.
- Visuelles Web-BackendDas moderne Web-Dashboard senkt die Hürden für die Bedienung, indem es ermöglicht, Aufgaben zu konfigurieren, Crawler zu starten und den Status in Echtzeit in der Vorschau anzuzeigen - alles im Browser.
- Flexible DatenspeicherungEs unterstützt die Speicherung der gesammelten Daten in mehreren Formaten, einschließlich lokaler Dateien (CSV, JSON, Excel) und Datenbanken (SQLite, MySQL, MongoDB), um den Datenverarbeitungsanforderungen verschiedener Szenarien gerecht zu werden.
- Starke Fähigkeiten zur GegenspionageEingebauter CDP-Modus (Chrome DevTools Protocol), der das reale Benutzerverhalten simuliert und die Wahrscheinlichkeit, die Sicherheitserkennung der Plattform zu passieren, drastisch erhöht.
- Mehrere AnmeldemethodenQRCode, Mobiltelefon-Authentifizierungscode und Cookie-Logins werden unterstützt, damit die Benutzer ihre Kontositzungen verwalten können.
- Leistungsstarke Architektur: basierend auf Python 3.11+ und asynchronem IO-Design, mit dem
uvExtrem schnelles Paketmanagement-Tool, das effizient und mit kontrolliertem Ressourcenverbrauch läuft.
Hilfe verwenden
LittleCrawler bietet sowohl Kommandozeilen- (CLI) als auch Webinterface-Optionen. Für eine optimale Nutzung wird empfohlen, dass Sie Python 3.11 oder höher auf Ihrem Computer installiert haben.
1. die Installation und die Konfiguration der Umgebung
Zunächst müssen Sie den Projektcode lokal herunterladen und die Abhängigkeiten installieren. Es wird empfohlen, die uv Führen Sie das Abhängigkeitsmanagement (schneller) durch und verwenden Sie auch die Standard pip。
Schritt 1: Holen Sie sich den Code
Öffnen Sie ein Terminal oder eine Eingabeaufforderung und führen Sie den folgenden Befehl aus:
git clone https://github.com/pbeenig/LittleCrawler.git
cd LittleCrawler
Schritt 2: Installieren von Abhängigkeiten
ausnutzen uv Installation (empfohlen):
uv sync
playwright install chromium
Oder verwenden Sie pip Einbau:
pip install -r requirements.txt
playwright install chromium
2. die Befehlszeilenbedienung (CLI)
Dies ist der schnellste Weg, um mit dem Sammeln zu beginnen, und eignet sich für Benutzer, die an die Verwendung eines Terminals gewöhnt sind.
Konfigurationsparameter
Sie können direkt die config/base_config.py Datei, um die Standardparameter festzulegen:
PLATFORM: Legen Sie die Zielplattform fest, z. B."xhs"(Kleines Rotes Buch),"zhihu"(Wissend).KEYWORDS: Legen Sie die Suchbegriffe fest, z. B."iphone16, 摄影技巧"。CRAWLER_TYPE: Legen Sie die Art der Sammlung fest, z. B."search"(Suche),"detail"(Details).SAVE_DATA_OPTION: Legen Sie das Speicherformat fest, z. B."csv"或"excel"。
Starten Sie den Crawler
Wird mit der Standardkonfiguration ausgeführt:
python main.py
Oder führen Sie es mit den in der Befehlszeile angegebenen Parametern aus (und setzen Sie damit die Standardkonfiguration außer Kraft):
# 示例:在小红书搜索关键词并采集
python main.py --platform xhs --type search
# 示例:初始化 SQLite 数据库
python main.py --init-db sqlite
3. im Web sichtbarer Back-End-Betrieb
Wenn Sie eine grafische Oberfläche bevorzugen, können Sie das integrierte Web-Backend aufrufen.
Schritt 1: Kompilieren der Frontend-Seite
Wechseln Sie in das Webverzeichnis und erstellen Sie die Schnittstellenressourcen (Node.js muss installiert sein):
cd ./web
npm run build
Hinweis: Sie können diesen Schritt überspringen, wenn Sie nur die Backend-API ohne die Schnittstelle ausführen möchten.
Schritt 2: Starten Sie den vollständigen Dienst
Gehen Sie zurück zum Stammverzeichnis des Projekts und starten Sie den Backend-Dienst:
# 启动 API 和前端页面
uv run uvicorn api.main:app --port 8080 --reload
Schritt 3: Zugriff auf die Schnittstelle
Öffnen Sie Ihren Browser und besuchen Sie http://127.0.0.1:8080. Sie werden eine modernisierte Konsole sehen, an der Sie arbeiten können:
- Aufgaben der Konfiguration: Geben Sie Schlüsselwörter ein, wählen Sie die Plattform und den Crawler-Modus in der Benutzeroberfläche aus.
- Zum Einloggen wischenQR-Code für die Anmeldung anzeigen und direkt auf der Webseite scannen.
- ÜberwachungsstatusEchtzeit-Ansicht des laufenden Protokolls des Crawlers und des Fortschritts der Sammlung.
- VorschaudatenTeilweise Unterstützung für die direkte Vorschau der gesammelten Datenergebnisse.
Häufig gestellte Fragen und Wartung
- Löschen des CachesWenn ein Laufzeitfehler auftritt, versuchen Sie, die temporären Dateien zu löschen.
# 清除缓存命令 find . -type d -name "__pycache__" -exec rm -rf {} + - DatenexportNach Abschluss der Erfassung werden die Daten standardmäßig in der Datei
data/enthält der Dateiname in der Regel einen Zeitstempel, um die Archivverwaltung zu erleichtern.
Anwendungsszenario
- Marktforschung im Bereich E-Commerce
Durch die Erfassung der Preise und Beschreibungen von Gebrauchtwaren auf Idle Fish (Xiaoyuangyu) analysieren wir die Bedingungen auf dem Sekundärmarkt und die Wertbeständigkeitsraten bestimmter Produkte (z. B. Elektronik, Luxusgüter), um Preisentscheidungen zu unterstützen. - Analyse des Inhalts sozialer Medien
Die Betreiber können beliebte Notizen, Kommentare und Blogger-Informationen auf Xiaohongshu erfassen und Schlüsselwörter, Thementrends und Nutzerpräferenzen für Pop-up-Inhalte analysieren, um ihre Strategie zur Erstellung von Inhalten zu optimieren. - Akademische Forschung und öffentliche Meinungsbeobachtung
Forscher können das Tool nutzen, um Q&As und Artikel auf Zhihu zu durchsuchen, um öffentliche Meinungen und Diskussionen zu bestimmten sozialen Themen oder technischen Produkten für die Erstellung eines Natural Language Processing (NLP)-Korpus oder die Meinungsanalyse zu sammeln. - Überwachung von Wettbewerbern
Marken können regelmäßig Nutzerfeedback und Aktivitätsinformationen von Wettbewerbern auf den wichtigsten sozialen Plattformen erfassen, um über die Dynamik der Wettbewerber und die Reaktionen des Marktes auf dem Laufenden zu bleiben.
QA
- Welche Betriebssysteme werden von diesem Tool unterstützt?
Windows, macOS und Linux werden unterstützt, und dank Playwright wird theoretisch jedes System unterstützt, das den Chromium-Browser ausführen kann. - Was soll ich tun, wenn ich auf eine Anti-Climbing-Validierung stoße (z.B. Slider CAPTCHA)?
Das Tool verfügt über einen integrierten CDP-Modus, der echte Browser-Fingerabdrücke simulieren und die Wahrscheinlichkeit der Auslösung der Authentifizierung verringern kann. Es kann jedoch immer noch bei hochfrequenter Erfassung ausgelöst werden. Daher wird empfohlen, die Erfassungshäufigkeit entsprechend zu reduzieren oder die Proxy-IP zu konfigurieren (in der Konfigurationsdatei festzulegen).ENABLE_IP_PROXY = True)。 - Können die gesammelten Daten in meiner eigenen Datenbank gespeichert werden?
Das können Sie. Setzen Sie in der KonfigurationsdateiSAVE_DATA_OPTIONeingestellt aufmysql或mongodbund geben Sie einfach Ihre Datenbankverbindungsinformationen (Adresse, Kontonummer, Passwort) in den entsprechenden Konfigurationsabschnitt ein. - Warum wird bei der Installation eine fehlende
uv?
uvist ein aufstrebendes Python-Paketverwaltungswerkzeug; wenn Sie es nicht installiert haben, können Sie daspip install uvzu installieren, oder überspringen Sie einfach dieuvunter Verwendung des Standardbefehlspip和pythonBefehl.






























