海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする

LittleCrawlerは、Pythonの非同期プログラミング技術に基づいて構築された、最新のソーシャルメディアデータ収集フレームワークです。公開されているソーシャルメディアデータを取得する必要のある開発者やデータアナリストのために設計されており、主流のソーシャルプラットフォームからの情報収集を自動化することができます(現在、Xiaohongshu、Zhihu、Idle Fish/Small Yellow Fishをサポートしています)。従来の単一スクリプトのクローラーとは異なり、LittleCrawlerは、コマンドライン(CLI)によるタスクの高速実行をサポートするだけでなく、FastAPIとNext.jsをベースとしたウェブから見えるバックエンドインターフェースを内蔵し、ユーザーがグラフィカルなインターフェイスを通じてタスクを管理し、ランタイムのステータスを監視することを容易にする、完全なソリューションを提供します。基礎となるPlaywrightブラウザ自動化技術はCDP(Chrome DevTools Protocol)モードをサポートし、複雑なクローラー対策検知に効果的に対処し、データ収集の安定性と成功率を確保することができる。単純なCSV/Excelテーブルとして保存しても、MySQL/MongoDBデータベースに預けても、簡単に状況に対応でき、まさに収集から保存までのワンストップサービスである。

LittleCrawler:支持小红书和闲鱼的多平台社交媒体数据采集工具-1

機能一覧

  • マルチプラットフォーム対応現在のコアサポートリトル・レッド・ブック慈湖(ジフー) 和 アイドルフィッシュ(xhy/xy) 3つのプラットフォームでのデータ収集。
  • 複数の撮影モード
    • サーチ・キャプチャーカスタムキーワード(Keywords)に基づいて検索結果を一括クロールします。
    • 詳細キャプチャー特定の記事、メモ、製品に関する詳細やコメントを取得します。
    • ホームページ・コレクション指定されたクリエイターのホームページから、公開されているすべてのコンテンツを検索します。
  • ビジュアル・ウェブ・バックエンド最新のウェブダッシュボードは、タスクの設定、クローラーの起動、ステータスのリアルタイムプレビューをすべてブラウザから行えるようにすることで、操作のハードルを下げている。
  • 柔軟なデータストレージ収集したデータは、ローカルファイル(CSV、JSON、Excel)やデータベース(SQLite、MySQL、MongoDB)など、さまざまな形式での保存が可能です。
  • 強力なカウンター探知能力内蔵のCDPモード(Chrome DevTools Protocol)は、実際のユーザーの行動をシミュレートし、プラットフォームのセキュリティ検出をパスする確率を劇的に高めます。
  • 複数のログイン方法QRCode、携帯電話認証コード、クッキーログインがサポートされており、ユーザーはアカウントセッションを管理することができます。
  • ハイパフォーマンス・アーキテクチャーPython 3.11+と非同期IO設計に基づく。 uv リソースフットプリントを抑えながら効率的に動作する、非常に高速なパッケージ管理ツール。

ヘルプの使用

LittleCrawlerには、コマンドライン(CLI)とウェブインターフェースのオプションがあります。最良のエクスペリエンスを得るためには、Python 3.11以降がコンピュータにインストールされていることが推奨されます。

1.インストールと環境設定

まず、プロジェクトのコードをローカルにダウンロードし、依存関係をインストールする必要があります。その際 uv 依存性管理を実行し(より速く)、標準的な pip

ステップ1:コードを取得する
ターミナルかコマンドプロンプトを開き、以下のコマンドを実行する:

git clone https://github.com/pbeenig/LittleCrawler.git
cd LittleCrawler

ステップ 2: 依存関係のインストール
利用する uv インストール(推奨):

uv sync
playwright install chromium

または pip インストール:

pip install -r requirements.txt
playwright install chromium

2.コマンドライン(CLI)操作

これは最も早く収集を開始する方法であり、ターミナルの使用に慣れているユーザーに適している。

設定パラメータ
を直接編集することができます。 config/base_config.py ファイルでデフォルトのパラメーターを設定する:

  • PLATFORMターゲット・プラットフォームを設定する。 "xhs"(リトル・レッド・ブック)、"zhihu"(知っている)。
  • KEYWORDS検索キーワードを設定する。 "iphone16, 摄影技巧"
  • CRAWLER_TYPEコレクションタイプを設定します。 "search"(検索)、"detail"(詳細)。
  • SAVE_DATA_OPTION保存形式を設定します。 "csv" 或 "excel"

クローラーの起動
デフォルトのコンフィギュレーションで実行:

python main.py

または、コマンドラインで指定されたパラメーターで実行する(デフォルトの設定を上書きする):

# 示例:在小红书搜索关键词并采集
python main.py --platform xhs --type search
# 示例:初始化 SQLite 数据库
python main.py --init-db sqlite

3.ウェブから見えるバックエンド操作

グラフィカルなインターフェイスをお好みの場合は、組み込みのWebバックエンドを起動することができます。

ステップ1:フロントエンドページのコンパイル
Webディレクトリに移動し、インターフェース・リソースをビルドする(Node.jsがインストールされている必要がある):

cd ./web
npm run build

注:インターフェースを使わずにバックエンドAPIだけを実行したい場合は、このステップをスキップすることができる。

ステップ2:フルサービスの開始
プロジェクトのルート・ディレクトリに戻り、バックエンド・サービスを開始する:

# 启动 API 和前端页面
uv run uvicorn api.main:app --port 8080 --reload

ステップ3:インターフェースへのアクセス
ブラウザを開き、次のサイトにアクセスする。 http://127.0.0.1:8080.近代化されたコンソールで仕事ができる:

  1. コンフィギュレーション・タスクキーワードを入力し、プラットフォームとクローラーモードを選択します。
  2. スワイプでログイン。ログインQRコードを表示し、ウェブページで直接読み取ってください。
  3. 監視状態クローラーの実行ログと収集の進捗状況をリアルタイムで表示します。
  4. プレビューデータ収集したデータ結果の直接プレビューを部分的にサポート。

よくある質問とメンテナンス

  • キャッシュの消去ランタイムエラーが発生した場合は、一時ファイルをクリーンアップしてみてください。
    # 清除缓存命令
    find . -type d -name "__pycache__" -exec rm -rf {} +
    
  • データエクスポート収集が完了すると、データはデフォルトで data/ ディレクトリにある場合、アーカイブの管理を容易にするため、ファイル名には通常タイムスタンプが含まれる。

アプリケーションシナリオ

  1. Eコマース市場調査
    アイドルフィッシュ(小魚遊)上の中古品の価格と説明文を取り込むことで、特定の商品(電化製品や高級品など)の二次市場の状況や価値保持率を分析し、価格決定の一助とする。
  2. ソーシャルメディア・コンテンツ分析
    事業者は、小本集で人気のあるメモ、コメント、ブロガー情報を取得し、ポップアップ・コンテンツのキーワード、トピックの傾向、ユーザーの嗜好を分析し、コンテンツ作成戦略を最適化することができる。
  3. 学術調査と世論モニタリング
    研究者は、自然言語処理(NLP)コーパスの構築や意見分析のために、Zhihu上のQ&Aや記事をクロールし、特定の社会的トピックや技術製品に関する世論や議論を収集するために、このツールを使用することができます。
  4. 競合他社のモニタリング
    ブランドは、主要なソーシャル・プラットフォーム上の競合他社のユーザー・フィードバックや活動情報を定期的に把握することで、競合他社の動向や市場の反応を常に把握することができる。

QA

  1. このツールはどのOSに対応していますか?
    Windows、macOS、Linuxがサポートされており、Playwrightのおかげで、Chromiumブラウザを実行できるシステムであれば、理論的にはすべてサポートされている。
  2. アンチクライミングバリデーション(スライダーCAPTCHAなど)に遭遇した場合、どうすればいいですか?
    このツールには CDP モードが組み込まれており、実際のブラウザのフィンガープリントをシミュレートし、認証をトリガーする確率を下げることができる。しかしながら、高頻度の取得ではまだトリガーされる可能性があるため、取得頻度を適切に下げるか、プロキシIPを設定する(設定ファイルに設定する)ことを推奨する。 ENABLE_IP_PROXY = True)。
  3. 収集したデータを自分のデータベースに保存できますか?
    できます。設定ファイルに SAVE_DATA_OPTION に設定する。 mysql 或 mongodbそして、該当する設定段落にデータベース接続情報(アドレス、アカウント番号、パスワード)を入力するだけです。
  4. インストール時に uv
    uv は新進気鋭のPythonパッケージ管理ツールである。 pip install uv をインストールしてください。 uv コマンドを使用する。 pip 和 python コマンドを使用する。
0ブックマークに登録
0表彰される

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る