海外访问:www.kdjingpai.com
Ctrl + D 收藏本站

LittleCrawler 是一款基于 Python 异步编程技术构建的现代化社交媒体数据采集框架。它专为需要获取公开社交媒体数据的开发者和数据分析师设计,能够自动化地从主流社交平台(目前支持小红书、知乎、闲鱼/小黄鱼)收集信息。与传统的单脚本爬虫不同,LittleCrawler 提供了一整套完整的解决方案,不仅支持通过命令行(CLI)快速执行任务,还内置了基于 FastAPI 和 Next.js 开发的 Web 可视化后台界面,方便用户通过图形界面管理任务和监控运行状态。该工具底层采用 Playwright 浏览器自动化技术,支持 CDP(Chrome DevTools Protocol)模式,能有效应对复杂的反爬虫检测,确保数据采集的稳定性和成功率。无论是保存为简单的 CSV/Excel 表格,还是存入 MySQL/MongoDB 等数据库,它都能轻松应对,真正做到了从采集到存储的一站式服务。

LittleCrawler:支持小红书和闲鱼的多平台社交媒体数据采集工具-1

功能列表

  • 多平台支持:目前核心支持小红书 (xhs)知乎 (zhihu) 和 闲鱼 (xhy/xy) 三大平台的数据采集。
  • 多种采集模式
    • 搜索采集:根据自定义关键词(Keywords)批量抓取搜索结果。
    • 详情采集:抓取特定文章、笔记或商品的详细内容及评论。
    • 主页采集:针对指定创作者(Creator)抓取其主页公开的所有发布内容。
  • 可视化 Web 后台:提供现代化的 Web 仪表盘,支持在浏览器中直接配置任务、启动爬虫并实时预览运行状态,降低了操作门槛。
  • 灵活的数据存储:支持将采集的数据保存为多种格式,包括本地文件(CSV、JSON、Excel)和数据库(SQLite、MySQL、MongoDB),满足不同场景的数据处理需求。
  • 强大的反检测能力:内置 CDP 模式(Chrome DevTools Protocol),模拟真实用户行为,大幅提升通过平台安全检测的概率。
  • 多种登录方式:支持扫码登录(QRCode)、手机验证码登录和 Cookie 登录,方便用户管理账号会话。
  • 高性能架构:基于 Python 3.11+ 和异步 IO 设计,配合 uv 极速包管理工具,运行效率高且资源占用可控。

使用帮助

LittleCrawler 提供了命令行(CLI)和 Web 界面两种使用方式。为了获得最佳体验,建议您的电脑已安装 Python 3.11 或以上版本。

1. 安装与环境配置

首先,您需要将项目代码下载到本地并安装依赖。推荐使用 uv 进行依赖管理(速度更快),也可以使用标准的 pip

第一步:获取代码
打开终端(Terminal)或命令提示符,执行以下命令:

git clone https://github.com/pbeenig/LittleCrawler.git
cd LittleCrawler

第二步:安装依赖
使用 uv 安装(推荐):

uv sync
playwright install chromium

或者使用 pip 安装:

pip install -r requirements.txt
playwright install chromium

2. 命令行(CLI)方式运行

这是最快速开始采集的方法,适合习惯使用终端的用户。

配置参数
您可以直接编辑项目目录下的 config/base_config.py 文件来设置默认参数:

  • PLATFORM: 设置目标平台,如 "xhs"(小红书)、"zhihu"(知乎)。
  • KEYWORDS: 设置搜索关键词,如 "iphone16, 摄影技巧"
  • CRAWLER_TYPE: 设置采集类型,如 "search"(搜索)、"detail"(详情)。
  • SAVE_DATA_OPTION: 设置保存格式,如 "csv" 或 "excel"

启动爬虫
使用默认配置运行:

python main.py

或者在命令行中指定参数运行(覆盖默认配置):

# 示例:在小红书搜索关键词并采集
python main.py --platform xhs --type search
# 示例:初始化 SQLite 数据库
python main.py --init-db sqlite

3. Web 可视化后台方式运行

如果您更喜欢图形界面,可以启动内置的 Web 后台。

第一步:编译前端页面
进入 Web 目录并构建界面资源(需要安装 Node.js):

cd ./web
npm run build

注:如果您只想运行后端 API 而不需要界面,可以跳过此步。

第二步:启动完整服务
回到项目根目录,启动后端服务:

# 启动 API 和前端页面
uv run uvicorn api.main:app --port 8080 --reload

第三步:访问界面
打开浏览器,访问 http://127.0.0.1:8080。您将看到一个现代化的控制台,可以在其中:

  1. 配置任务:在界面上输入关键词、选择平台和爬虫模式。
  2. 扫码登录:直接在网页上查看登录二维码并进行扫码。
  3. 监控状态:实时查看爬虫的运行日志和采集进度。
  4. 预览数据:部分支持直接预览采集到的数据结果。

常见问题与维护

  • 清理缓存:如果遇到运行错误,可以尝试清理临时文件。
    # 清除缓存命令
    find . -type d -name "__pycache__" -exec rm -rf {} +
    
  • 数据导出:采集完成后,数据默认会保存在 data/ 目录下,文件名通常包含时间戳,方便归档管理。

应用场景

  1. 电商市场调研
    通过采集闲鱼(小黄鱼)上的二手商品价格和描述,分析特定产品(如电子产品、奢侈品)的二级市场行情和保值率,辅助定价决策。
  2. 社交媒体内容分析
    运营人员可以采集小红书上的热门笔记、评论和博主信息,分析爆款内容的关键词、话题趋势和用户偏好,从而优化自己的内容创作策略。
  3. 学术研究与舆情监测
    研究人员可以利用该工具抓取知乎上的问答和文章,收集公众对特定社会话题或科技产品的观点和讨论,用于自然语言处理(NLP)语料库构建或舆情分析。
  4. 竞品监控
    品牌方可以定期抓取竞品在各大社交平台上的用户反馈和活动信息,及时掌握竞争对手的动态和市场反响。

QA

  1. 这个工具支持哪些操作系统?
    支持 Windows、macOS 和 Linux。由于使用了 Playwright,只要能运行 Chromium 浏览器的系统理论上都支持。
  2. 遇到反爬验证(如滑块验证码)怎么办?
    工具内置了 CDP 模式,能模拟真实浏览器指纹,减少触发验证的概率。但在高频采集时仍可能触发验证,建议适当降低采集频率或配置代理 IP(在配置文件中设置 ENABLE_IP_PROXY = True)。
  3. 采集的数据可以存到我自己的数据库吗?
    可以。在配置文件中将 SAVE_DATA_OPTION 设置为 mysql 或 mongodb,并在相应的配置段落中填入您的数据库连接信息(地址、账号、密码)即可。
  4. 为什么安装时提示缺少 uv
    uv 是一个新兴的 Python 包管理工具,如果你没有安装,可以使用 pip install uv 进行安装,或者直接跳过 uv 命令,使用标准的 pip 和 python 命令来代替。
0已收藏
0已赞

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部