LittleCrawler 是一款基于 Python 异步编程技术构建的现代化社交媒体数据采集框架。它专为需要获取公开社交媒体数据的开发者和数据分析师设计,能够自动化地从主流社交平台(目前支持小红书、知乎、闲鱼/小黄鱼)收集信息。与传统的单脚本爬虫不同,LittleCrawler 提供了一整套完整的解决方案,不仅支持通过命令行(CLI)快速执行任务,还内置了基于 FastAPI 和 Next.js 开发的 Web 可视化后台界面,方便用户通过图形界面管理任务和监控运行状态。该工具底层采用 Playwright 浏览器自动化技术,支持 CDP(Chrome DevTools Protocol)模式,能有效应对复杂的反爬虫检测,确保数据采集的稳定性和成功率。无论是保存为简单的 CSV/Excel 表格,还是存入 MySQL/MongoDB 等数据库,它都能轻松应对,真正做到了从采集到存储的一站式服务。

功能列表
- 多平台支持:目前核心支持小红书 (xhs)、知乎 (zhihu) 和 闲鱼 (xhy/xy) 三大平台的数据采集。
- 多种采集模式:
- 搜索采集:根据自定义关键词(Keywords)批量抓取搜索结果。
- 详情采集:抓取特定文章、笔记或商品的详细内容及评论。
- 主页采集:针对指定创作者(Creator)抓取其主页公开的所有发布内容。
- 可视化 Web 后台:提供现代化的 Web 仪表盘,支持在浏览器中直接配置任务、启动爬虫并实时预览运行状态,降低了操作门槛。
- 灵活的数据存储:支持将采集的数据保存为多种格式,包括本地文件(CSV、JSON、Excel)和数据库(SQLite、MySQL、MongoDB),满足不同场景的数据处理需求。
- 强大的反检测能力:内置 CDP 模式(Chrome DevTools Protocol),模拟真实用户行为,大幅提升通过平台安全检测的概率。
- 多种登录方式:支持扫码登录(QRCode)、手机验证码登录和 Cookie 登录,方便用户管理账号会话。
- 高性能架构:基于 Python 3.11+ 和异步 IO 设计,配合
uv极速包管理工具,运行效率高且资源占用可控。
使用帮助
LittleCrawler 提供了命令行(CLI)和 Web 界面两种使用方式。为了获得最佳体验,建议您的电脑已安装 Python 3.11 或以上版本。
1. 安装与环境配置
首先,您需要将项目代码下载到本地并安装依赖。推荐使用 uv 进行依赖管理(速度更快),也可以使用标准的 pip。
第一步:获取代码
打开终端(Terminal)或命令提示符,执行以下命令:
git clone https://github.com/pbeenig/LittleCrawler.git
cd LittleCrawler
第二步:安装依赖
使用 uv 安装(推荐):
uv sync
playwright install chromium
或者使用 pip 安装:
pip install -r requirements.txt
playwright install chromium
2. 命令行(CLI)方式运行
这是最快速开始采集的方法,适合习惯使用终端的用户。
配置参数
您可以直接编辑项目目录下的 config/base_config.py 文件来设置默认参数:
PLATFORM: 设置目标平台,如"xhs"(小红书)、"zhihu"(知乎)。KEYWORDS: 设置搜索关键词,如"iphone16, 摄影技巧"。CRAWLER_TYPE: 设置采集类型,如"search"(搜索)、"detail"(详情)。SAVE_DATA_OPTION: 设置保存格式,如"csv"或"excel"。
启动爬虫
使用默认配置运行:
python main.py
或者在命令行中指定参数运行(覆盖默认配置):
# 示例:在小红书搜索关键词并采集
python main.py --platform xhs --type search
# 示例:初始化 SQLite 数据库
python main.py --init-db sqlite
3. Web 可视化后台方式运行
如果您更喜欢图形界面,可以启动内置的 Web 后台。
第一步:编译前端页面
进入 Web 目录并构建界面资源(需要安装 Node.js):
cd ./web
npm run build
注:如果您只想运行后端 API 而不需要界面,可以跳过此步。
第二步:启动完整服务
回到项目根目录,启动后端服务:
# 启动 API 和前端页面
uv run uvicorn api.main:app --port 8080 --reload
第三步:访问界面
打开浏览器,访问 http://127.0.0.1:8080。您将看到一个现代化的控制台,可以在其中:
- 配置任务:在界面上输入关键词、选择平台和爬虫模式。
- 扫码登录:直接在网页上查看登录二维码并进行扫码。
- 监控状态:实时查看爬虫的运行日志和采集进度。
- 预览数据:部分支持直接预览采集到的数据结果。
常见问题与维护
- 清理缓存:如果遇到运行错误,可以尝试清理临时文件。
# 清除缓存命令 find . -type d -name "__pycache__" -exec rm -rf {} + - 数据导出:采集完成后,数据默认会保存在
data/目录下,文件名通常包含时间戳,方便归档管理。
应用场景
- 电商市场调研
通过采集闲鱼(小黄鱼)上的二手商品价格和描述,分析特定产品(如电子产品、奢侈品)的二级市场行情和保值率,辅助定价决策。 - 社交媒体内容分析
运营人员可以采集小红书上的热门笔记、评论和博主信息,分析爆款内容的关键词、话题趋势和用户偏好,从而优化自己的内容创作策略。 - 学术研究与舆情监测
研究人员可以利用该工具抓取知乎上的问答和文章,收集公众对特定社会话题或科技产品的观点和讨论,用于自然语言处理(NLP)语料库构建或舆情分析。 - 竞品监控
品牌方可以定期抓取竞品在各大社交平台上的用户反馈和活动信息,及时掌握竞争对手的动态和市场反响。
QA
- 这个工具支持哪些操作系统?
支持 Windows、macOS 和 Linux。由于使用了 Playwright,只要能运行 Chromium 浏览器的系统理论上都支持。 - 遇到反爬验证(如滑块验证码)怎么办?
工具内置了 CDP 模式,能模拟真实浏览器指纹,减少触发验证的概率。但在高频采集时仍可能触发验证,建议适当降低采集频率或配置代理 IP(在配置文件中设置ENABLE_IP_PROXY = True)。 - 采集的数据可以存到我自己的数据库吗?
可以。在配置文件中将SAVE_DATA_OPTION设置为mysql或mongodb,并在相应的配置段落中填入您的数据库连接信息(地址、账号、密码)即可。 - 为什么安装时提示缺少
uv?
uv是一个新兴的 Python 包管理工具,如果你没有安装,可以使用pip install uv进行安装,或者直接跳过uv命令,使用标准的pip和python命令来代替。






























