LittleCrawler：支持小红书和闲鱼的多平台社交媒体数据采集工具

2026-01-16

839 34

https://github.com/pbeenigg/LittleCrawler

复制

LittleCrawler 是一款基于 Python 异步编程技术构建的现代化社交媒体数据采集框架。它专为需要获取公开社交媒体数据的开发者和数据分析师设计，能够自动化地从主流社交平台（目前支持小红书、知乎、闲鱼/小黄鱼）收集信息。与传统的单脚本爬虫不同，LittleCrawler 提供了一整套完整的解决方案，不仅支持通过命令行（CLI）快速执行任务，还内置了基于 FastAPI 和 Next.js 开发的 Web 可视化后台界面，方便用户通过图形界面管理任务和监控运行状态。该工具底层采用 Playwright 浏览器自动化技术，支持 CDP（Chrome DevTools Protocol）模式，能有效应对复杂的反爬虫检测，确保数据采集的稳定性和成功率。无论是保存为简单的 CSV/Excel 表格，还是存入 MySQL/MongoDB 等数据库，它都能轻松应对，真正做到了从采集到存储的一站式服务。

LittleCrawler：支持小红书和闲鱼的多平台社交媒体数据采集工具-1

功能列表

多平台支持：目前核心支持小红书 (xhs)、知乎 (zhihu) 和 闲鱼 (xhy/xy) 三大平台的数据采集。
多种采集模式：
- 搜索采集：根据自定义关键词（Keywords）批量抓取搜索结果。
- 详情采集：抓取特定文章、笔记或商品的详细内容及评论。
- 主页采集：针对指定创作者（Creator）抓取其主页公开的所有发布内容。
可视化 Web 后台：提供现代化的 Web 仪表盘，支持在浏览器中直接配置任务、启动爬虫并实时预览运行状态，降低了操作门槛。
灵活的数据存储：支持将采集的数据保存为多种格式，包括本地文件（CSV、JSON、Excel）和数据库（SQLite、MySQL、MongoDB），满足不同场景的数据处理需求。
强大的反检测能力：内置 CDP 模式（Chrome DevTools Protocol），模拟真实用户行为，大幅提升通过平台安全检测的概率。
多种登录方式：支持扫码登录（QRCode）、手机验证码登录和 Cookie 登录，方便用户管理账号会话。
高性能架构：基于 Python 3.11+ 和异步 IO 设计，配合 uv 极速包管理工具，运行效率高且资源占用可控。

使用帮助

LittleCrawler 提供了命令行（CLI）和 Web 界面两种使用方式。为了获得最佳体验，建议您的电脑已安装 Python 3.11 或以上版本。

1. 安装与环境配置

首先，您需要将项目代码下载到本地并安装依赖。推荐使用 uv 进行依赖管理（速度更快），也可以使用标准的 pip。

第一步：获取代码
打开终端（Terminal）或命令提示符，执行以下命令：

git clone https://github.com/pbeenig/LittleCrawler.git
cd LittleCrawler

第二步：安装依赖
使用 uv 安装（推荐）：

uv sync
playwright install chromium

或者使用 pip 安装：

pip install -r requirements.txt
playwright install chromium

2. 命令行（CLI）方式运行

这是最快速开始采集的方法，适合习惯使用终端的用户。

配置参数
您可以直接编辑项目目录下的 config/base_config.py 文件来设置默认参数：

PLATFORM: 设置目标平台，如 "xhs"（小红书）、"zhihu"（知乎）。
KEYWORDS: 设置搜索关键词，如 "iphone16, 摄影技巧"。
CRAWLER_TYPE: 设置采集类型，如 "search"（搜索）、"detail"（详情）。
SAVE_DATA_OPTION: 设置保存格式，如 "csv" 或 "excel"。

启动爬虫
使用默认配置运行：

python main.py

或者在命令行中指定参数运行（覆盖默认配置）：

# 示例：在小红书搜索关键词并采集
python main.py --platform xhs --type search
# 示例：初始化 SQLite 数据库
python main.py --init-db sqlite

3. Web 可视化后台方式运行

如果您更喜欢图形界面，可以启动内置的 Web 后台。

第一步：编译前端页面
进入 Web 目录并构建界面资源（需要安装 Node.js）：

cd ./web
npm run build

注：如果您只想运行后端 API 而不需要界面，可以跳过此步。

第二步：启动完整服务
回到项目根目录，启动后端服务：

# 启动 API 和前端页面
uv run uvicorn api.main:app --port 8080 --reload

第三步：访问界面
打开浏览器，访问 http://127.0.0.1:8080。您将看到一个现代化的控制台，可以在其中：

配置任务：在界面上输入关键词、选择平台和爬虫模式。
扫码登录：直接在网页上查看登录二维码并进行扫码。
监控状态：实时查看爬虫的运行日志和采集进度。
预览数据：部分支持直接预览采集到的数据结果。

常见问题与维护

清理缓存：如果遇到运行错误，可以尝试清理临时文件。

# 清除缓存命令
find . -type d -name "__pycache__" -exec rm -rf {} +

数据导出：采集完成后，数据默认会保存在 data/ 目录下，文件名通常包含时间戳，方便归档管理。

应用场景

电商市场调研
通过采集闲鱼（小黄鱼）上的二手商品价格和描述，分析特定产品（如电子产品、奢侈品）的二级市场行情和保值率，辅助定价决策。
社交媒体内容分析
运营人员可以采集小红书上的热门笔记、评论和博主信息，分析爆款内容的关键词、话题趋势和用户偏好，从而优化自己的内容创作策略。
学术研究与舆情监测
研究人员可以利用该工具抓取知乎上的问答和文章，收集公众对特定社会话题或科技产品的观点和讨论，用于自然语言处理（NLP）语料库构建或舆情分析。
竞品监控
品牌方可以定期抓取竞品在各大社交平台上的用户反馈和活动信息，及时掌握竞争对手的动态和市场反响。

QA

这个工具支持哪些操作系统？
支持 Windows、macOS 和 Linux。由于使用了 Playwright，只要能运行 Chromium 浏览器的系统理论上都支持。
遇到反爬验证（如滑块验证码）怎么办？
工具内置了 CDP 模式，能模拟真实浏览器指纹，减少触发验证的概率。但在高频采集时仍可能触发验证，建议适当降低采集频率或配置代理 IP（在配置文件中设置 ENABLE_IP_PROXY = True）。
采集的数据可以存到我自己的数据库吗？
可以。在配置文件中将 SAVE_DATA_OPTION 设置为 mysql 或 mongodb，并在相应的配置段落中填入您的数据库连接信息（地址、账号、密码）即可。
为什么安装时提示缺少 uv？
uv 是一个新兴的 Python 包管理工具，如果你没有安装，可以使用 pip install uv 进行安装，或者直接跳过 uv 命令，使用标准的 pip 和 python 命令来代替。

AI开源项目

AI生产力工具 » LittleCrawler：支持小红书和闲鱼的多平台社交媒体数据采集工具发布于 2026-01-16，如发现网址过期，或无法访问，请联系我们。

0已收藏

0已赞

LittleCrawler：支持小红书和闲鱼的多平台社交媒体数据采集工具

功能列表

使用帮助

1. 安装与环境配置

2. 命令行（CLI）方式运行

3. Web 可视化后台方式运行

常见问题与维护

应用场景

QA

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

LittleCrawler：支持小红书和闲鱼的多平台社交媒体数据采集工具

功能列表

使用帮助

1. 安装与环境配置

2. 命令行（CLI）方式运行

3. Web 可视化后台方式运行

常见问题与维护

应用场景

QA

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

快速查询站内AI工具