Current Position:fig. beginning " AI hands-on tutorials

Making Dify "See" Pictures: Integrating MinerU-API for Knowledge Base OCR Resolution

2025-05-22

138

许多用户在将重要资料（如纯图片文件或扫描版 PDF 文档）上传至 LLM 应用开发平台 Dify 的知识库时，常常会遇到一个棘手的问题：Dify 无法直接读取并解析这些非文本格式的内容。这主要是因为 Dify 的知识库原生功能更侧重于处理和理解纯文本数据。为了克服这一限制，可以引入 MinerU-API 工具，它能赋予 Dify 知识库强大的光学字符识别（OCR）能力。接下来，将详细介绍如何构建一个工作流，使 Dify 知识库能够有效解析图片和扫描文档中的文字信息。本教程操作基于 Dify 1.3.1 版本。

preliminary

在开始搭建工作流之前，需要完成两项关键的准备工作：部署 MinerU-API 服务和创建 Dify 知识库。

部署 MinerU-API

MinerU-API 是一款支持多种格式文档解析（包括 OCR）的工具。关于其详细介绍和获取代码的步骤，可以参考《在Dify中使用MinerU提取PDF》和《MinerU-API | 支持多格式解析，进一步提升Dify文档能力》这两篇相关文章。此处假设用户已获得 MinerU-API 的代码，并简述其 Docker 部署命令。

docker run -d --gpus all --network docker_ssrf_proxy_network --name mineru-api -v minerupaddleocr:/root/.paddleocr mineru-api:v0.3

这条命令会在后台启动一个名为 mineru-api (used form a nominal expression) Docker 容器，并分配 GPU 资源（如果可用），同时将其连接到指定的网络，并挂载一个数据卷用于持久化 PaddleOCR 的相关数据。

创建 Dify 知识库

首先，在 Dify 平台中创建一个新的知识库。创建过程中，需要设定基础的 Embedding 模型和 Rerank 模型。Embedding 模型负责将文本数据转换为高维向量，以便机器进行语义理解和相似度计算；Rerank 模型则用于对初步检索结果进行重新排序，以提高最终答案的准确性和相关性。

图1：创建Dify知识库界面

知识库创建完成后，打开该知识库，并在浏览器的地址栏中找到并记录下该知识库的 ID。这个 ID 是后续 API 调用的重要参数。

图2：从浏览器地址栏获取知识库ID

接着，导航至知识库 -> API 设置界面，生成一个新的 API 密钥。此密钥将用于授权工作流对知识库进行的各项操作。

图3：生成知识库API密钥界面

搭建 MinerU 知识库工作流

工作流概述

所构建的工作流主要包含三个关键的代码执行节点，它们协同工作以实现对图片或扫描文档的解析及入库。

图4：MinerU知识库工作流概览

这三个代码块的功能分别如下：

Process Parameters：此节点主要负责处理调用 Dify 创建文档接口（/datasets/{dataset_id}/document/create-by-text）时所需的参数。
MinerU提取：该节点的核心任务是调用 MinerU-API 服务，将输入的 PDF 或图片文件通过 OCR 技术转换为 Markdown 格式的纯文本内容。
知识库-文档创建：此节点通过调用 Dify 平台的 /datasets/{dataset_id}/document/create-by-text API 接口，将在上一步中由 MinerU 提取出的文本内容创建为知识库中的一个新文档。以下是该节点的 Python 示例代码：

import requests
def main(api_key, file_name, content, api_params, dataset_id):
headers = {
'Authorization': f'Bearer {api_key}',
'Content-Type': 'application/json',
}
# 更新API参数，加入文件名和提取的文本内容
api_params.update({
"name": file_name,
"text": content,
})
# 构建Dify API的请求URL
# 注意：实际部署时，'http://api:5001' 可能需要根据Dify服务的实际地址和端口进行调整
url = f'http://api:5001/v1/datasets/{dataset_id}/document/create-by-text'
response = requests.post(
url,
headers=headers,
json=api_params,
)
return {"result": response.text}