支持的文件类型列表
- 办公文档:PDF/Word/Excel/PPT(需文件结构完整)
- 图像文件:JPG/PNG 等(依赖 OCR 工具)
- 音频文件:MP3/WAV 等(需配置语音识别服务)
- 网页内容:HTML/URL(依赖网络连接)
特殊要求说明
文件类型 | 依赖项 | 注意事项 |
---|---|---|
图像 | Tesseract OCR | 建议 300dpi 以上分辨率 |
音频 | 语音识别API | 需配置 API 密钥 |
网页 | 网络连接 | 复杂网页可能需要调整选择器 |
pdf-lib | 加密文件需要解密 |
扩展支持
通过修改 dist/index.js
配置文件,可以添加对新格式的支持。例如增加 EPUB 电子书解析模块,或集成自定义的文档解析器。