基于视觉嵌入的解决方案
传统OCR技术需要将文档内容转换为文本,在处理复杂格式文档时容易出现信息丢失。ColiVara通过以下方法解决该问题:
- 视觉嵌入技术:直接对文档视觉特征进行编码,完全跳过OCR环节
- 完整格式保留:支持超过100种文件格式的原始存储,包括PDF/DOCX/PPTX等
- multimodal search:通过内容和视觉特征双重维度建立索引关系
Specific operational steps:
- Install the Python SDK:
pip install colivara-py
- 上传文档时无需预处理:使用
upsert_document
直接上传原始文件 - 检索时自动匹配视觉特征:通过
search()
方法获取包含完整格式的结果
This answer comes from the articleColiVara: Visual Embedding Based Document Storage and Retrieval ServiceThe