该平台支持处理6大类异构数据源,具体能力如下:
- 文档类:包括PDF(提取段落和表格)、Word(保留格式转换)、TXT(编码自动识别)
- 图像类:JPG/PNG等常见格式,支持OCR文字识别和元数据提取
- 音频类:MP3/WAV等,自动生成时间轴字幕(如”00:01-开场白”格式)
- 视频类:MP4/MOV等,同时提取视觉帧信息(缩略图)和语音转文本
- 网页类:支持动态渲染页面、表单提交、瀑布流加载等复杂结构
- API数据:直接解析JSON/XML响应,支持自定义字段映射
在文件容量方面,平台采用分段处理技术:
- 基础版支持≤200MB的单文件
- 企业版可处理500MB以上的4K视频或数百页法律文档
- 超大文件会自动分块处理,通过进度条显示处理状态,支持断点续传
值得注意的是,音视频处理会消耗更多Token资源,建议绑定外部模型(如OpenAI的Whisper)提升效率。对于敏感数据,等待中的Docker私有部署版将提供完全离线的处理能力。
本答案来源于文章《Supametas.AI:提取非结构化数据为LLM高可用数据》