OneFileLLM支持处理多种常见数据源,每种都有特定的处理方法:
- GitHub repository:直接输入仓库URL,工具会自动递归获取支持的文件类型(.py, .md等)
- GitHub拉取请求/问题:输入PR或Issue的URL,将提取差异详情和评论
- ArXiv/Sci-Hub论文:输入论文URL或DOI/PMID,自动下载PDF并转换为文本
- YouTube video:输入视频URL获取转录文本
- 网页内容:支持指定深度爬取链接内容(默认深度为2)
- local document:支持PDF、文本文件等多种格式,可直接处理文件或整个目录
处理这些数据源时,工具会自动生成两种输出:压缩版(去除停用词等)和未压缩版,并以XML格式封装,保持结构清晰。所有数据源都遵循统一的XML封装格式,但会根据来源类型使用不同的type属性标记。
This answer comes from the articleOneFileLLM: Integrating Multiple Data Sources into a Single Text FileThe