文件筛选原理
Yek采用多层过滤机制确保处理高价值的文本内容:
- 基础过滤::
- 严格执行.gitignore规则
- 自动跳过二进制文件(通过内容检测)
- 排除过大文件(默认阈值可配置)
- 高级筛选::
- 分析Git提交频率识别核心文件
- 结合最近修改时间判断文件活跃度
- 支持通过yek.toml配置文件扩展过滤规则
该设计既保证了处理效率,又能聚焦对LLM训练最具价值的源代码和文档资源。
This answer comes from the articleYek: reading git repository text files and quickly chunking them for use in large modelsThe