海外访问:www.kdjingpai.com
Ctrl + D 收藏本站
当前位置:首页 » AI答疑

怎样避免在准备LLM训练数据时误处理Git仓库中的非相关文件?

2025-09-10 1.8 K

问题背景

Git仓库常包含二进制/日志/临时文件等无用数据,手动筛选费时且易遗漏。

多层过滤方案

  • 基础过滤:自动应用.gitignore规则(如node_modules/)
  • 扩展过滤:通过文件类型检测排除二进制/媒体文件
  • 大小过滤:默认跳过过大文件(可调整阈值)
  • 历史加权:根据Git提交频率智能评估文件重要性

具体操作

  1. 确保仓库有完整.gitignore文件
  2. 运行基础检查:yek –dry-run查看将被处理的文件列表
  3. 添加自定义规则:
    – 在yek.toml中配置额外忽略模式
    – 使用–include/–exclude参数临时调整
  4. 验证效果:对比处理前后的文件统计信息

典型案例

处理前端项目时可自动忽略:
– build/ dist/等构建目录
– *.png等资源文件
– package-lock.json等依赖文件
专注于核心业务代码文件。

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文