Princípio da triagem de documentos
O Yek usa um mecanismo de filtragem de várias camadas para garantir que o conteúdo de texto de alto valor seja processado:
- Filtragem básica::
- Aplicação rigorosa das regras do .gitignore
- Ignoração automática de arquivos binários (por detecção de conteúdo)
- Excluir arquivos de tamanho excessivo (o limite padrão é configurável)
- Triagem avançada::
- Análise da frequência de commits do Git para identificar os arquivos principais
- Determinação da atividade do arquivo em conjunto com a hora da última modificação
- Suporte para estender as regras de filtragem por meio do arquivo de configuração yek.toml
O design garante a eficiência do processamento e, ao mesmo tempo, concentra-se no código-fonte e nos recursos de documentação mais valiosos para o treinamento em LLM.
Essa resposta foi extraída do artigoYek: leitura de arquivos de texto do repositório git e sua rápida divisão em pedaços para modelos grandesO































