Prinzip der Dokumentenprüfung
Yek verwendet einen mehrstufigen Filtermechanismus, um sicherzustellen, dass nur hochwertige Textinhalte verarbeitet werden:
- Basis-Filtration::
- Strikte Durchsetzung von .gitignore-Regeln
- Automatisches Überspringen von Binärdateien (durch Inhaltserkennung)
- Übergroße Dateien ausschließen (Standardschwellenwert ist konfigurierbar)
- Fortgeschrittenes Screening::
- Analyse der Häufigkeit von Git-Übertragungen zur Identifizierung von Kerndateien
- Bestimmung der Dateiaktivität in Verbindung mit dem Zeitpunkt der letzten Änderung
- Unterstützung für die Erweiterung von Filterregeln über die Konfigurationsdatei yek.toml
Das Design gewährleistet eine effiziente Verarbeitung und konzentriert sich gleichzeitig auf die Quellcode- und Dokumentationsressourcen, die für die LLM-Ausbildung am wichtigsten sind.
Diese Antwort stammt aus dem ArtikelYek: Lesen von Textdateien aus dem Git-Repository und schnelles Chunking für große ModelleDie































