Die integrierte mehrstufige Vorverarbeitungspipeline des Tools ermöglicht eine intelligente Optimierung der Eingabedaten. Zu den Kernkomponenten gehören ein Stoppwortfilter, ein Modul zur Normalisierung der Zeichensetzung, ein Groß-/Kleinschreibungskonverter und ein auf Tiktoken basierender Algorithmus zur Komprimierung von Token.
Im GitHub-Repository-Verarbeitungsszenario können generierte Dateien wie *.pb.go mit dem Parameter excluded_patterns automatisch ignoriert werden; mit der Einstellung EXCLUDED_DIRS können Nicht-Kernverzeichnisse wie Tests ausgeschlossen werden. Praktische Tests zeigen, dass diese Vorverarbeitungen die Eingabegröße von Codeanalyseszenarien im Durchschnitt um 58% reduzieren.
Der speziell entwickelte duale Ausgabemodus (komprimiert/unkomprimiert) bewahrt die ursprünglichen Informationen und liefert gleichzeitig eine optimierte Version. Benutzerbeispiele zeigen, dass die komprimierte Ausgabe bei der Verarbeitung eines 300-seitigen PDF-Papiers die Anzahl der Token von 120.000 auf 47.000 reduziert, was perfekt zu den meisten Einschränkungen des LLM-Kontextfensters passt.
Diese Antwort stammt aus dem ArtikelOneFileLLM: Integration mehrerer Datenquellen in eine einzige TextdateiDie































