LangExtract wurde mit intelligenten Chunking- und Parallelverarbeitungsfunktionen entwickelt, um sehr lange Texte wie ganze Romane oder medizinische Berichte effizient zu verarbeiten. Von max_workers
Parameter steuert die Anzahl der gleichzeitigen Threads und unterstützt mehrere Extraktionsrunden (num_passes
), um die Genauigkeit zu verbessern. Bei der Verarbeitung des vollständigen Textes von Romeo und Julia beispielsweise teilt das System den Text auf und analysiert ihn parallel, um schließlich ein einheitliches Ergebnis im JSONL-Format zu erzeugen.
Diese Antwort stammt aus dem ArtikelLangExtract: Open-Source-Tool zur Extraktion strukturierter Daten aus TextDie