Hintergrund der Herausforderung
Herkömmliche Chunking-Methoden wie Chunking mit fester Größe oder Segmentierung auf der Grundlage einfacher Regeln zerstören bei komplexen Dokumenten wie Rechtsdokumenten, technischen Handbüchern usw. oft die semantische Kohärenz des Originaltextes, was zu dem Problem der Informationsfragmentierung bei der Abfrage führt.
zChunk Lösungen
- Das Llama-70B-Modell wird verwendet, um die tiefere Semantik von Dokumenten zu verstehen, indem dieTipp TechnikAutomatische Erkennung von semantischen Grenzen
- Es werden drei Chunking-Strategien angeboten:
- NaiveChunkBeibehaltung der Grundfunktionen für einfache Szenarien
- SemanticChunkAufrechterhaltung der lokalen Kohärenz auf der Grundlage eingebetteter Ähnlichkeit
- zChunk-AlgorithmusKernlösung für die globale semantische Bewahrung durch vom großen Modell generierte Chunked Cue-Token (z. B. "Absatz")
Betriebsvorschlag
Für juristische Vertragsdokumente empfiehlt es sich, 1) die--strategy=zchunkParameter; 2) setzenoverlap_ratio=0.2die Gewährleistung der Kontinuität der Bestimmungen; 3) durchevaluate.pyDas Skript überprüft, ob der F1-Wert nach dem Chunking > 0,85 ist.
Diese Antwort stammt aus dem ArtikelzChunk: eine generische semantische Chunking-Strategie basierend auf Llama-70BDie































