zChunk bietet ein zweistufiges Hyperparameter-Tuning-System:
Basisparameter
- chunk_size
- Typisch: 256-2048 Zeichen
- Optimierungsempfehlung: Belletristische Texte könnten größere Abschnitte verwenden als technische Dokumentationen - Überlappungsverhältnis
- Typisch: 10%-30%
- Optimierungstipps: Rechtstexte empfehlen eine höhere Überlappung (251 TP3T+), Pressemitteilungen können auf 151 TP3T reduziert werden
Erweiterte Parameter
- Temperatur
Kontrolle der Zufälligkeit der LLM-Chunking-Entscheidungen, die bei der Verarbeitung kreativer Texte entsprechend erhöht werden kann - top_k (Anzahl der Kandidatenmarker)
Einfluss auf die Erkennungsgenauigkeit von Chunk-Grenzen, empfohlener Wert für komplexe Dokumente 50-100 - Wiederholung_Strafe
Vermeidung von übermäßiger Absatzbildung, besonders wichtig bei Dokumenten mit langen Absätzen
Optimierungsmethoden:
1. verwenden Sie Tuning-Skripte:python hyperparameter_tuning.py
2) Indikatoren und Parameter für die Überwachung und Bewertung
3. die Verwendung der Gittersuche zum Finden von Pareto-optimalen Lösungen
Hinweis: Die vollständige Abstimmung eines 450k-Zeichen-Dokuments dauert etwa 30 Minuten (NVIDIA V100), und es wird empfohlen, die vollständige Abstimmung bei kritischen Dokumenten durchzuführen.
Diese Antwort stammt aus dem ArtikelzChunk: eine generische semantische Chunking-Strategie basierend auf Llama-70BDie































