Der gesamte Prozess des Aufbaus einer Wissensbasis
- Vorverarbeitung der DatenKonvertierung von PDF/Word-Dokumenten in das JSON-Format (jeder Eintrag enthält Entitäts- und Beschreibungsfelder)
- Umrechnung in Mengenangaben: Lauf
generate_kb_embeddings.pySkripte mit optionalen eingebetteten Modellen wie OpenAI oder MiniLM - Modellierungsverbesserung: durch
integrate.pyEinfügen von *.npy-Vektordateien in Basismodelle wie Llama - dynamische Aktualisierung (Internet)Vektoren nach Änderung der JSON-Quelle neu generieren, inkrementelle Integration durchführen (keine vollständige Umschulung erforderlich)
Konfiguration der wichtigsten Parameter
- Einbettungsdimension: standardmäßig 768 Dimensionen (muss mit der versteckten Schicht des Basismodells abgeglichen werden)
- Stapelgröße: Der Parameter -B kann nach unten angepasst werden, wenn der Videospeicher nicht ausreicht.
- Ähnlichkeitsschwelle: steuert, wie stark das Wissen aktiviert wird (geregelt durch -Schwelle)
bestes Verfahren
Es wird empfohlen, dass das Dokument zunächstPhysikalische Extraktionim Gesang antwortenDeduplizierungMicrosofts offizielles Beispiel zeigt, dass eine strukturierte Wissensbasis die Genauigkeit von Fragen und Antworten um 42% verbessern kann. Für chinesische Dokumente ist eine zusätzliche Konfiguration des Wortsegmentierungswerkzeugs erforderlich.
Diese Antwort stammt aus dem ArtikelKBLaM: Ein erweitertes Open-Source-Tool zur Einbettung von externem Wissen in große ModelleDie































