知識ベース構築の全過程
- データ前処理PDF/Word ドキュメントを JSON フォーマットに変換 (各エントリにはエンティティフィールドと説明フィールドが含まれます)
- 定量への変換走る
generate_kb_embeddings.pyOpenAIやMiniLMのようなオプションの組み込みモデルを持つスクリプト - モデリング強化スルー
integrate.pyLlamaのような基本モデルに*.npyベクトルファイルを注入する - 動的更新ソース JSON を変更した後にベクトルを再生成し、インクリメンタルな統合を実行します(完全な再トレーニングは必要ありません)。
主要パラメータの設定
- 埋め込み次元:デフォルト768次元(ベースモデルの隠れ層に合わせる必要がある)
- バッチサイズ:-Bパラメータは、ビデオメモリが不足している場合、下方に調整することができます。
- 類似性閾値:知識がどの程度厳密に活性化されるかを制御する(-閾値によって制御される)
ベストプラクティス
この文書は、まず物理的抽出歌で応える重複排除マイクロソフトの公式な例では、構造化された知識ベースによってQ&Aの精度が42%向上することが示されている。 中国語の文書については、単語分割ツールの追加設定が必要である。
この答えは記事から得たものである。KBLaM:大規模モデルに外部知識を埋め込むためのオープンソース拡張ツールについて































