zChunkは、異なる文書処理ニーズに対応するため、3つの主要なチャンキング戦略を提供します:
- NaiveChunk(固定サイズのチャンキング)::
- 動作原理:あらかじめ設定された文字数に従ってテキストを機械的に分割する
- シナリオ:通常のフォーマットの単純な文書(ログファイルなど)
- 利点:処理速度が速い、リソース消費が少ない - SemanticChunk (埋め込み類似度チャンキング)::
- 仕組み:テキスト埋め込みベクトルベースのクラスタリング分析
- シナリオ:段落の整合性を維持する必要がある通常の文書
- 利点:パフォーマンスと意味の一貫性のバランス - zチャンクアルゴリズム(LLMヒントのチャンキング)::
- 仕組み:Llama-70Bを使用してインテリジェントなセグメント化されたプロンプトを生成する
- シナリオ:複雑な専門文書(法的契約書など)
- 利点:意味的境界の正確な把握、動的適応のサポート
これらの3つの戦略は、ハイパーパラメータのチューニング・パイプラインを通じて自由に切り替えることができ、ユーザーは文書の複雑さに応じて、戦略の選択を徐々にアップグレードしていくことが推奨される。
この答えは記事から得たものである。zChunk: Llama-70Bに基づく一般的な意味的チャンキング戦略について































