zChunkは2段階のハイパーパラメータ・チューニング・システムを提供する:
基本パラメータ
- チャンクサイズ
- 通常:256~2048文字
- 最適化の推奨:小説のテキストは、技術文書よりも大きなチャンクを使うことができる。 - オーバーラップ率
- 代表値: 10%-30%
- 最適化のヒント:法律関係の文章はオーバーラップを大きく(25%+)、プレスリリースは15%に抑えることができる。
高度なパラメータ
- 温度
LLMのチャンキング決定のランダム性を制御し、創造的なテキストを処理する際に適切に増加させることができる。 - top_k (候補タグの数)
チャンクの境界検出精度に影響、複雑な文書の推奨値 50-100 - 反復ペナルティ
特に長い段落の文書では重要です。
最適化手法:
1.チューニングスクリプトを使用する:python hyperparameter_tuning.py
2.モニタリングと評価の指標とパラメータ
3.グリッドサーチによるパレート最適解の探索
注:450k文字の文書を完全にチューニングするには、約30分かかります(NVIDIA V100)。
この答えは記事から得たものである。zChunk: Llama-70Bに基づく一般的な意味的チャンキング戦略について































