書類審査の原則
Yekは、価値の高いテキストコンテンツが確実に処理されるよう、多層的なフィルタリング機構を採用している:
- 基本的なろ過::
- .gitignoreルールの厳格な実施
- バイナリファイルの自動スキップ(コンテンツ検出による)
- サイズの大きいファイルを除外する(デフォルトのしきい値は設定可能)
- 事前審査::
- Git のコミット頻度を分析してコアファイルを特定する
- 最終更新時刻と連動したファイルのアクティビティ判定
- yek.toml設定ファイルによるフィルタリングルールの拡張をサポート。
LLMのトレーニングにとって最も価値のあるソースコードと文書資源に焦点を当てながら、処理効率を確保する設計となっている。
この答えは記事から得たものである。Yek: git リポジトリのテキストファイルを読み込んで、大規模なモデルのために素早くチャンキングする。について































