CleanToolはEduChatプロジェクトに付随するデータ前処理ツールであり、その標準的な操作手順は以下の通りである:
- 入力準備生の対話データをJSON形式で保存します。
instruction(指示)、input(入力)、output(出力)3つのフィールド - 基本的なクリーニングコマンド実行
python clean_tool.py --input data.json --output cleaned_data.json --gpu Trueツールは自動的に- MD5ハッシュに基づいて)完全に重複したサンプルを削除する
- 低品質データのフィルタリング(N-gramオーバーラップおよびパープレキシティ検出による)
- 標準化されたテキストフォーマット(調和された全角/半角表記など)
- 高度なオプション::
- フィールドのフィルタリング:追加
--domain eduパラメータは、教育的関連性の高いサンプルを保持することができる。 - 長さのコントロール:
--min_length 20短すぎるレスポンスを削除 - 品質のしきい値:
--quality_threshold 0.7判定基準の調整(範囲0~1)
- フィールドのフィルタリング:追加
クリーニングされたデータは、モデルの学習効率を30%向上させ、数学的な問題解決などの厳密さが要求されるタスクにおいて、エラー率を15%低減させることができることが確認されている。非技術的なユーザーのために、プロジェクトリポジトリは、事前に設定されたクリーニングルールのテンプレートを提供し、直接適用することができる。
この答えは記事から得たものである。EduChat:オープンソースの教育対話モデルについて































