海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

現在の場所図頭 " AIアンサー

CleanToolツールを使用したデータ・クレンジングの正確な手順を教えてください。

2025-08-21

591

直接リンクモバイルビュー

CleanToolはEduChatプロジェクトに付随するデータ前処理ツールであり、その標準的な操作手順は以下の通りである：

入力準備生の対話データをJSON形式で保存します。instruction(指示）、input(入力）、output(出力）3つのフィールド
基本的なクリーニングコマンド実行python clean_tool.py --input data.json --output cleaned_data.json --gpu Trueツールは自動的に
- MD5ハッシュに基づいて）完全に重複したサンプルを削除する
- 低品質データのフィルタリング（N-gramオーバーラップおよびパープレキシティ検出による）
- 標準化されたテキストフォーマット（調和された全角／半角表記など）
高度なオプション::
- フィールドのフィルタリング：追加--domain eduパラメータは、教育的関連性の高いサンプルを保持することができる。
- 長さのコントロール：--min_length 20短すぎるレスポンスを削除
- 品質のしきい値：--quality_threshold 0.7判定基準の調整（範囲0～1）

クリーニングされたデータは、モデルの学習効率を30%向上させ、数学的な問題解決などの厳密さが要求されるタスクにおいて、エラー率を15%低減させることができることが確認されている。非技術的なユーザーのために、プロジェクトリポジトリは、事前に設定されたクリーニングルールのテンプレートを提供し、直接適用することができる。

この答えは記事から得たものである。EduChat：オープンソースの教育対話モデルについて

無断転載を禁じます：AI生産性ツール " CleanToolツールを使用したデータ・クレンジングの正確な手順を教えてください。

おすすめ