海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIアンサー

CleanToolツールを使用したデータ・クレンジングの正確な手順を教えてください。

2025-08-21 591
直接リンクモバイルビュー
qrcode

CleanToolはEduChatプロジェクトに付随するデータ前処理ツールであり、その標準的な操作手順は以下の通りである:

  1. 入力準備生の対話データをJSON形式で保存します。instruction(指示)、input(入力)、output(出力)3つのフィールド
  2. 基本的なクリーニングコマンド実行python clean_tool.py --input data.json --output cleaned_data.json --gpu Trueツールは自動的に
    • MD5ハッシュに基づいて)完全に重複したサンプルを削除する
    • 低品質データのフィルタリング(N-gramオーバーラップおよびパープレキシティ検出による)
    • 標準化されたテキストフォーマット(調和された全角/半角表記など)
  3. 高度なオプション::
    • フィールドのフィルタリング:追加--domain eduパラメータは、教育的関連性の高いサンプルを保持することができる。
    • 長さのコントロール:--min_length 20短すぎるレスポンスを削除
    • 品質のしきい値:--quality_threshold 0.7判定基準の調整(範囲0~1)

クリーニングされたデータは、モデルの学習効率を30%向上させ、数学的な問題解決などの厳密さが要求されるタスクにおいて、エラー率を15%低減させることができることが確認されている。非技術的なユーザーのために、プロジェクトリポジトリは、事前に設定されたクリーニングルールのテンプレートを提供し、直接適用することができる。

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る