教育データクレンジングのためのフルプロセス・ソリューション
CleanToolは3段階のデータ最適化方法を提供します:
- 基本的なクリーニング重複や低品質なデータを削除するための標準コマンドを実装する。
python clean_tool.py --input raw_data.json --output stage1.json --gpu True - ドメイン拡張:: "pedagogical "や "cognitive "などの教育的特徴を含むデータは、-edu_keywordsパラメータによって保持される。
python clean_tool.py --input stage1.json --output final_data.json --edu_keywords teaching,learning - 品質保証metricsパラメータを使用したデータ品質レポートの作成(語彙密度、主題の一貫性などのメトリクスを含む)
特別なシナリオの提案
- カウンセリングデータ:感情豊かな対話を保持するために-sentiment_filterパラメータを追加する。
- 多言語データ: -lang en/zh パラメータによる言語分離
- 大規模処理:-batch_size 1024を使用して処理効率を向上させる。
この答えは記事から得たものである。EduChat:オープンソースの教育対話モデルについて































