CleanToolツールで教育対話データの質の低さに対処するには？

2025-08-21

567

直接リンクモバイルビュー

教育データクレンジングのためのフルプロセス・ソリューション

CleanToolは3段階のデータ最適化方法を提供します：

基本的なクリーニング重複や低品質なデータを削除するための標準コマンドを実装する。
python clean_tool.py --input raw_data.json --output stage1.json --gpu True
ドメイン拡張:: "pedagogical "や "cognitive "などの教育的特徴を含むデータは、-edu_keywordsパラメータによって保持される。
python clean_tool.py --input stage1.json --output final_data.json --edu_keywords teaching,learning
品質保証metricsパラメータを使用したデータ品質レポートの作成（語彙密度、主題の一貫性などのメトリクスを含む）

特別なシナリオの提案

この答えは記事から得たものである。EduChat：オープンソースの教育対話モデルについて