データセットの品質保証のための完全なソリューション
データの一貫性はVLM-R1の有効性を左右する重要な要素であり、以下の品質管理プロセスを推奨する:
- 前処理段階::
- opencvのimreadを使ってすべての画像の可読性をチェックする。
- json_validatorによる注釈ファイル形式の検証
- プロジェクトが提供するdataset_verifier.pyスクリプトを実行し、画像と注釈の対応関係をチェックする。
- ラベリング仕様に関する推奨事項::
- RefCOCOと同じ主語-属性-位置の三項構造を維持。
- ファジィ・ターゲットに対する一貫したIDラベリング戦略
- 少なくとも3つの異なる視点からの同じオブジェクトのサンプルを含む
- トレーニング中の検証::
- grpo_rec.pyに-validation_steps=100を設定する。
- skip_broken_dataを有効にして、異常サンプルを自動的にフィルタリングする。
- ロスカーブの異常な変動を監視する
特記事項:HDDの代わりにSSDに画像を保存することで、読み込みエラーの確率が大幅に減少し、パスに中国語や特殊文字を避けることができます。
この答えは記事から得たものである。VLM-R1:自然言語による画像ターゲットの位置決定のための視覚言語モデルについて































