WritingBenchに付属する専用審査モデルは、Qwen-7Bに最適化された特別な審査ツールで、次のような特徴がある:
- 多面的評価論理的一貫性、専門分野、スタイルの適合性など、5つの次元で同時に採点できる。
- 量的生産高各次元について、0~10点の具体的なスコアが示されている。
- 注釈点数だけでなく、その理由を文章で説明する。
- 局所的な操作データのプライバシーを保護するため、オフライン環境で使用するためにダウンロードされます。
アクセシビリティ:
- HuggingFaceモデル・ライブラリをご覧ください: https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B
- フルモデルファイルのダウンロード(約15GB)
- criter.pyでローカルモデルのパスを設定します。
- PyTorchと対応するCUDAバージョンをインストールする必要がある。
なお、判定モデルは強力なコンピューティングリソースを必要とするため、24GB以上のビデオメモリを搭載したGPUデバイスの使用を推奨する。大規模なモデルAPIを用いたスコアリングに比べ、専用の判定モデルの評価結果はより安定し、再現性が高いため、特に大量のテストを必要とする研究開発シナリオに適しています。
この答えは記事から得たものである。WritingBench:大規模モデルのライティング能力をテストするベンチマーク評価ツールについて




























