ホットシソーラス設定完全ガイド
文書の構造の説明
ソフトウェア・ディレクトリには3種類のホットワード・ファイルがあります:
- hot-zh.txt:中国語シソーラス(ピンイン照合に基づく)
- hot-en.txt:英語シソーラス(スペルマッチに基づく)
- hot-rule.txt:カスタム交換ルール
設定方法
- 中国語のホットワード1行に1単語ずつ記入する(例:「畳み込みニューラルネットワーク」)。
- 英語のホットワード1行に1単語ずつ記入する(例:「ReLU」)。
- ルール ホットワード等号形式を使用する(例:"NLP = Natural Language Processing")。
ベストプラクティスの推奨
- 専門分野では、100~500のコアタームを維持することが推奨される。
- hot-rule.txtでは中国語と英語の混在が望ましい(例:"CNN = Convolutional Neural Network")。
- 定期的に更新されるホットワードデータベース(クライアント側でのダイナミックローディングにより、再起動は不要)
- 複雑な略語は、大文字と小文字の両方を設定することをお勧めします(例:"AI "と "ai")。
実用的なテストによると、ホットワードの合理的な構成により、専門的なテキスト認識のエラーレートを60%以上減らすことができ、これは特に法律、医療、その他の専門分野に適しています。
この答えは記事から得たものである。CapsWriter-Offline:PC用音声入力・字幕書き起こしツールについて