MITのオープンソースプロトコルに基づき、ユーザーが利用できる機能拡張は以下の通り:
- コア機能の修正::
- main.pyでホットキーの組み合わせを調整(修正)
pynput.keyboard.Controller構成 - 録画時間制限の変更(デフォルトではタイムアウト設定なし)
- 認識率向上のための音声前処理モジュールの追加
- main.pyでホットキーの組み合わせを調整(修正)
- インターフェイスのカスタマイズ::
- 録音プロンプトのGUIスタイルを変更する(CSSファイル)
- リアルタイムテキストプレビューウィンドウの追加
- 多言語インターフェースのサポートを追加
- モデリング強化::
- 他の音声認識モデル(Whisperなど)との統合
- 用語集用にカスタマイズされたモデルをトレーニングする
- 方言や特定のアクセントを認識するための拡張サポート
開発者はGitHub Pull Requestを送信して、改善点をmasterブランチにマージすることもできます。機械学習の基礎を必要とする重要な変更は、Parakeetの公式ドキュメントを参照することを推奨します。また、ハードウェアアクセラレーションを含む変更は、MLXフレームワークの機能に精通している必要があります。
この答えは記事から得たものである。超高速ディクテーション:MAC用高速音声テキスト化ツールについて































