OpenWisprは、OpenAI Whisperテクノロジーに基づいたオープンソースのデスクトップ音声テキスト変換アプリケーションで、ユーザーの音声を素早くテキストに変換します。プライバシー保護を重視し、ローカルとクラウドの両方の処理オプションを提供し、データは完全にローカルに残すことができる。ユーザーはグローバルホットキーで素早くディクテーションを開始でき、テキストは自動的にカーソル位置に貼り付けられるので、文章作成、プログラミング、会議メモなどに適しています。OpenWisprはクロスプラットフォーム(macOS、Windows、Linux)をサポートし、スピードと精度のバランスを考慮した様々なモデルオプションを提供します。モダンなインターフェースとドラッグ可能なパネルが操作性を向上させ、コミュニティ主導の開発モデルにより、ユーザーは自由にカスタマイズすることができる。
機能一覧
- リアルタイムで音声をテキストに変換し、書き起こされたテキストをカーソル位置に自動的に貼り付けます。
- ローカル処理に対応し、プライバシーとセキュリティを確保するため、音声データはクラウドにアップロードされない。
- OpenAI APIを介して、より高速なトランスクリプションのためのクラウド処理オプションを提供します。
- グローバルホットキー(デフォルトのバッククォート)
`
ディクテーションのクイックスタート/ストップ。 - ディクテーションパネルはドラッグして自由に画面位置を調整できます。
- さまざまなニーズに合わせて複数のWhisperモデル(小型、ベース、小型、中型、大型)に対応。
- AIアシスタントの名前をパーソナライズするためのエージェントネーミング機能を提供し、コマンドと通常のディクテーションの区別をサポートします。
- 内蔵のコントロールパネルで、設定の管理、トランスクリプション履歴の表示、APIキーの設定が可能。
- SQLite データベースを使用して、転記履歴をローカルに保存し、簡単に表示および管理できるようにします。
- クロスプラットフォームに対応し、macOS、Windows、Linuxと互換性があります。
- MITライセンスに基づくオープンソースコードで、自由な改変と配布が可能です。
ヘルプの使用
設置プロセス
OpenWisprは、手動インストールが必要なオープンソース版があり、技術的なユーザーやカスタマイズを必要とするユーザーに適しています。以下はその詳細な手順です:
オープンソース版のインストール
- クローンコードアクセス
https://github.com/HeroTools/open-wispr
次のコマンドを実行する:git clone https://github.com/HeroTools/open-wispr.git cd open-wispr
- 依存関係のインストールNode.js 18+とnpmがローカルにインストールされていることを確認し、実行する:
npm install
- 設定環境(オプション、クラウド処理には OpenAI API キーが必要):
- 環境テンプレートファイルをコピーする:
cp env.example .env
- コンパイラ
.env
ファイルに、OpenAI API キーを追加します:OPENAI_API_KEY=your_openai_api_key_here
- または、コントロールパネルからキーを設定します(アプリケーションを起動した後に操作します)。
- 環境テンプレートファイルをコピーする:
- ローカル処理の構成(オプション):
- Python 3.7+がインストールされていることを確認してください(プログラムが自動的にインストールします)。
- コントロールパネルからWhisperモデル(tiny、base、small、medium、large)をダウンロード。
- ランニングプログラム::
- 開発モード(ホットリロード対応):
npm run dev
- 生産モデル:
npm start
- 開発モード(ホットリロード対応):
- インストールの確認起動後、システムトレイのアイコンをクリックしてコントロールパネルを開き、ステータスを確認するか、デフォルトのホットキーを押してください。
`
ディクテーションのテスト。
スタンドアロン・アプリケーションの構築(オプション)
スタンドアロンの実行ファイルを生成する必要がある場合:
- 以下のコマンドを実行する:
npm run pack
- 出力経路:
- macOS:
dist/mac-arm64/OpenWispr.app
- ウィンドウズ
dist/win-unpacked/OpenWispr.exe
- Linuxだ:
dist/linux-unpacked/open-wispr
- macOS:
- 銘記するmacOSで署名されていないアプリを初めて実行する場合、セキュリティ警告を回避するために右クリックして「開く」を選択する必要があるかもしれません。
パーミッション設定
- マイク権限OpenWisprの初回実行時にマイクへのアクセスを許可する。
- アクセシビリティの許可(macOS)自動貼り付け機能については、システム設定>プライバシーとセキュリティ>アクセシビリティでOpenWisprを有効にする必要があります。
- アクセス許可の問題が解決しない場合は、コントロールパネルを開き、「アクセス許可の問題の修正」をクリックして修正します。
主な機能
リアルタイム音声テキスト変換
- OpenWisprを起動すると、画面にはドラッグ可能な小さなディクテーションパネルが表示されます。
- グローバルホットキーを押す(デフォルト)
`
)、パネルは録画アニメーションを表示し、話し始める。 - ホットキーをもう一度押して録音を停止すると、パネルに処理アニメーションが表示され、書き起こされたテキストがカーソル位置に自動的に貼り付けられます。
- パネルを画面上の好きな位置にドラッグして、マルチウィンドウ操作を容易にする。
治療法の選択
- コントロールパネルを開く(システムトレイのアイコンを右クリック > コントロールパネル)。
- 処理モードを選択します:
- ローカル処理Whisperモデル(tinyが最速、largeが最高品質)を、データをデバイスから離れることなくダウンロードできます。
- クラウド処理ネットワーク接続が必要です。
- このモードは、設定を保存した直後に有効になります。
プロキシネーミング
- 初期設定またはコントロールパネルでAIアシスタントに名前を付ける(例:"Jarvis")。
- AIアシスト機能のトリガーには、プロキシコマンド(例:「ヘイ、ジャービス、リストとしてフォーマットしてくれ」)を使用する。
- 通常のディクテーションでは、エージェントの名前を呼ぶ必要はなく、テキストを直接録音します。
- AIは通常のディクテーションで自動的にコマンドを検出し、出力からエージェント名を削除する。
転写履歴の管理
- コントロールパネルを開き、"History"(履歴)をクリックすると、すべてのトランスクリプション記録が表示されます。
- 過去のトランスクリプションのコピー、削除、検索をサポート。
- すべてのレコードはローカルのSQLiteデータベースに保存され、パスはユーザーデータディレクトリにあります。
ホットキーのカスタマイズ
- コントロールパネルの「設定」セクションで、「ホットキー」オプションをクリックする。
- 新しいキーの組み合わせを押す(例
Ctrl+Alt+V
)で保存する。 - ホットキーが競合する場合は、いつでも任意のキーに変更できます。
注目の機能操作
ローカル・ウィスパー・プロセッシング
- コントロールパネルから「ローカル処理」を選択する。
- プログラムは自動的にPython環境を検出し、Python 3.11がない場合はインストールするよう促します。
- モデル(tiny/base/small/medium/large)を選択し、自動的にダウンロードする(39MB-1.5GB)。
- 十分なディスク容量があり、一度ダウンロードしたモデルがオフラインで使用できることを確認してください。
クラウド処理
- コントロールパネルに有効なOpenAI APIキーを入力します。
- クラウド処理モードを選択すると、プログラムはOpenAI Whisper APIを通じて音声を処理します。
- APIキーのステータスを確認する(コントロールパネルに "OpenAI API Key present: Yes/No "と表示される)。
ドラッグ可能なインターフェイス
- ディクテーションパネルの上部をクリックし、画面上の任意の場所にドラッグします。
- パネルが画面外に移動した場合、アプリを再起動すると位置がリセットされます。
クロスプラットフォーム対応
- OpenWisprはmacOS 10.15+、Windows 10+、Linuxと互換性があります。
- 任意のテキストエディタ(VS Code、Notionなど)またはブラウザで、ホットキーを押してテキストを入力します。
- アプリケーション間の自動貼り付けをサポートするために、アクセシビリティのパーミッションが有効になっていることを確認してください。
ほら
- ローカル処理には高性能デバイス(8GB RAM、高速CPU推奨)が必要です。
- クラウド処理には、安定したネットワークと有効なOpenAI APIキーが必要です。
- プローブ
DEBUG.md
ファイルでデバッグログを取得し、運用上の問題を解決する。 - マイクまたはペースト機能が動作しない場合は、システムの権限設定を確認してください。
アプリケーションシナリオ
- 効果的なライティング
openWisprのグローバルホットキーと自動貼り付け機能は、スムーズな入力を可能にし、ブログ、レポート、小説の執筆に適しています。 - プログラミングノート
開発者は、音声を使ってコードコメントや技術文書を素早く記録することができます。クロスプラットフォームのサポートにより、VS CodeやPyCharmなどのエディタでシームレスに操作できます。 - 会議録
学生や社会人は、音声で会議を録音することができ、ローカル処理モードは機密情報を保護し、履歴記録機能は整理や見直しが簡単です。 - 多言語テープ起こし
58言語(中国語、英語、日本語など)をサポートし、翻訳者や国際的なコミュニケーション・シナリオに適しています。.env
優先言語を設定します。
品質保証
- OpenWisprは完全に無料ですか?
はい、OpenWisprはオープンソースで、MITライセンスのもとフリーです。クラウド処理にはOpenAI API使用料がかかります。 - ローカル処理とクラウド処理の違いは?
データのローカル処理はデバイスから離れないため、プライバシーが重視されるシナリオに適しており、より高いハードウェア性能が求められる。クラウド処理はより高速で、ネットワークとAPIキーを必要とする。 - ホットキーの競合を解決するには?
コントロールパネルの「設定」でホットキーを変更し、任意のキーの組み合わせをサポートする。 - 対応言語は?
中国語、英語、スペイン語など58言語をサポート。対応言語.env
このファイルでは、優先言語を設定するか、自動検出を使用します。 - データ・セキュリティはどのように確保するのですか?
ローカル処理モードでは、音声はクラウドにアップロードされません。クラウド処理はOpenAIのプライバシーポリシーに依存し、APIキーはシステムキーマネージャーを通して安全に保存されます。 - 書き起こしたテキストが自動的に貼り付けられない場合はどうすればよいですか?
macOSのアクセシビリティ許可が有効になっていることを確認するか、手動でペーストしてみてください (Cmd+V
これはコントロールパネルの "Fix Permission Issues "から修正できます)。これはコントロールパネルの "Fix Permission Issues "から修正できます。