ウィスパー このアプリは、ユーザーが音声でメモを記録し、AI技術を使って音声をテキストに変換し、リスト、ブログ、タスクなどのコンテンツを生成できる無料のオープンソースツールである。プロジェクトはNutlopeによって開発され、GitHubでホストされている。 一緒にaiのWhisperとLlamaモデルは、効率的なテープ起こしやテキスト処理を可能にします。Whisperアプリは使い方が簡単で、コンテンツを素早く記録・整理したいユーザーのための直感的なインターフェースを備えています。コードは完全にオープンソースで、ユーザーが自由に展開することができ、データはプライバシー保護に重点を置いてローカルに保存されます。
機能一覧
- 音声録音と文字起こし:マイクを通して音声を録音し、素早くテキストに変換します。
- AIテキストオーガナイザー:書き起こしたテキストをリスト、ブログ、タスクリストに変換。
- 多言語サポート:英語や中国語など、多言語での音声書き起こしをサポート。
- ローカルストレージ:プライバシー保護のため、録画とテキストはユーザーのデバイスに保存されます。
- オープンソースのデプロイメント: ローカルまたはクラウドのデプロイメントをサポートする完全なコードを提供します。
- サードパーティ・サービスの統合:Together.aiとConvexを組み合わせて、AIとデータベースのパフォーマンスを向上させる。
- カスタマイズされた出力:リストスタイルやブログ構造などのテキストフォーマットを調整するためのサポート。
ヘルプの使用
設置プロセス
Whisper Appを使用するには、ローカルまたはクラウドにプロジェクトをデプロイする必要があります。以下はその詳細な手順である:
- プロジェクトコードの複製
ターミナルで以下のコマンドを実行し、Whisperアプリのコードを取得する:git clone https://github.com/Nutlope/whisper.git
プロジェクト・カタログにアクセスする:
cd whisper
- 依存関係のインストール
Node.jsがインストールされていることを確認する(最新のLTSバージョンを推奨)。以下のコマンドを実行して、依存関係をインストールします:npm install
Next.js、Vercel AI SDKなど、必要なパッケージがインストールされます。
- 環境変数の設定
Whisper App は認証に Clerk を使用し、データベースサポートに Convex を使用します。設定手順は以下の通り:- 店員アカウント登録 (
https://clerk.com
) を得る。CLERK_SECRET_KEY
歌で応えるNEXT_PUBLIC_CLERK_PUBLISHABLE_KEY
. - プロジェクトのルート・ディレクトリに
.env.local
ファイル、追加:CLERK_SECRET_KEY=your_clerk_secret_key NEXT_PUBLIC_CLERK_PUBLISHABLE_KEY=your_clerk_publishable_key
- ログイン凸
https://convex.dev
)、プロジェクトを作成しCLERK_ISSUER_URL
(例https://some-animal-123.clerk.accounts.dev
). - 凸ダッシュボードに追加
CLERK_ISSUER_URL
保存」をクリックする。
- 店員アカウント登録 (
- ランニング・プロジェクト
設定が完了したら、開発サーバーを起動する:npm run dev
このプロジェクトは
http://localhost:3000
.ブラウザを開いてアクセスするだけだ。
使用方法
ウィスパーアプリはシンプルなインターフェースで、すぐに使い始めるのに適しています。以下は主な機能のガイドです:
1.録音とテープ起こし
- ウィスパーアプリのページにアクセスし、クラークを使用してアカウントにログインします。
- 録音」ボタンをクリックして、ブラウザのマイクアクセスを許可する。
- 録音を開始し、終了したら「停止」をクリックします。正確な文字起こしのため、一度に5分以内の録音をお勧めします。
- システムはTogether.aiのWhisperモデルを使って音声をテキストに変換し、その結果をページに表示する。
2.テキストの照合
- テープ起こしが完了したら、出力形式(リスト、ブログ、タスクリストなど)を選択します。
- リスト」を選択するとエントリーのリストが生成され、「ブログ」を選択するとタイトル付きの記事に整理される。
- ユーザーはテキストを編集したり、内容を調整したり、詳細を追加したりできる。
- 保存」をクリックして、結果をローカルのIndexedDBデータベースに保存する。
3.カスタマイズと最適化
- 設定画面で、リストの箇条書きやブログの段落スタイルなど、出力フォーマットを調整する。
- 文法修正や言語翻訳など、Llamaモデルによるテキスト最適化のサポート。
- ターゲット言語(例:中国語、英語)は、書き起こしまたは翻訳の設定で選択することができます。
4.データ管理とプライバシー
- Whisperアプリはデフォルトで録音とテキストをローカルにIndexedDBに保存し、クラウドにはアップロードしません。
- データをクリアするには:ブラウザの開発者ツールでIndexedDBをクリアするか、ローカルパスを削除する。
%APPDATA%\..\Local\com.bradenwong.whispering
(ウィンドウズ)。 - 転写処理には Together.ai への接続が必要なので、安定したネットワークを確保することをお勧めします。
ほら
- Together.ai と Convex のサービスにアクセスするには、インターネット接続が安定している必要があります。
- マイクが機能しない場合は、システムのアクセス許可を確認してください(Windows:「設定」>「プライバシー」>「マイク」、Mac:「システム環境設定」>「セキュリティとプライバシー」>「マイク」)。
- 外部 API に依存しているプロジェクトでは、Together.ai の無料クレジットまたはサブスクリプションのステータスを確認する必要があります。
- 初めてデプロイする場合は、環境変数のデバッグが必要になるかもしれないので、GitHubのドキュメントを参照することをお勧めする。
アプリケーションシナリオ
- 会議記録の照合
ユーザーは会議のディスカッションを記録し、Whisperアプリはチームコラボレーションのための議事録やタスクリストを素早く作成します。 - 学習ノートの記録
学生は授業や講義の音声を録音し、Whisperアプリが構造化されたノートに変換することで、復習や整理が容易になります。 - ブログ・コンテンツの作成
コンテンツ作成者はインスピレーションを音声で入力し、Whisperアプリはそれを記事原稿に照合することで、執筆効率を向上させる。 - 個別のミッション計画
ユーザーは毎日のToDoを記録し、Whisperアプリがタスクリストに変換して時間管理に役立てる。
品質保証
- Whisperアプリはどの言語に対応していますか?
Together.aiのWhisperモデルに基づいており、英語、中国語、スペイン語、その他の言語をサポートしている。詳細なサポートリストは、Together.aiのウェブサイトに掲載されている。 - ウィスパーアプリを使用するためにお金を払う必要がありますか?
Whisperアプリは無料でオープンソースです。外部サービス(例:Together.ai、Convex)は、使用に応じて料金が発生する場合があります。 - データのプライバシーはどのように保護されているのか?
録音と書き起こされたテキストはIndexedDBにローカルに保存され、音声は書き起こしのためだけにTogether.aiに送信される。 - 配備に必要な技術的基盤とは?
基本的なNode.jsとコマンドラインの操作に慣れていれば十分で、GitHubのドキュメントに初心者向けの詳しい説明がある。