ハードウェア構成とパフォーマンス最適化戦略
realtime-transcription-fastrtcは、マルチレベルのハードウェア最適化スキームを提供する:
- GPUアクセラレーション: CUDAとMPS(メタル・パフォーマンス・シェーダー)をフルサポートし、NVIDIAグラフィックスカードでの使用を推奨。
- モデル選択: whisper-small(39Mパラメータ)からwhisper-large(1550Mパラメータ)までの5つの訓練済みモデルが提供されます。
- パフォーマンス・チューニング: batch_sizeパラメータを調整し、レイテンシーとスループットのバランスをとることができる。
さまざまなハードウェア構成に対する具体的な推奨事項:
- ハイエンドデバイス:推奨モデル whisper-large-v3-turbo、batch_size を 32 に設定
- ミッドレンジ・デバイス:ウィスパー・ミディアム・モデルを推奨、batch_sizeを8に設定
- 低容量の装置:VADをオフにして、ささやくように小さなモデルを使用する。
初回実行時のモデルのウォームアップ機構は、その後の認識の待ち時間を効果的に短縮する。
この答えは記事から得たものである。リアルタイム音声テキスト化のためのオープンソースツールについて