STT機能の主な設定項目
テープ起こし結果の正確性を確保するため、以下の点に留意してオラテストの音声テキスト化機能をご利用ください:
- モデルの選択例えば、AssemblyAIのように、様々なシナリオに最適なモデルをAIプロバイダーから選択します。
'best'このモデルは高精度が要求される場合に適しています。'fast'このモデルは、高いリアルタイム性が要求されるアプリケーションに適している。呼び出しの例model: assembly.stt('best') - オーディオの前処理オラートは一般的な音声フォーマットに自動的に対応しますが、バックグラウンドノイズがテープ起こしの精度に影響する可能性があるため、事前に音声品質をチェックすることをお勧めします(サンプリングレートは16kHz以上、モノラルが望ましい)。
- 言語サポート選択したモデルがターゲット言語をサポートしているかどうかを確認する必要があります。
multilingual_v2中国語に対応しているが、ベースモデルによっては英語のみの場合もある。 - APIキー管理AIプロバイダーのAPIキーをプロジェクト設定で正しく設定する(例えば、AssemblyAIのキーはOpenAIから独立している必要がある)。Orateのドキュメントには、各プラットフォームのキーを取得するためのガイドラインが記載されている。
さらに、長いオーディオファイルの場合、Orateのセグメンテーション機能を組み合わせることで、パフォーマンスを最適化することができます。chunk_sizeコンフィギュレーション。
この答えは記事から得たものである。Orate:よく知られた音声生成、音声トランスクリプション、音声モデリングを統合する統一APIについて































