Voxtralは、フランスのAIスタートアップMistral AIが2025年7月15日にリリースした初のオープンオーディオモデルである。 Voxtralは、商用アプリケーション向けに、生産環境にすぐに使える音声理解機能を、市場競争力の高い価格で提供することを目的としている。 Voxtralモデルには2つのバージョンがあり、プロダクション規模のアプリケーション向けの24Bパラメータ・バージョンと、ローカルおよびエッジ展開向けの3Bパラメータ "Mini "バージョンがある。 どちらのバージョンもApache 2.0ライセンスでリリースされており、Hugging Faceからダウンロードしてローカルで実行したり、APIを介してアプリケーションに統合することができます。 Voxtralは単に音声を書き起こすだけでなく、音声コンテンツを深く理解し、直接質問をサポートし、要約を生成し、音声コンテンツに対してタスクを実行する。 このモデルは、英語、スペイン語、フランス語、ヒンディー語を含む多言語をサポートし、書き起こしの場合は最大30分、理解の場合は最大40分の音声を扱うことができます。
機能一覧
- デュアルバージョンモデル大規模なプロダクション・アプリケーション向けの24Bパラメータ・バージョンと、ローカルおよびエッジ・コンピューティング導入向けの3Bパラメータ "ミニ "バージョンです。
- オープンソースとAPIアクセス両モデルともApache 2.0オープンソースライセンスに準拠しており、Hugging Faceからダウンロードできます。 また、Mistral AIはAPIインタフェースを提供しており、開発者は簡単なAPIコールによってVoxtralの音声インテリジェンスをアプリケーションに統合することができる。
- 高い品質と価格の比率APIの価格設定は1分あたり0.001ドルからで、高品質の音声書き起こしや音声理解を大規模に利用できるように設計されている。
- ロング・オーディオ・プロセッシングコンテキストの長さは32kトークンで、テープ起こしでは最大30分、理解作業では最大40分の音声を処理できます。
- 内蔵のQ&Aおよび要約機能複数のモデルをつなげて質問したり、音声コンテンツの構造化された要約を直接生成したりする必要はありません。
- 多言語サポートFLEURSやMozilla Common Voiceなどの複数のベンチマークで検証されているように、Voxtralは多言語に優れており、特にヨーロッパ言語では、英語、フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、オランダ語、ヒンディー語などをサポートしています。
- ローカル展開とカスタマイズ: 企業のお客様には、ローカルな展開オプションのほか、話者認識、感情検出、対話分離など、特定の領域向けに機能を微調整・拡張するためのソリューションを提供します。
- テキスト処理機能の保持Voxtralは言語モデリング・バックボーン(Mistral Small 3.1)のテキスト処理機能を保持し、音声と言語のタスクをシームレスに切り替えることができます。
ヘルプの使用
Voxtral は、開発者や企業に柔軟で強力な音声理解機能を提供するように設計されています。ニーズに応じて、Voxtralを使用するためのさまざまなオプションがあります。
1.APIによる迅速な統合
Mistral AIが提供するAPIを使用することは、音声インテリジェンスを既存のアプリケーションに素早く統合したい開発者にとって、最も簡単な方法である。
操作手順。
- APIキーの取得まず、ミストラルAIの公式プラットフォームに登録し、APIキーを取得してください。
- APIドキュメントを読む公式の Mistral AI ドキュメントに Voxtral API のセクションがあります。 ドキュメントでは、リクエストの形式、必要なパラメータ、返されるデータの構造など、API の呼び出し方を詳しく説明しています。
- APIリクエストの開始:
- 転写終点音声をテキストに変換するだけであれば、Mistral AIが提供する高度に最適化されたテープ起こし専用のエンドポイントをご利用いただけます。これは通常、最も費用対効果の高いオプションです。 リクエストの一部として、指定されたURLに音声ファイルを送信する必要があります。
- 理解とQ&A質問したり、音声コンテンツの要約を生成したりするなど、より高度な機能が必要な場合は、これらの機能をサポートするAPIエンドポイントを呼び出す必要があります。リクエストでは、音声ファイルを提供することに加えて、質問したい内容や要約を生成するコマンドなどの追加パラメータを提供する必要があるかもしれません。
- リターン結果の処理APIは、書き起こされたテキスト、質問に対する回答、または生成された要約を含むJSON形式のデータを返します。アプリケーションはこのJSONデータを解析し、必要な情報を抽出する必要があります。
サンプルシナリオ顧客サービス・アプリケーションは、Voxtral APIを使って顧客の音声メッセージをリアルタイムでテキストに書き起こし、要約機能を使ってサービス・チケットを素早く作成することができます。
2.現地での展開と運営
データ・プライバシーを必要とする企業や研究者、オフラインで実行したい、あるいは深くカスタマイズしたい場合、Voxtralのオープン・ソース・モデルを直接ダウンロードして、ローカル・サーバーやエッジ・デバイスで実行することができます。
インストールと展開のプロセス。
- 環境準備:
- 十分なコンピューティングリソース(特にGPU)を備えたサーバーまたはコンピューターが必要です。正確なハードウェア要件は、選択したモデルのバージョンによって異なります(バージョン24Bでは、より高度な構成が必要です)。
- Python環境をインストールし、PyTorchやTransformersなど必要な機械学習ライブラリを用意する。
- ダウンロードモデル:
- ハギング・フェイスのウェブサイト(huggingface.co)をご覧ください。
- Voxtral」または「Mistral AI」を検索する。
- 必要なモデル・バージョン(Voxtral 24B または Voxtral Mini 3B)を選択し、モデル重量ファイルをダウンロードします。
- ローディングと推論コードを書く:
- ハギング・フェイスの使用
Transformers
ライブラリを使えば、ダウンロードしたモデルを簡単に読み込むことができる。 - Pythonスクリプトを書いて、音声ファイルを読み込み、前処理をして、推論のためにモデルに送り込む必要がある。
- 推論の結果は、書き起こされたテキスト、または音声コンテンツの理解の出力となる。
- ハギング・フェイスの使用
ワークフロー:
- ロードオーディオ使用
librosa
などのライブラリにオーディオファイルをロードします。 - 前処理:: サンプル・レートの変換と、モデル要件に従ったオーディオ・データのフォーマット。
- モデル化された推論ロードされたVoxtralモデルを順伝播で呼び出し、出力を得る。
- 再処理モデルの出力を人間が読めるテキストにデコードする。
サンプルシナリオ報道機関は、Voxtralを社内サーバーに導入することで、録音されたインタビューの迅速な文字起こしが可能になり、ジャーナリストは、機密性の高いインタビューをクラウドにアップロードすることなく、ローカルで直接作業を行うことができます。
3.ル・シャットでの経験
一般ユーザーにとって、これを体験する最も簡単な方法は、ミストラルAIのチャットアプリ「Le Chat」を使うことだ。
操作手順。
- ウェブ版Le Chatをご覧になるか、モバイルアプリをダウンロードしてください。
- 音声モードに切り替える。
- あなたの声を直接録音することも、既存の音声ファイルをアップロードすることもできます。
- Le ChatはVoxtralを使ってあなたの音声をテキストに書き起こし、表示します。さらに、内容を要約させたり、音声に関する質問に答えたりすることもできます。
このアプローチは、モデルの機能を素早くテストしたり、会議のポイントを記録したり、授業のノートを整理したりといった軽量の個人的なタスクを実行するのに理想的です。
アプリケーションシナリオ
- カスタマーサービス・オートメーション
カスタマーサービスコールやボイスメッセージを書き起こし、サマリーや作業指示書を自動的に作成することで、カスタマーサービス対応のスピードと効率を向上させます。 - コンテンツ制作とメディア
インタビュー、ポッドキャスト、会議などの音声コンテンツをトランスクリプトにすばやく書き起こし、記者、編集者、コンテンツ制作者が後処理してコンテンツを配信できます。 - 議事録と分析
議事録の作成、重要な決定事項の抽出、指示に基づくToDoリストの作成など、会議のリアルタイムな書き起こしが可能。 - エッジコンピューティングとIoTデバイス
Voxtral Miniモデルをスマートホーム、車載システム、産業用IoTデバイスに導入することで、クラウド接続に依存することなく、ローカライズされた音声制御とインタラクションが可能になります。 - 多言語コンテンツ処理
国際市場調査における多言語ユーザーフィードバックの分析など、異なる国や地域からの音声データの処理と分析。
品質保証
- Voxtralは市場にある他の音声認識ツールとどう違うのですか?
Voxtralの最大の違いは、精度の高い音声トランスクリプションを行うだけでなく、音声コンテンツの深い意味理解をネイティブでサポートしていることです。 つまり、ユーザーは音声に直接質問をしたり、要約を生成したりすることができ、テキストを書き起こして別の言語モデルに入力する必要がありません。 さらに、オープンソースで非常に競争力のある価格で最高のパフォーマンスを提供し、高品質の音声インテリジェンス導入の障壁を低くしています。 - Voxtralを使用するには、強力なプログラミング・スキルが必要ですか?
必ずしもそうではない。技術的なバックグラウンドを持たないユーザーにとっては、Mistral AIのLe Chatアプリを通じて直接Voxtralを体験することができる。 開発者にとっても、APIインターフェースを使うのは比較的簡単で、APIドキュメントに従うだけだ。 一方、オープンソースのモデルをローカルにデプロイするには、ある程度のプログラミングと機械学習のバックグラウンドが必要だ。 - Voxtralはどの言語をサポートしていますか?
Voxtralは英語、フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、オランダ語、ヒンディー語を含む多言語をサポートしています。 Mistral AIが発表したベンチマーク結果によると、多言語、特にヨーロッパ言語で非常に優れたパフォーマンスを発揮しています。 - Voxtral API を使用するには費用がかかりますか?
ミストラルAIの価格戦略は非常に競争力があり、そのトランスクリプションAPIは1分あたり0.001ドルからで、市場にある主要なクローズドソースAPIのいくつかを大きく下回っている。 このため、高品質の音声トランスクリプションと音声理解を大規模に適用することが経済的に可能になっている。