海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする
現在の場所図頭 " AIニュース

Mistral Voxtral: 「聞く」だけでなく「理解する」オープンソース音声AI!

2025-07-23 35

写真

パリから Mistral AI その特徴的なオープンソース戦略で、またしてもAI分野に重要なピースを投下した。Voxtral オーディオモデリング。このファミリーは OpenAI ヨーロッパで最も強力な競争相手である。 Voxtral 単なる音声トランスクリプションツールではなく、強力な言語モデリング機能を音声ドメインに拡張し、商用アプリケーションにすぐに使えてコスト効率の高い音声処理ソリューションを提供することを目指している。

Voxtral 全く異なる2つのバージョンを提供するこの戦略は、その市場での野心を明確に示している。ひとつは 24B 大量のデータを処理する必要のある本番環境用に設計されたヘビーウェイト・バージョンのパラメータ構成。 3B パラメトリック Mini リソースに制約のあるローカルおよびエッジ・コンピューティング・シナリオをターゲットとしたバージョンである。どちらのバージョンも Apache 2.0 これは、企業や開発者が自由にダウンロード、変更、配備できるだけでなく、商業利用に伴う心配がないことを意味する。

聴覚以上のもの:内蔵の理解と多言語の利点

とともに OpenAI な Whisper のような高精度の音声書き起こし(ASR)に焦点を当てたモデルとは異なります。Voxtral の核となる強みは、ネイティブに統合された自然言語理解(NLU)機能だ。これは Mistral Small 3.1 言語モデルは、強力なテキスト処理機能を継承するように構築されている。このため、ユーザーは音声からテキスト、言語モデルへの複雑な処理リンクを構築する必要がなくなり、音声ファイルから直接質問したり、要約を生成したり、構造化された情報を抽出したりすることができる。例えばVoxtral 最大30分の音声トランスクリプション、または最大40分の音声理解タスクに対応できるのは、次のような特長があるからです。 32k トークンのコンテキスト・ウィンドウは、会議の録音や長時間のインタビューなどのシナリオに対応するために非常に重要である。

多言語サポートの分野で。Voxtral また、特にヨーロッパの言語に優れており、公式ベンチマークでは英語、フランス語、ドイツ語、スペイン語、イタリア語をサポートしている。この機能は、国際的なビジネスで音声データを扱う際に、当然有利に働く。

写真

アプリケーション・シナリオ:クラウドからエッジへ

Voxtral アプリケーションの可能性は、クラウドからエッジまで幅広いシナリオをカバーする:

  • 顧客サービスカスタマーサービスコールを自動的に書き起こし、作業指示書や要約を直接作成することで、対応効率を向上させます。
  • コンテンツ制作ポッドキャストやインタビューを素早くトランスクリプトに変換し、核となるアイデアをすぐに抽出できます。
  • 会議の分析会議の議事録をリアルタイムで記録・作成し、重要な決定事項やToDoを抽出。
  • エッジ・インテリジェンススマートホームや車載システムなどのIoT機器への展開 Voxtral Mini新たに追加されたのは、インターネット接続を必要とせずにローカルでの音声対話を可能にする新しい音声インターフェースだ。

クイックスタートガイド

Mistral AI クラウド経由でインターネットに接続する機能を提供 API の両方を使用してローカルに展開することもできる。 Voxtral.

(i) 採用 Mistral AI 雲の上のイチジク API

迅速な統合をお望みの開発者の方は、公式の API.第一に Mistral AI プラットフォームに登録し、以下のものを手に入れよう。 API キーを渡し mistralai Pythonクライアントはそれを呼び出すことができる。

(ii) 現地展開 (vLLM (おすすめ)

データプライバシーやオフライン操作が必要なシナリオでは、ローカル展開がより良い選択です。公式推奨 vLLM の枠組みを提供するものである。 Voxtral 高性能の推論サポートを提供。

1.設置環境

まず、以下をインストールしていることを確認してください。 Python 環境を渡す。 pip 取り付け vLLM および関連する依存関係。

uv pip install -U "vllm

 

" --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

2.ローカルサービスの開始

以下のコマンドを Hugging Face モデルをダウンロードし OpenAI 互換性のあるローカルサービス。

python -m vllm.entrypoints.openai.api_server \
--model mistralai/Voxtral-Mini-3B-v0.1 \
--tokenizer-id mistralai/Mistral-7B-Instruct-v0.3 \
--enable-chunked-prefill

3.現地サービスへの電話

サービス開始後は OpenAI クライアント・ライブラリまたは curl ローカルで実行されている Voxtral モデルを相互作用させる。を使用する。 Python 音声の書き取りと理解の例。

  • 音声転写
from openai import OpenAI
from huggingface_hub import hf_hub_download
# 配置客户端指向本地vLLM服务
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="vllm" # 本地服务不需要真实密钥
)
# 下载示例音频
audio_file_path = hf_hub_download(
repo_id="patrickvonplaten/audio_samples", 
filename="obama.mp3", 
repo_type="dataset"
)
# 发起转录请求
with open(audio_file_path, "rb") as audio_file:
transcription = client.audio.transcriptions.create(
model="mistralai/Voxtral-Mini-3B-v0.1", 
file=audio_file,
language="en"
)
print(transcription.text)
  • 音声理解(Q&A)
from openai import OpenAI
from huggingface_hub import hf_hub_download
import base64
# 配置客户端
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="vllm"
)
# 下载并编码音频文件
def encode_audio_to_base64(filepath):
with open(filepath, 'rb') as audio_file:
return base64.b64encode(audio_file.read()).decode('utf-8')
obama_file = hf_hub_download("patrickvonplaten/audio_samples", "obama.mp3", repo_type="dataset")
bcn_file = hf_hub_download("patrickvonplaten/audio_samples", "bcn_weather.mp3", repo_type="dataset")
obama_base64 = encode_audio_to_base64(obama_file)
bcn_base64 = encode_audio_to_base64(bcn_file)
# 构建包含音频和文本的多模态消息
response = client.chat.completions.create(
model="mistralai/Voxtral-Mini-3B-v0.1",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "这是两段音频。第一段是一位著名人物的演讲,第二段是天气预报。请问,哪一段演讲更有启发性?为什么?"},
{"type": "image_url", "image_url": {"url": f"data:audio/mpeg;base64,{obama_base64}"}},
{"type": "image_url", "image_url": {"url": f"data:audio/mpeg;base64,{bcn_base64}"}}
]
}
],
temperature=0.2
)
print(response.choices.message.content)

プロジェクト・リソース

  • 公式ブログhttps://mistral.ai/news/voxtral/
  • モデルダウンロードhttps://huggingface.co/mistralai/Voxtral-Mini-3B-2507

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

受信箱

お問い合わせ

トップに戻る

ja日本語