Voxtral是法国AI创业公司Mistral AI于2025年7月15日发布的其首个开放式音频模型。 Voxtral旨在为商业应用提供生产环境开箱即用的语音理解功能,其价格具有很高的市场竞争力。 Voxtral模型有两个版本,分别是用于生产规模应用的24B参数版本和用于本地和边缘部署的3B参数的“Mini”版本。 这两个版本都基于Apache 2.0许可证发布,可以从Hugging Face上下载并在本地运行,也可以通过API集成到应用程序中。 Voxtral不仅仅能进行语音转录,它还可以对音频内容进行深度理解,支持对音频内容直接提问、生成摘要和执行任务。 该模型支持多种语言,包括英语、西班牙语、法语和印地语,并且能够处理长达30分钟的音频进行转录,或长达40分钟的音频进行理解。
功能列表
- 双版本模型: 提供两种尺寸的模型,一个24B参数的版本用于大规模生产应用,一个3B参数的“Mini”版本用于本地和边缘计算部署。
- 开源和API访问: 两种模型都遵循Apache 2.0开源许可证,可以从Hugging Face下载。 同时,Mistral AI也提供了API接口,开发者可以通过简单的API调用将Voxtral的语音智能集成到自己的应用中。
- 高性价比: API定价从每分钟0.001美元起,旨在让高质量的语音转录和理解能够被大规模应用。
- 长音频处理: 拥有32k令牌的上下文长度,能够处理长达30分钟的音频进行转录,或长达40分钟的音频用于理解任务。
- 内置问答和摘要功能: 无需串联多个模型,可以直接对音频内容提问或生成结构化摘要。
- 多语言支持: 经FLEURS和Mozilla Common Voice等多个基准测试验证,Voxtral在多种语言上表现出色,尤其在欧洲语言中达到了顶尖水平,支持包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语和印地语等。
- 本地部署与定制: 为企业客户提供本地部署选项,以及针对特定领域进行微调和扩展功能(如说话人识别、情绪检测和对话分离)的方案。
- 保留文本处理能力: Voxtral保留了其语言模型骨干(Mistral Small 3.1)的文本处理能力,可以无缝地在语音和语言任务之间切换。
使用帮助
Voxtral旨在为开发者和企业提供灵活且强大的语音理解能力。根据不同的需求,可以选择不同的方式来使用Voxtral。
1. 通过API快速集成
对于希望将语音智能快速集成到现有应用中的开发者来说,使用Mistral AI提供的API是最直接的方式。
操作流程:
- 获取API密钥: 首先,你需要在Mistral AI的官方平台注册并获取API密钥。
- 阅读API文档: 访问Mistral AI的官方文档,找到关于Voxtral API的部分。 文档中会详细说明如何调用API,包括请求的格式、所需参数以及返回的数据结构。
- 发起API请求:
- 转录端点: 如果你的需求仅仅是将语音转换为文字,可以使用Mistral AI提供的高度优化的转录-终结点(transcription-only endpoint)。这通常是最具成本效益的选择。 你需要将音频文件作为请求的一部分发送到指定的URL。
- 理解与问答: 如果你需要更高级的功能,比如对音频内容进行提问或生成摘要,你需要调用支持这些功能的API端点。在请求中,除了提供音频文件,你可能还需要提供额外参数,如你想要提出的问题或要求生成摘要的指令。
- 处理返回结果: API会返回一个JSON格式的数据,其中包含了转录的文本、问题的答案或生成的摘要。你的应用程序需要解析这个JSON数据以提取所需信息。
示例场景: 一个客户服务应用可以使用Voxtral API,将客户的语音留言实时转录为文字,然后使用摘要功能快速生成服务单,大大提升处理效率。
2. 本地部署和运行
对于需要数据隐私、离线运行或进行深度定制化的企业和研究人员,可以直接下载Voxtral的开源模型在本地服务器或边缘设备上运行。
安装和部署流程:
- 环境准备:
- 你需要一台拥有足够计算资源(特别是GPU)的服务器或计算机。具体的硬件要求取决于你选择的模型版本(24B版本需要更高的配置)。
- 安装Python环境,并准备好如PyTorch、Transformers等必要的机器学习库。
- 下载模型:
- 访问Hugging Face网站 (huggingface.co)。
- 搜索 “Voxtral” 或 “Mistral AI”。
- 选择你需要的模型版本(Voxtral 24B 或 Voxtral Mini 3B)并下载模型权重文件。
- 编写加载和推理代码:
- 使用Hugging Face的
Transformers
库,你可以轻松加载已下载的模型。 - 你需要编写Python脚本来加载音频文件,对其进行预处理,然后将其输入到模型中进行推理。
- 推理的结果将是转录的文本或对音频内容的理解输出。
- 使用Hugging Face的
操作流程:
- 加载音频: 使用
librosa
等库加载你的音频文件。 - 预处理: 根据模型要求对音频数据进行采样率转换和格式化。
- 模型推理: 调用加载好的Voxtral模型进行前向传播,得到输出。
- 后处理: 对模型的输出进行解码,转换成人类可读的文本。
示例场景: 一家新闻机构可以在其内部服务器上部署Voxtral,用于快速转录采访录音,记者可以直接在本地完成工作,无需上传敏感的采访内容到云端。
3. 在Le Chat中体验
对于普通用户,最简单的体验方式是通过Mistral AI的聊天应用Le Chat。
操作流程:
- 访问Le Chat的网页版或下载其移动应用。
- 切换到语音模式。
- 你可以直接录制语音,或者上传一个已有的音频文件。
- Le Chat会利用Voxtral将你的语音转录为文字,并显示出来。你还可以进一步让它总结内容或回答关于这段音频的问题。
这种方式非常适合快速测试模型的能力或进行一些轻量级的个人任务,例如记录会议要点或整理课堂笔记。
应用场景
- 客户服务自动化
转录客户服务电话或语音留言,并自动生成摘要或工单,提高客服响应速度和效率。 - 内容创作与媒体
快速将采访、播客或会议的音频内容转录为文字稿,方便记者、编辑和内容创作者进行后期处理和内容分发。 - 会议记录与分析
实时转录会议内容,并能根据指令生成会议纪要、提取关键决策点和待办事项。 - 边缘计算与物联网设备
在智能家居、车载系统或工业物联网设备上部署Voxtral Mini模型,实现本地化的语音控制和交互,无需依赖云端连接。 - 多语言内容处理
处理和分析来自不同国家和地区的音频数据,例如在国际市场研究中分析多语言的用户反馈。
QA
- Voxtral和市面上其他语音识别工具有什么不同?
Voxtral最大的不同在于它不仅能进行高精度的语音转录,还原生支持对音频内容的深度语义理解。 这意味着用户可以直接对音频提问或让它生成摘要,而不需要先转录再将文本输入到另一个语言模型中。 此外,它以开源和极具竞争力的价格提供了顶尖的性能,降低了高质量语音智能的应用门槛。 - 我是否需要很强的编程能力才能使用Voxtral?
不一定。对于非技术用户,可以通过Mistral AI的Le Chat应用直接体验Voxtral的功能。 对于开发者,使用API接口也相对简单,只需要遵循API文档即可。 而在本地部署开源模型则需要一定的编程和机器学习背景。 - Voxtral支持哪些语言?
Voxtral支持多种语言,包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语和印地语等。 根据Mistral AI公布的基准测试结果,它在多种语言,尤其是在欧洲语言上的表现非常出色。 - 使用Voxtral API的成本高吗?
不高。Mistral AI的定价策略非常有竞争力,其转录API的起步价为每分钟0.001美元,远低于市面上一些主流的闭源API。 这使得大规模应用高质量语音转录和理解在经济上变得可行。