Voxtral ist sein erstes offenes Audiomodell, das am 15. Juli 2025 vom französischen KI-Startup Mistral AI veröffentlicht wurde. Voxtral zielt darauf ab, in der Produktionsumgebung sofort einsetzbare Sprachverstehensfunktionen für kommerzielle Anwendungen zu einem äußerst wettbewerbsfähigen Marktpreis anzubieten. Das Voxtral-Modell ist in zwei Versionen erhältlich: eine Version mit 24 B-Parametern für Anwendungen im Produktionsmaßstab und eine "Mini"-Version mit 3 B-Parametern für lokale und Randanwendungen. Beide Versionen sind unter der Apache 2.0 Lizenz veröffentlicht und können von Hugging Face heruntergeladen und lokal ausgeführt oder über eine API in Anwendungen integriert werden. Voxtral kann mehr als nur Sprache transkribieren; es bietet auch ein tiefes Verständnis von Audioinhalten, unterstützt direkte Befragungen, generiert Zusammenfassungen und führt Aufgaben mit Audioinhalten aus. Das Modell unterstützt mehrere Sprachen, darunter Englisch, Spanisch, Französisch und Hindi, und kann bis zu 30 Minuten Audio für die Transkription oder bis zu 40 Minuten Audio für das Verstehen verarbeiten.
Funktionsliste
- Modell mit zwei Versionen:: Es sind zwei Modellgrößen erhältlich, eine Version mit 24B-Parametern für groß angelegte Produktionsanwendungen und eine "Mini"-Version mit 3B-Parametern für lokale und Edge-Computing-Einsätze.
- Offener Quellcode und API-ZugangBeide Modelle unterliegen der Apache 2.0 Open Source Lizenz und können von Hugging Face heruntergeladen werden. Außerdem bietet Mistral AI eine API-Schnittstelle, die es Entwicklern ermöglicht, die Sprachintelligenz von Voxtral durch einfache API-Aufrufe in ihre Anwendungen zu integrieren.
- hohes Qualitäts-Preis-Verhältnis: Die Preise für die API beginnen bei $0,001 pro Minute und sind so konzipiert, dass sie eine qualitativ hochwertige Sprachtranskription und -verständigung in großem Umfang ermöglichen.
- Lange AudioverarbeitungHat eine Kontextlänge von 32k Token und kann bis zu 30 Minuten Audio für die Transkription oder bis zu 40 Minuten Audio für Verstehensaufgaben verarbeiten.
- Integrierte Funktionen für Fragen und Antworten und ZusammenfassungenDie Erstellung von Fragen oder strukturierten Zusammenfassungen von Audioinhalten ist nicht mehr nötig, da mehrere Modelle aneinandergereiht werden können.
- Unterstützung mehrerer SprachenWie durch mehrere Benchmarks wie FLEURS und Mozilla Common Voice bestätigt, zeichnet sich Voxtral durch eine Vielzahl von Sprachen aus, insbesondere durch die Unterstützung von Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Hindi und anderen europäischen Sprachen.
- Lokale Bereitstellung und Anpassung:: Bietet Unternehmenskunden lokale Einsatzmöglichkeiten sowie Lösungen für die Feinabstimmung und Erweiterung der Funktionalität für bestimmte Bereiche, wie z. B. Sprechererkennung, Emotionserkennung und Dialogtrennung.
- Beibehaltung der TextverarbeitungsfunktionenVoxtral behält die Textverarbeitungsfähigkeiten seines Sprachmodellierungs-Backbones (Mistral Small 3.1) bei und kann nahtlos zwischen Sprach- und Sprachaufgaben wechseln.
Hilfe verwenden
Voxtral wurde entwickelt, um Entwicklern und Unternehmen flexible und leistungsstarke Sprachverstehensfunktionen zu bieten. Je nach Bedarf gibt es verschiedene Möglichkeiten, Voxtral zu nutzen.
1. schnelle Integration durch APIs
Die Verwendung der von Mistral AI bereitgestellten APIs ist der einfachste Weg für Entwickler, die Sprachintelligenz schnell in bestehende Anwendungen integrieren möchten.
Betriebsverfahren.
- API-Schlüssel abrufenZuallererst müssen Sie sich auf der offiziellen Plattform von Mistral AI registrieren und den API-Schlüssel erhalten.
- Lesen Sie die API-DokumentationBesuchen Sie die offizielle Mistral AI Dokumentation, um den Abschnitt über die Voxtral API zu finden. Die Dokumentation erklärt im Detail, wie man die API aufruft, einschließlich des Formats der Anfrage, der erforderlichen Parameter und der Struktur der zurückgegebenen Daten.
- Initiierung von API-Anfragen:
- TranskriptionsendpunktWenn Sie nur Sprache in Text umwandeln wollen, können Sie den hochoptimierten Endpunkt von Mistral AI verwenden, der nur die Transkription ermöglicht. Dies ist in der Regel die kostengünstigste Option. Sie müssen die Audiodatei als Teil der Anfrage an die angegebene URL senden.
- Verstehen und Fragen und AntwortenWenn Sie erweiterte Funktionen benötigen, z. B. das Stellen von Fragen oder das Erstellen von Zusammenfassungen von Audioinhalten, müssen Sie die API-Endpunkte aufrufen, die diese Funktionen unterstützen. In der Anfrage müssen Sie neben der Audiodatei möglicherweise zusätzliche Parameter angeben, z. B. die Frage, die Sie stellen möchten, oder den Befehl, der die Erstellung einer Zusammenfassung erfordert.
- Verarbeitung der RückgabeergebnisseDie API gibt JSON-formatierte Daten zurück, die transkribierten Text, Antworten auf Fragen oder generierte Zusammenfassungen enthalten. Ihre Anwendung muss diese JSON-Daten parsen, um die erforderlichen Informationen zu extrahieren.
BeispielszenarioEine Kundendienstanwendung kann die Voxtral-API nutzen, um die Sprachnachricht eines Kunden in Echtzeit in Text zu transkribieren und dann die Zusammenfassungsfunktion zu nutzen, um schnell ein Serviceticket zu erstellen, was die Bearbeitungseffizienz erheblich verbessert.
2. lokaler Einsatz und Betrieb
Für Unternehmen und Forscher, die auf Datenschutz angewiesen sind, offline arbeiten wollen oder eine tiefgreifende Anpassung wünschen, können die Open-Source-Modelle von Voxtral direkt heruntergeladen und auf lokalen Servern oder Edge-Geräten ausgeführt werden.
Installations- und Bereitstellungsprozess.
- Vorbereitung der Umwelt:
- Sie benötigen einen Server oder Computer mit ausreichenden Rechenressourcen (insbesondere GPUs). Die genauen Hardware-Anforderungen hängen von der von Ihnen gewählten Modellversion ab (Version 24B erfordert eine höhere Konfiguration).
- Installieren Sie die Python-Umgebung und halten Sie die erforderlichen Bibliotheken für maschinelles Lernen wie PyTorch, Transformers usw. bereit.
- Modelle herunterladen:
- Besuchen Sie die Website von Hugging Face (huggingface.co).
- Suchen Sie nach "Voxtral" oder "Mistral AI".
- Wählen Sie die gewünschte Modellversion (Voxtral 24B oder Voxtral Mini 3B) und laden Sie die Datei mit den Modellgewichten herunter.
- Schreiben von Lade- und Argumentationscode:
- Hugging Face's verwenden
Transformers
Bibliothek können Sie problemlos heruntergeladene Modelle laden. - Sie müssen Python-Skripte schreiben, um Audiodateien zu laden, sie vorzuverarbeiten und sie dann zur Inferenz in das Modell einzuspeisen.
- Das Ergebnis der Überlegungen ist der transkribierte Text oder das Ergebnis des Verständnisses des Audioinhalts.
- Hugging Face's verwenden
Arbeitsablauf:
- Audio laden: Verwendung
librosa
usw., um Ihre Audiodateien zu laden. - Vorverarbeitung:: Konvertierung der Samplerate und Formatierung der Audiodaten entsprechend den Anforderungen des Modells.
- modellhafte ArgumentationAufruf des geladenen Voxtral-Modells zur Vorwärtspropagation, um die Ausgabe zu erhalten.
- WiederaufbereitungDekodierung der Ausgabe des Modells in menschenlesbaren Text.
BeispielszenarioEine Nachrichtenorganisation kann Voxtral auf ihren internen Servern einsetzen, um aufgezeichnete Interviews schnell zu transkribieren, so dass die Journalisten ihre Arbeit direkt vor Ort erledigen können, ohne sensible Interviews in die Cloud hochladen zu müssen.
3. die Erfahrung in Le Chat
Für regelmäßige Nutzer ist es am einfachsten, dies über die Chat-App Le Chat von Mistral AI zu erfahren.
Betriebsverfahren.
- Besuchen Sie die Webversion von Le Chat oder laden Sie die mobile App herunter.
- Wechseln Sie in den Sprachmodus.
- Sie können Ihre Stimme direkt aufnehmen oder eine vorhandene Audiodatei hochladen.
- Le Chat verwendet Voxtral, um Ihre Stimme in Text umzuwandeln und diesen anzuzeigen. Außerdem können Sie den Inhalt zusammenfassen oder Fragen zu diesem Audio beantworten lassen.
Dieser Ansatz ist ideal, um die Fähigkeiten eines Modells schnell zu testen oder um leichte persönliche Aufgaben zu erledigen, wie z. B. das Aufzeichnen von Besprechungspunkten oder das Organisieren von Unterrichtsnotizen.
Anwendungsszenario
- Automatisierung des Kundendienstes
Transkribieren Sie Kundendienstanrufe oder Sprachnachrichten und erstellen Sie automatisch Zusammenfassungen oder Arbeitsaufträge, um die Reaktionsgeschwindigkeit und Effizienz des Kundendienstes zu verbessern. - Erstellung von Inhalten und Medien
Schnelles Transkribieren von Audioinhalten aus Interviews, Podcasts oder Konferenzen in Transkripte für die Nachbearbeitung und Weitergabe von Inhalten durch Reporter, Redakteure und Content-Ersteller. - Verfahren und Analysen
Echtzeit-Transkription von Besprechungen mit der Möglichkeit, Protokolle zu erstellen, wichtige Entscheidungspunkte zu extrahieren und To-Do-Listen auf der Grundlage von Anweisungen zu erstellen. - Edge-Computing und IoT-Geräte
Setzen Sie Voxtral Mini-Modelle in Smart Homes, Fahrzeugsystemen oder industriellen IoT-Geräten ein, um lokalisierte Sprachsteuerung und Interaktion zu ermöglichen, ohne auf Cloud-Konnektivität angewiesen zu sein. - Verarbeitung mehrsprachiger Inhalte
Verarbeitung und Analyse von Audiodaten aus verschiedenen Ländern und Regionen, z.B. Analyse von mehrsprachigem Nutzerfeedback in der internationalen Marktforschung.
QA
- Wie unterscheidet sich Voxtral von anderen Spracherkennungsprogrammen auf dem Markt?
Der größte Unterschied zu Voxtral ist, dass es nicht nur eine hochpräzise Sprachtranskription durchführt, sondern auch ein tiefes semantisches Verständnis von Audioinhalten unterstützt. Das bedeutet, dass die Nutzer Fragen direkt an die Audiodatei stellen oder Zusammenfassungen erstellen können, ohne den Text erst transkribieren und dann in ein anderes Sprachmodell eingeben zu müssen. Darüber hinaus bietet es Spitzenleistung zu einem offenen und sehr wettbewerbsfähigen Preis und senkt damit die Hürde für die Einführung von hochwertiger Sprachintelligenz. - Brauche ich gute Programmierkenntnisse, um Voxtral zu benutzen?
Nicht unbedingt. Für nicht-technische Nutzer kann Voxtral direkt über die Le Chat-App von Mistral AI genutzt werden. Für Entwickler ist es auch relativ einfach, die API-Schnittstelle zu nutzen, man muss nur der API-Dokumentation folgen. Der lokale Einsatz des Open-Source-Modells erfordert hingegen einige Programmier- und Machine-Learning-Kenntnisse. - Welche Sprachen werden von Voxtral unterstützt?
Voxtral unterstützt mehrere Sprachen, darunter Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Niederländisch und Hindi. Laut den von Mistral AI veröffentlichten Benchmark-Ergebnissen schneidet es in mehreren Sprachen sehr gut ab, insbesondere in europäischen Sprachen. - Ist es teuer, die Voxtral-API zu verwenden?
Die Preisstrategie von Mistral AI ist sehr wettbewerbsfähig: Die Transkriptions-API beginnt bei 0,001 Dollar pro Minute und liegt damit weit unter den Preisen einiger der wichtigsten Closed-Source-APIs auf dem Markt. Das macht es wirtschaftlich machbar, qualitativ hochwertige Sprachtranskription und -verstehen in großem Umfang anzuwenden.