Mobile Anpassungslösungen
Ein kritischer Technologiepfad zur Spracherkennung auf dem Handy:
- Modellbereinigung: Die Destillationsversion des Modells, z. B. flüstern-klein, wurde gewählt.
pipeline("automatic-speech-recognition", model="openai/whisper-small") - ONNX-UmstellungExportieren in ein mobilfreundliches Format
from transformers import convert_graph_to_onnx
convert_graph_to_onnx.convert(model_name, output_path) - StreamingKonfiguration des Parameters chunk_length von Kyutai-STT
asr = pipeline(..., chunk_length_s=30)
Praktische Ergebnisse: Das quantisierte Flüstermodell ermöglicht eine Echtzeit-Transkription mit 200 ms Latenzzeit auf iOS-Geräten bei einer Modellgröße von nur 150 MB.
Diese Antwort stammt aus dem ArtikelTransformers: Open Source Framework für maschinelles Lernen mit Unterstützung für Text-, Bild- und multimodale AufgabenDie































