Die folgenden Schritte sind erforderlich, um realtime-transcription-fastrtc zu installieren:
Vorbereitung der Systemumgebung
- Stellen Sie sicher, dass Python ≥3.10 installiert ist.
- Installieren Sie ffmpeg für die Audioverarbeitung (macOS über brew, Linux über apt, Windows erfordert manuelle Konfiguration)
- GPU-Beschleunigung (MPS oder CUDA) wird empfohlen, CPU kann betrieben werden, allerdings mit geringerer Leistung
Projektentwicklungsprozess
- Klon-Lagerhaus:
git clone https://github.com/sofi444/realtime-transcription-fastrtc
- Erstellen von virtuellen Umgebungen: das uv-Tool wird empfohlen (oder die traditionelle pip-Methode)
- Abhängigkeiten bei der Installation: run
uv pip install -r requirements.txtoder den entsprechenden Pip-Befehl
- Configuration.env-Datei: Einstellung von UI_MODE, APP_MODE, MODEL_ID und anderen wichtigen Parametern
Taste Konfiguration Beschreibung
- UI_MODE:: gradio (einfache Schnittstelle) oder fastapi (anpassbare Schnittstelle)
- MODELL_IDopenai/whisper-large-v3-turbo wird standardmäßig verwendet und kann durch andere Hugging Face-Modelle ersetzt werden.
- PORTDienstausführungsport, Standard 7860
- Stellen Sie sicher, dass Python ≥3.10 installiert ist.
- Installieren Sie ffmpeg für die Audioverarbeitung (macOS über brew, Linux über apt, Windows erfordert manuelle Konfiguration)
- GPU-Beschleunigung (MPS oder CUDA) wird empfohlen, CPU kann betrieben werden, allerdings mit geringerer Leistung
Projektentwicklungsprozess
- Klon-Lagerhaus:
git clone https://github.com/sofi444/realtime-transcription-fastrtc
- Erstellen von virtuellen Umgebungen: das uv-Tool wird empfohlen (oder die traditionelle pip-Methode)
- Abhängigkeiten bei der Installation: run
uv pip install -r requirements.txtoder den entsprechenden Pip-Befehl
- Configuration.env-Datei: Einstellung von UI_MODE, APP_MODE, MODEL_ID und anderen wichtigen Parametern
Taste Konfiguration Beschreibung
- UI_MODE:: gradio (einfache Schnittstelle) oder fastapi (anpassbare Schnittstelle)
- MODELL_IDopenai/whisper-large-v3-turbo wird standardmäßig verwendet und kann durch andere Hugging Face-Modelle ersetzt werden.
- PORTDienstausführungsport, Standard 7860
- Klon-Lagerhaus:
git clone https://github.com/sofi444/realtime-transcription-fastrtc - Erstellen von virtuellen Umgebungen: das uv-Tool wird empfohlen (oder die traditionelle pip-Methode)
- Abhängigkeiten bei der Installation: run
uv pip install -r requirements.txtoder den entsprechenden Pip-Befehl - Configuration.env-Datei: Einstellung von UI_MODE, APP_MODE, MODEL_ID und anderen wichtigen Parametern
Taste Konfiguration Beschreibung
- UI_MODE:: gradio (einfache Schnittstelle) oder fastapi (anpassbare Schnittstelle)
- MODELL_IDopenai/whisper-large-v3-turbo wird standardmäßig verwendet und kann durch andere Hugging Face-Modelle ersetzt werden.
- PORTDienstausführungsport, Standard 7860
- UI_MODE:: gradio (einfache Schnittstelle) oder fastapi (anpassbare Schnittstelle)
- MODELL_IDopenai/whisper-large-v3-turbo wird standardmäßig verwendet und kann durch andere Hugging Face-Modelle ersetzt werden.
- PORTDienstausführungsport, Standard 7860
Nachdem Sie die Konfiguration abgeschlossen haben, führen Sie diepython main.pyStarten Sie den Dienst und nutzen Sie ihn, indem Sie über einen Browser auf die auf dem Terminal angezeigte URL zugreifen.
Diese Antwort stammt aus dem ArtikelOpen-Source-Tool für Sprache in Text in EchtzeitDie
































