VibeVoice-1.5B ist ein innovatives Open-Source Text-to-Speech (TTS) Modell, das von Microsoft Research veröffentlicht wurde. Es wurde speziell für die Erzeugung ausdrucksstarker, langer Dialoge mit mehreren Zeichen entwickelt, z. B. für Podcasts oder Hörbücher. Die Kerninnovation von VibeVoice ist die Verwendung eines kontinuierlichen Sprach-Disambiguators (akustisch und semantisch), der mit einer ultraniedrigen Bildfrequenz von 7,5 Hz arbeitet, was die rechnerische Effizienz bei der Verarbeitung langer Sequenzen erheblich verbessert, während die Audiokompatibilität effektiv erhalten bleibt. Das Modell basiert auf einem groß angelegten Sprachmodell (LLM), um den Textkontext und den Dialogfluss zu verstehen, und kombiniert dies mit einem Diffusionsmodell, um akustische Details mit hoher Wiedergabetreue zu erzeugen. VibeVoice ist in der Lage, bis zu 90 Minuten Audio gleichzeitig zu synthetisieren und kann bis zu vier verschiedene Sprecher in einem einzigen Audiosegment unterstützen, wodurch die Beschränkung vieler früherer Modelle auf nur einen oder zwei Sprecher aufgehoben wird. Das Modell wurde hauptsächlich mit englischen und chinesischen Daten trainiert und unterstützt sowohl die sprachübergreifende Synthese als auch die grundlegende Gesangssynthese.
Funktionsliste
- Ultra-lange Audio-SyntheseUnterstützung für die Erzeugung von bis zu 90 Minuten kohärenter Sprachaufnahmen in einer einzigen Aufgabe.
- Mehr Talker-UnterstützungDie Fähigkeit, natürliche Dialoge zwischen bis zu 4 verschiedenen Sprechern im gleichen Ton zu simulieren.
- Ausdrucksstarke StimmeDie erzeugte Sprache ist natürlicher in Emotion und Ausdruck, wodurch das mechanische Gefühl des traditionellen TTS-Modells verschwindet.
- Sprachübergreifende und gesangliche SyntheseObwohl die Haupttrainingsdaten Chinesisch und Englisch sind, verfügt das Modell über einige sprachübergreifende Synthesefähigkeiten (z. B. die Eingabe von Englisch, um chinesische Sprache zu erzeugen) und grundlegende Gesangsfähigkeiten.
- Quelloffen und zugänglichDas Modell steht unter der MIT-Lizenz, ist freundlich zur Forschungsgemeinschaft und bietet eine entsprechende Codebasis und technische Berichte für Entwickler.
- Effiziente ArchitekturEffizientes Erzeugen langer Audiosequenzen mit Hilfe innovativer akustischer und semantischer Splitter, die mit sehr niedrigen Frameraten arbeiten.
- SicherheitsmaßnahmeUm Missbrauch vorzubeugen, bettet das Modell automatisch "KI-generierte" hörbare Aussagen und nicht wahrnehmbare Wasserzeichen in das generierte Audio ein.
Hilfe verwenden
VibeVoice-1.5B richtet sich in erster Linie an Forscher und Entwickler und kann von normalen Benutzern über die Gradio-Demo-App auf Hugging Face ausprobiert werden. Entwickler können die folgenden Schritte befolgen, um das Modell in ihrer lokalen Umgebung einzusetzen und zu verwenden.
Vorbereitung und Installation der Umgebung
Da das Modell einige Rechenressourcen benötigt, wird empfohlen, es in einer Linux- oder Windows-Umgebung (über WSL2) zu verwenden, die mit einem NVIDIA-Grafikprozessor ausgestattet ist (mindestens 10 GB Videospeicher werden empfohlen).
- Code-Repository klonen::
Klonen Sie das Code-Repository von VibeVoice von GitHub.git clone https://github.com/microsoft/VibeVoice-Code.git cd VibeVoice-Code
- Installation von Abhängigkeiten::
Die Codebasis bietet normalerweise einerequirements.txt
Datei, die alle erforderlichen Python-Abhängigkeitsbibliotheken enthält.pip install -r requirements.txt
Modell Download
Die VibeVoice-1.5B-Modelldatei wird auf Hugging Face gehostet. Sie müssen den Modellpfad im Code angebenmicrosoft/VibeVoice-1.5B
Umarmendes Gesicht.transformers
Die Bibliothek lädt automatisch die erforderlichen Modelldateien herunter.
Verwendung (Codebeispiel)
Die Kernfunktionalität von VibeVoice ist die Text-zu-Sprache-Umwandlung, die durch das Schreiben von Skripten zum Aufrufen des Modells erfolgt. Nachfolgend finden Sie einen grundlegenden Anwendungsablauf und ein Codeschnipsel, der zeigt, wie ein Audio eines Multiplayer-Dialogs erzeugt wird.
- Vorbereiten der Texteingabe::
VibeVoice verwendet ein einfaches Format, um zwischen verschiedenen Sprechern zu unterscheiden. Sie müssen den Text mit der Identität des jeweiligen Sprechers beschriften, zum Beispiel[speaker 0]
vielleicht[speaker 1]
.text = """ [speaker 0] 你好,欢迎收听我们的AI播客。今天我们来聊聊最新的语音合成技术。 [speaker 1] 没错,特别是像VibeVoice这样的模型,它能生成长达90分钟的对话,真是太惊人了。 [speaker 0] 是的,而且它还支持最多4个不同的声音。这意味着我们可以制作更复杂的广播剧或者多人有声书了。 [speaker 1] 让我们来听听效果吧! """
- Schreiben von Argumentationsskripten::
Sie müssen das Modell und den Prozessor (Tokenizer) laden und dann den vorbereiteten Text in das Modell eingeben, um den Ton zu erzeugen.import torch from transformers import AutoProcessor, AutoModelForTextToWaveform import scipy.io.wavfile # 确定设备 device = "cuda" if torch.cuda.is_available() else "cpu" # 加载模型和处理器 processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-1.5B") model = AutoModelForTextToWaveform.from_pretrained("microsoft/VibeVoice-1.5B").to(device) # 准备输入 inputs = processor(text=text, return_tensors="pt").to(device) # 生成语音波形 with torch.no_grad(): waveform = model.generate(**inputs, do_sample=True, temperature=0.9) # 保存音频文件 # 注意:采样率需要从模型配置中获取,这里以24000为例 sampling_rate = model.config.sampling_rate scipy.io.wavfile.write("output_dialogue.wav", rate=sampling_rate, data=waveform[0].cpu().numpy()) print("音频文件已生成:output_dialogue.wav")
Dieses Skript erzeugt eine Datei namens
output_dialogue.wav
Audiodatei, die einen Dialog zwischen den beiden Sprechern enthält.
Feature Operation: Klonen von Stimmen in einem Schritt
In einer Reihe von Demos, die von der Community zur Verfügung gestellt wurden (Demos), demonstriert VibeVoice die Leistungsfähigkeit des Klonens von Einzelstimmproben. Der Benutzer stellt einfach ein kleines Audiobeispiel der Zielstimme zur Verfügung, und das Modell kann das Timbre dieser Stimme nachahmen, um einen neuen Text vorzulesen.
In der Gradio-Demooberfläche gibt es normalerweise einen Bereich zum Hochladen von Audiodateien.
- Laden Sie eine klare, von Hintergrundgeräuschen freie Audiodatei (z. B. im WAV- oder MP3-Format) hoch, die den zu klonenden Ton enthält.
- Geben Sie in das Texteingabefeld den Text ein, den das Modell mit dieser Stimme vorlesen soll.
- Klicken Sie auf die Schaltfläche Erzeugen und das Modell wird die hochgeladenen Töne verwenden, um eine neue Stimme zu synthetisieren.
caveat
- Nur für ForschungszweckeBeamte betonen, dass das Modell derzeit nur für Forschungszwecke verwendet wird und nicht für den Einsatz in kommerziellen oder Produktionsumgebungen empfohlen wird.
- SpracheinschränkungDas Modell ist in erster Linie für Englisch und Chinesisch optimiert und kann in anderen Sprachen unvorhersehbare oder qualitativ schlechte Ergebnisse liefern.
- keine HintergrundgeräuscheDas Modell erzeugt nur reinen Gesang, es wird keine Hintergrundmusik oder Umgebungsgeräusche hinzugefügt.
- keine SprachüberschneidungDie aktuelle Version unterstützt nicht die Simulation von Robocalls oder Sprachüberschneidungen, die in Multiplayer-Dialogen üblich sind, bei denen die Übergänge zwischen den Sprechern sequentiell sind.
Anwendungsszenario
- Produktion von Podcasts und Hörbüchern
Dank der Fähigkeit von VibeVoice, bis zu 90 Minuten zu generieren und bis zu vier Charaktere zu unterstützen, können Autoren von Inhalten Skripte oder Bücher effizient in Audioinhalte in Form von Dialogen für mehrere Spieler umwandeln und so die Aufnahmekosten drastisch reduzieren. - Spiel Charakter Voiceover
Spieleentwickler können das Modell verwenden, um große Mengen an Dialogen für Nicht-Spieler-Charaktere (NPCs) zu erstellen. Die ausdrucksstarken Funktionen können die Stimmen der Charaktere natürlicher klingen lassen und das Eintauchen in das Spiel verbessern. - Zugänglichkeit des Inhalts
Wandeln Sie lange Artikel, Nachrichten oder Berichte in natürliche Sprache für sehbehinderte Nutzer um. Die Mehrsprachigkeit kann genutzt werden, um zwischen Zitaten und Kommentaren anderer zu unterscheiden und so den Inhalt leichter zu verstehen. - Sprachenlernen
Mit Hilfe von Modellen lassen sich Sprachlernmaterialien erstellen, die reale Dialogszenarien simulieren. Durch die Anpassung der Stimmen der verschiedenen Charaktere können sich die Lernenden besser an unterschiedliche Akzente und Sprechgeschwindigkeiten anpassen.
QA
- Welche Sprachen werden von VibeVoice-1.5B unterstützt?
Das Modell wurde hauptsächlich mit englischen und chinesischen Daten trainiert und optimiert. Obwohl es über eine gewisse Fähigkeit zur sprachübergreifenden Synthese verfügt, können die Ergebnisse bei anderen Sprachen instabil oder unbefriedigend sein. - Gibt es Hardwareanforderungen für die Verwendung von VibeVoice-1.5B?
Ja, für bessere Inferenzgeschwindigkeiten wird empfohlen, das Programm auf einem Gerät mit einem NVIDIA-Grafikprozessor mit mindestens 10 GB Videospeicher auszuführen. Die Ausführung in einer reinen CPU-Umgebung kann sehr langsam sein. - Kann das erzeugte Audio für kommerzielle Projekte verwendet werden?
Nicht verfügbar. Gemäß den offiziellen Anweisungen ist die freigegebene Version des Modells auf Forschungszwecke beschränkt und wird nicht für kommerzielle Anwendungen empfohlen. Jegliche Nutzung unterliegt den Nutzungsbeschränkungen der MIT-Lizenz und der Modellkarte, z. B. ist es verboten, Stimmen zu imitieren oder Desinformationen zu verbreiten. - Kann VibeVoice Sprache in Echtzeit erzeugen?
Die aktuelle Version eignet sich nicht für Echtzeit- oder Sprachkonvertierungsanwendungen mit geringer Latenz, wie z. B. "Echtzeit-Tiefenfälschung" in der Telefonie oder bei Videokonferenzen. Sie ist auf die hochwertige Offline-Erzeugung von langen Audiodaten ausgerichtet. - Ist die vom Modell erzeugte Sprache mit einem Wasserzeichen versehen?
Ja, um eine böswillige Nutzung zu verhindern, werden alle durch das Modell synthetisierten Audiodaten automatisch mit einer hörbaren KI-Erklärung (z. B. "Dieses Segment wurde von KI generiert") und einem nicht wahrnehmbaren digitalen Wasserzeichen zur Rückverfolgbarkeit versehen.