Hibikis innovatives Verfahren zur Generierung synthetischer Daten löst sich von der Abhängigkeit von parallelen Korpora in herkömmlichen Sprachübersetzungssystemen. Das System nutzt die kontextuellen Alignment-Fähigkeiten des maschinellen Übersetzungssystems MADLAD, um auf Wortebene schwach überwachte Matching-Regeln aufzustellen: Wörter der Zielsprache werden nur dann beibehalten, wenn sie von der Ausgangssprache vorhergesagt werden können. Diese strenge Alignment-Strategie wird durch zwei Schlüsseltechniken erreicht:
- Die Technik der stummen Einfügung behält die rhythmische Struktur der Äußerung bei.
- Das TTS-System der Sprachsteuerung gewährleistet die Natürlichkeit der synthetisierten Sprache
Mit diesem Schema kann das System in Französisch-Englisch-Übersetzungsszenarien mit nur einem Sprecher als Aligner trainiert werden, was den Datenbedarf auf weniger als 10% herkömmlicher Methoden reduziert. Praktische Tests zeigen, dass das auf synthetischen Daten trainierte Modell eine Punktzahl von 4,2 auf der MOS-Metrik (Mean Opinion Score) erreicht, was dem Niveau professioneller menschlicher Übersetzer nahekommt.
Diese Antwort stammt aus dem ArtikelHibiki: ein Echtzeit-Sprachübersetzungsmodell, eine Streaming-Übersetzung, die die Eigenschaften der Originalstimme bewahrtDie































