Derzeitige Position:Abb. Anfang " AI-Antworten

Technologie zur Erzeugung synthetischer Daten löst den Korpus-Engpass bei der Sprachübersetzung

2025-09-10

2.0 K

Hibikis innovatives Verfahren zur Generierung synthetischer Daten löst sich von der Abhängigkeit von parallelen Korpora in herkömmlichen Sprachübersetzungssystemen. Das System nutzt die kontextuellen Alignment-Fähigkeiten des maschinellen Übersetzungssystems MADLAD, um auf Wortebene schwach überwachte Matching-Regeln aufzustellen: Wörter der Zielsprache werden nur dann beibehalten, wenn sie von der Ausgangssprache vorhergesagt werden können. Diese strenge Alignment-Strategie wird durch zwei Schlüsseltechniken erreicht:

Die Technik der stummen Einfügung behält die rhythmische Struktur der Äußerung bei.
Das TTS-System der Sprachsteuerung gewährleistet die Natürlichkeit der synthetisierten Sprache

Mit diesem Schema kann das System in Französisch-Englisch-Übersetzungsszenarien mit nur einem Sprecher als Aligner trainiert werden, was den Datenbedarf auf weniger als 10% herkömmlicher Methoden reduziert. Praktische Tests zeigen, dass das auf synthetischen Daten trainierte Modell eine Punktzahl von 4,2 auf der MOS-Metrik (Mean Opinion Score) erreicht, was dem Niveau professioneller menschlicher Übersetzer nahekommt.

Diese Antwort stammt aus dem ArtikelHibiki: ein Echtzeit-Sprachübersetzungsmodell, eine Streaming-Übersetzung, die die Eigenschaften der Originalstimme bewahrtDie

Darf nicht ohne Genehmigung vervielfältigt werden:KI-Produktivitätswerkzeuge " Technologie zur Erzeugung synthetischer Daten löst den Korpus-Engpass bei der Sprachübersetzung