Intelligente Audio-zu-MIDI-Konvertierungstechnologie
Das Audiotranskriptionsmodul von OpenUtau nutzt Deep-Learning-Algorithmen, um Stimmfrequenzen zu analysieren und automatisch entsprechende Notenfolgen zu erzeugen. Auf technischer Ebene bestimmt das System zunächst die Grundfrequenzkontur durch FFT-Spektralanalyse, verwendet dann ein vortrainiertes CNN-Netzwerk, um Phonemgrenzen zu identifizieren, und gibt schließlich MIDI-Daten mit Textmarkierungen aus. Messungen zeigen, dass die Transkriptionsgenauigkeit des 85% für saubere Gesangsaufnahmen den Basismodus von Melodyne und anderen professionellen Tools übertrifft. Benutzer können das neueste Transkriptionsmodell über "Tools > Install Dependency" installieren, das durchschnittlich 60 Sekunden (je nach CPU-Leistung) für die Verarbeitung von 1 Minute Audio benötigt. Diese Funktion ist besonders nützlich für die Digitalisierung von Gesang aus alten Aufnahmen, das schnelle Erlernen von Partituren und die Kompositionsunterstützung für behinderte Musiker. Für künftige Versionen ist eine Technologie zur polyphonen Trennung geplant, um die Verarbeitung komplexer Audiodaten weiter zu verbessern.
Diese Antwort stammt aus dem ArtikelOpenUtau: kostenloses Open-Source-Werkzeug zur Bearbeitung von SongsDie




























