Die technische Kernarchitektur von ScoreFlow besteht aus drei Stufen: In der Vorverarbeitungsstufe wird ein adaptiver Binarisierungsalgorithmus angewandt, um Musiknotenbilder unter verschiedenen Beleuchtungsbedingungen zu verarbeiten; in der Symbolerkennungsstufe wird das verbesserte YOLOv5-Modell verwendet, um die Musiksymbole zu lokalisieren, kombiniert mit dem CRNN-Netzwerk, um die zeitlichen Beziehungen zu analysieren; und in der Kodierungs- und Ausgabestufe wird eine Standardformatdatei auf der Grundlage der Regeln der Musikgrammatik erzeugt. Der gesamte Prozess nutzt die Technologie der Wissensdestillation, um die Erkennungsfähigkeit von großen Modellen auf mobile Geräte zu übertragen.
Die technischen Innovationen liegen in drei Dimensionen: Erstens kann der entwickelte Algorithmus zur Segmentierung von zusammengesetzten Symbolen überlappende Noten genau trennen; zweitens kann das Timing-Analysemodul mögliche Verzerrungen und Verformungen im gescannten Bild intelligent korrigieren; und schließlich kann der kontextbezogene Encoder die impliziten Informationen, wie z. B. die Notenschrift, automatisch ergänzen. Testdaten zeigen, dass das System eine umfassende Genauigkeit von 96,7% auf dem ISMIR-Standardtestsatz erreicht und damit ähnliche Produkte um 10 Prozentpunkte übertrifft.
Das Team optimiert weiterhin die Leistung des Modells und aktualisiert die Erkennungs-Engine einmal im Monat iterativ. Was die Open-Source-Strategie betrifft, so wurde der Code des Kernmoduls von PianoSync auf GitHub veröffentlicht, was mehr als 200 Entwickler auf der ganzen Welt dazu veranlasst hat, sich an den Beiträgen der Community zu beteiligen.
Diese Antwort stammt aus dem ArtikelScoreFlow: Musik-Lernprogramm zum Konvertieren von Partituren in MIDI und MusicXMLDie