A arquitetura técnica central do ScoreFlow consiste em três estágios: no estágio de pré-processamento, algoritmos de binarização adaptáveis são aplicados para processar imagens de partituras musicais sob diferentes condições de iluminação; no estágio de reconhecimento de símbolos, o modelo YOLOv5 aprimorado é usado para localizar os símbolos musicais e combinado com a rede CRNN para analisar as relações temporais; no estágio de saída de codificação, os arquivos de formato padrão são gerados com base nas regras da gramática musical. Todo o processo usa a tecnologia de destilação de conhecimento para migrar o recurso de reconhecimento de modelos de grande escala para o celular.
Os pontos de inovação técnica são incorporados em três dimensões: em primeiro lugar, o algoritmo de segmentação de símbolos compostos desenvolvido pode separar com precisão as notas sobrepostas; em segundo lugar, o módulo de análise de tempo pode corrigir de forma inteligente possíveis distorções e deformações na imagem digitalizada; e, por último, o codificador com reconhecimento de contexto pode complementar automaticamente as informações implícitas, como a notação de reprodução. Os dados de teste mostram que o sistema atinge uma precisão abrangente de 96,7% no conjunto de testes padrão ISMIR, superando produtos similares em 10 pontos percentuais.
A equipe continua a otimizar o desempenho do modelo e atualiza iterativamente o mecanismo de reconhecimento uma vez por mês. Em termos de estratégia de código-fonte aberto, o código do módulo principal do PianoSync foi lançado no GitHub, atraindo mais de 200 desenvolvedores de todo o mundo para participar da contribuição da comunidade.
Essa resposta foi extraída do artigoScoreFlow: ferramenta de aprendizado de música para converter partituras em MIDI e MusicXMLO