Análise da arquitetura da tecnologia principal
A realização técnica do SegAnyMo se baseia na integração profunda de três módulos principais:
- TAPNetGeração de trajetórias de rastreamento de objetos 2D, estabelecimento de correlação de movimento entre quadros e captura eficaz de recursos dinâmicos.
- DINOv2Extração de recursos visuais com base no aprendizado autossupervisionado que proporciona uma compreensão semântica rica
- SAM2Segment Anything: uma versão aprimorada do modelo Segment Anything para detecção de bordas em nível de subpixel
No fluxo de trabalho, o sistema primeiro estabelece trajetórias de movimento por meio do TAPNet, o DINOv2 analisa as relações semânticas da cena e, por fim, o SAM2 gera máscaras finas. Os dados de teste mostram que a arquitetura atinge um índice Jaccard de 82,3% no conjunto de dados DAVIS, o que é significativamente melhor do que os métodos de segmentação tradicionais.
Essa resposta foi extraída do artigoSegAnyMo: uma ferramenta de código aberto para segmentar automaticamente objetos móveis arbitrários em vídeosO































