Technische Umsetzung der multimodalen Erkennung
YOLOE integriert auf innovative Weise drei Erkennungsparadigmen: Die Erkennung von Textanhaltspunkten ermöglicht ein semantisches Verständnis durch das CLIP-Modell, das es dem Benutzer ermöglicht, Textbefehle wie "Person, Hund, Katze" einzugeben; die Erkennung von visuellen Anhaltspunkten führt einen Merkmalsabgleich auf der Grundlage eines Referenzbildes durch; und der unaufgeforderte Modus erkennt automatisch die zuvor trainierten 1200+ LVIS-Datensatz-Kategorien. Dank dieses multimodalen Designs kann sich das System an verschiedene Szenarien anpassen, von der präzisen Zielvorgabe bis hin zur vollautomatischen Erkennung in offenen Szenarien.
Einzelheiten zur Durchführung der spezifischen Funktion
- TextmodusPredict_text_prompt.py: wird über das Skript predict_text_prompt.py ausgeführt und unterstützt die dynamische Anpassung der Vertrauensschwellen (Parameter -conf)
- visuelles Muster: Sie müssen zuerst das visuelle Prompt-Modul trainieren (convert_segm2det.py + train_vp.py) und dann predict_visual_prompt.py ausführen.
- Unaufgeforderter Modus: eingebautes Kategorievokabular, aufgerufen über predict_prompt_free.py mit einstellbarer maximaler Anzahl von Erkennungen (Parameter -max_det)
Praktische Anwendungsleistung
Im LVIS-Benchmark-Test hat das System eine hervorragende Fähigkeit zur Generalisierung von Kategorien bewiesen. Die Benutzer können je nach Anforderungen an die Erkennungsgenauigkeit flexibel zwischen verschiedenen Modi wechseln, z. B. visuelle Hinweise verwenden, um die Genauigkeit der Zielerkennung in Sicherheitsszenarien zu gewährleisten, oder den Modus ohne Hinweise aktivieren, um in Forschungsszenarien alle Kategorien zu scannen.
Diese Antwort stammt aus dem ArtikelYOLOE: ein Open-Source-Tool für Videoerkennung und Objektsegmentierung in EchtzeitDie




























