Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

YOLOE unterstützt drei Erkennungsmodi (textuell/visuell/nicht-aufgefordert), die über 1200 Kategorien abdecken

2025-08-27 1.6 K

Technische Umsetzung der multimodalen Erkennung

YOLOE integriert auf innovative Weise drei Erkennungsparadigmen: Die Erkennung von Textanhaltspunkten ermöglicht ein semantisches Verständnis durch das CLIP-Modell, das es dem Benutzer ermöglicht, Textbefehle wie "Person, Hund, Katze" einzugeben; die Erkennung von visuellen Anhaltspunkten führt einen Merkmalsabgleich auf der Grundlage eines Referenzbildes durch; und der unaufgeforderte Modus erkennt automatisch die zuvor trainierten 1200+ LVIS-Datensatz-Kategorien. Dank dieses multimodalen Designs kann sich das System an verschiedene Szenarien anpassen, von der präzisen Zielvorgabe bis hin zur vollautomatischen Erkennung in offenen Szenarien.

Einzelheiten zur Durchführung der spezifischen Funktion

  • TextmodusPredict_text_prompt.py: wird über das Skript predict_text_prompt.py ausgeführt und unterstützt die dynamische Anpassung der Vertrauensschwellen (Parameter -conf)
  • visuelles Muster: Sie müssen zuerst das visuelle Prompt-Modul trainieren (convert_segm2det.py + train_vp.py) und dann predict_visual_prompt.py ausführen.
  • Unaufgeforderter Modus: eingebautes Kategorievokabular, aufgerufen über predict_prompt_free.py mit einstellbarer maximaler Anzahl von Erkennungen (Parameter -max_det)

Praktische Anwendungsleistung

Im LVIS-Benchmark-Test hat das System eine hervorragende Fähigkeit zur Generalisierung von Kategorien bewiesen. Die Benutzer können je nach Anforderungen an die Erkennungsgenauigkeit flexibel zwischen verschiedenen Modi wechseln, z. B. visuelle Hinweise verwenden, um die Genauigkeit der Zielerkennung in Sicherheitsszenarien zu gewährleisten, oder den Modus ohne Hinweise aktivieren, um in Forschungsszenarien alle Kategorien zu scannen.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch