Derzeitige Position:Abb. Anfang " AI-Antworten

YOLOE unterstützt drei Erkennungsmodi (textuell/visuell/nicht-aufgefordert), die über 1200 Kategorien abdecken

2025-08-27

1.6 K

Technische Umsetzung der multimodalen Erkennung

YOLOE integriert auf innovative Weise drei Erkennungsparadigmen: Die Erkennung von Textanhaltspunkten ermöglicht ein semantisches Verständnis durch das CLIP-Modell, das es dem Benutzer ermöglicht, Textbefehle wie "Person, Hund, Katze" einzugeben; die Erkennung von visuellen Anhaltspunkten führt einen Merkmalsabgleich auf der Grundlage eines Referenzbildes durch; und der unaufgeforderte Modus erkennt automatisch die zuvor trainierten 1200+ LVIS-Datensatz-Kategorien. Dank dieses multimodalen Designs kann sich das System an verschiedene Szenarien anpassen, von der präzisen Zielvorgabe bis hin zur vollautomatischen Erkennung in offenen Szenarien.

Einzelheiten zur Durchführung der spezifischen Funktion

TextmodusPredict_text_prompt.py: wird über das Skript predict_text_prompt.py ausgeführt und unterstützt die dynamische Anpassung der Vertrauensschwellen (Parameter -conf)
visuelles Muster: Sie müssen zuerst das visuelle Prompt-Modul trainieren (convert_segm2det.py + train_vp.py) und dann predict_visual_prompt.py ausführen.
Unaufgeforderter Modus: eingebautes Kategorievokabular, aufgerufen über predict_prompt_free.py mit einstellbarer maximaler Anzahl von Erkennungen (Parameter -max_det)

Praktische Anwendungsleistung

Im LVIS-Benchmark-Test hat das System eine hervorragende Fähigkeit zur Generalisierung von Kategorien bewiesen. Die Benutzer können je nach Anforderungen an die Erkennungsgenauigkeit flexibel zwischen verschiedenen Modi wechseln, z. B. visuelle Hinweise verwenden, um die Genauigkeit der Zielerkennung in Sicherheitsszenarien zu gewährleisten, oder den Modus ohne Hinweise aktivieren, um in Forschungsszenarien alle Kategorien zu scannen.

Diese Antwort stammt aus dem ArtikelYOLOE: ein Open-Source-Tool für Videoerkennung und Objektsegmentierung in EchtzeitDie

YOLOE unterstützt drei Erkennungsmodi (textuell/visuell/nicht-aufgefordert), die über 1200 Kategorien abdecken

Technische Umsetzung der multimodalen Erkennung

Einzelheiten zur Durchführung der spezifischen Funktion

Praktische Anwendungsleistung

Ähnliche Artikel

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

YOLOE unterstützt drei Erkennungsmodi (textuell/visuell/nicht-aufgefordert), die über 1200 Kategorien abdecken

Technische Umsetzung der multimodalen Erkennung

Einzelheiten zur Durchführung der spezifischen Funktion

Praktische Anwendungsleistung

Ähnliche Artikel

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Beliebte AI-Tools

Neue Veröffentlichungen

Neueste AI-Tools

Schnellabfragestation AI-Tool