Multimodale synergetische Schnittstellenkontrolle
Bei großen Modellen (z. B. GPT-4V) treten Probleme wie ungenaue Positionierung der Operationen und fehlende Schritte auf, wenn man nur mit Screenshots der Benutzeroberfläche arbeitet:
- Strukturierte mittlere Schicht:Bildschirmfoto in JSON-Baum mit Elementkoordinaten, Typ und Zustand umwandeln
- Multimodell-Pipelines:Erkennungsmodell → Beschreibungsmodell → hierarchische Verarbeitung zur Erzeugung von Steuerbefehlen
- Windows 11 Sandbox:Bereitstellung einer realen Betriebsumgebung, um die Durchführbarkeit des Befehls zu überprüfen
Umsetzung der Empfehlungen:
- Vergewissern Sie sich, dass die drei Gewichtungsuntermodule (Detect/Caption/Florence) während der Installation vollständig heruntergeladen werden
- Testen Sie das Parsing in Gradio Demo, bevor Sie eine Schnittstelle zum LLM herstellen
- Hinzufügen von Konfidenzschwellen-Filterung zu wichtigen operativen Elementen
Die Lösung verbessert die Genauigkeit der Erzeugung von Betriebsbefehlen von 63% auf 89%, was sich besonders bei komplexen Steuerungen wie Dropdown-Menüs auszahlt.
Diese Antwort stammt aus dem ArtikelOmniParser: Bildschirmfotos der Benutzeroberfläche werden in strukturierte Elemente zerlegt, um das Verständnis und die Bearbeitung großer Modelle zu erleichternDie































