Das GLM-4.5V ist in der Lage, visuelle Elemente genau zu lokalisieren (Erdung) und die Position des Zielobjekts im Bild/Video im Koordinatenformat [x1,y1,x2,y2] zu bestimmen. Diese Technologie hat einen wichtigen Anwendungswert in industriellen Szenarien wie Sicherheit und Qualitätskontrolle, z. B. zur Lokalisierung abnormaler Objekte in Überwachungsbildern oder zur Identifizierung defekter Produkte in Produktionslinien. Durch die Kombination von Bereichserkennung und semantischem Verständnis kann das Modell nicht nur den Zielort finden, sondern auch kontextbezogene Informationen korrelieren, um die Grundlage der Lokalisierung zu erklären, und die Ausgabeergebnisse können direkt mit dem Automatisierungssystem verbunden werden, um nachfolgende Operationen durchzuführen.
Diese Antwort stammt aus dem ArtikelGLM-4.5V: Ein multimodales Dialogmodell, das Bilder und Videos versteht und Code erzeugtDie