今天智谱发布了”AutoGLM 沉思”版,很多人说他就是 Manus Ich denke, es ist richtig, dass Manus als Deep Research Produkt oder als Deep Research Produkt klassifiziert werden kann. Aber eine solch einfache Kategorisierung würde sowohl bei den Entwicklern als auch bei den Nutzern eine Menge kognitiver Fehler hervorrufen, und ich denke, viele Leute haben das gleiche Problem, zumindest ich.
Think Smart Spectrum veröffentlicht bisher eine Reihe von Anwendungen zur Desktop-Automatisierung ( AutoGLM-Web-Plugin ),直至”AutoGLM 沉思”,目前可以基本看到接近完整的智谱全系产品线。
因此今天要聊的话题是围绕”AutoGLM 沉思”,解构AI执行桌面操作任务的产品由哪些分支能力组成。
Die offizielle Präsentation des Wisdom Spectrum ist pragmatisch
AutoGLM Contemplation ist ein autonomer intelligenter Körper (AI-Agent), der offene Fragen untersuchen und auf der Grundlage der Ergebnisse Aktionen durchführen kann. Er ist in der Lage, menschliche Denkprozesse zu simulieren, von der Datenbeschaffung und -analyse bis zur Berichterstellung.
面向用户,”AutoGLM 沉思”到底是什么都是开发者说的,开发者可以帮助用户聚焦于一个功能点,引导用户使用,最终没办法代表用户自我定义。
面向开发者,讨论”AutoGLM 沉思”是 Manus、Deep Research、Weisheitsspektrum Kuh, KI-Suche,Browser-NutzungMan muss seine Funktionen aufschlüsseln und die Grenzen seiner Möglichkeiten diskutieren, damit sich die Diskussion lohnt. Wenn man die AutoGLM-Betrachtung einfach auf folgende Punkte zusammenfasst Manus 有明显的错误,比如 Manus 可以完成计算类任务,”AutoGLM 沉思”不能。
从了解”AutoGLM 沉思”基本功能开始
verbraucht Clear Words Browser Plugin 的朋友应该发现他们很类似,他们目前统一归纳到“AutoGLM”产品线,建议在使用”AutoGLM 沉思”客户端前,先从插件开始体验。两者功能不对等,插件功能(目前)要大于客户端。
Allerdings kann der Client derzeit auf Websites zugreifen, die nicht auf der Whitelist stehen, während das Plugin derzeit den Umfang der Informationen begrenzt:
因此使用客户端来了解”AutoGLM 沉思”功能可以更好的挖掘其潜力。
1. laden Sie den Client herunter, Sie müssen auch das Plug-in installieren
Herunterladen: https://autoglm-research.zhipuai.cn/#get_started
2. die erste Aufgabe einleiten (gemeinsam arbeiten und den Prozess beobachten)
Finden Sie alle kostenlosen "AI Translator" Tools von https://www.58jingpai.com/, und sammeln Sie nur AI Translator Tools mit Kunden.
Tipp: Dies ist keine gute Aufgabenbeschreibung, da die Website keine Suchfunktion und keinen klaren Einstiegspunkt zu KI-Übersetzungstools bietet. Eine bessere Aufgabenbeschreibung wäre: Beginnen Sie mit dem Durchblättern der Seiten von https://www.58jingpai.com/tag/aifanyi/ und finden Sie alle kostenlosen und clientseitigen KI-Übersetzungstools in der Informationsliste.
3. beobachten Sie den Prozess der Aufgabenausführung (dies ist ein Screenshot eines Teils der Seite, die automatisch bei der Ausführung des Tools besucht wird)
Reflexionen
Suchen Sie zunächst das Suchfeld, geben Sie "AI Translation" ein und führen Sie die Suche aus.
进入必应搜索界面(网站的搜索框是跳转到必应搜索的),开始访问链接…
Beim Aufrufen des zweiten Links wurde ein kategorisierter Katalog von KI-Übersetzungstools gefunden
Durchsuchen Sie die kategorisierte Liste der KI-Übersetzungsprogramme Link für Link und führen Sie ein automatisches Blättern durch.
Besuchen Sie die zweite Seite und starten Sie die Zusammenfassungsaufgabe
Ausgabe des vollständigen Forschungsberichts
4. nicht durch die wichtige Test-Link "Login" Interessenten ihre eigene Aufgabe zu starten, um den Interaktionsprozess zu beobachten, ist die Aufgabe in der Lage, die Login-Interaktion Aktion hervorzurufen. (Melden Sie sich zuerst von Xiaohongshu ab)
Das Wissen des Kleinen Roten Buches über DEEPSEEK, das Videos erzeugt, sammeln
ausfindig machen.
Anhand der erzielten Ergebnisse lässt sich rückwärts analysieren, dass die Aufforderungen des Tools auf das Schreiben einer Forschungsarbeit ausgerichtet sind und sich nicht für andere Aufgabentypen eignen.
Kernkompetenzen
- Generierung von Pendenzenplänen
- Den Browser aufwecken
- In-Browser-Ansicht (nur Text), Klicken, Tippen
- Knoten zur Aufgabenbeurteilung (teilweise): Web-Browsing abgeschlossen, Seite beobachten und die nächste Aufgabe beurteilen, beurteilen, ob eine Anmeldung erforderlich ist, Ende der Informationsbeschaffung
Automatisierung rund um die visuellen Interaktionen des Browsers, aber nur für das Sammeln von Informationen und das Schreiben von Forschungsberichten, es sieht nicht so aus, als ob es zu diesem Zeitpunkt alle seine Fähigkeiten freigibt, insbesondere mit clientseitigen Ergänzungen, und sollte in der Lage sein, später mehr Fähigkeiten zu integrieren.
Kurz gesagt: AutoGLM contemplation vs. Wisdom Spectrum Bull Difference
Erstere bedient den Browser visuell, automatisiert den Prozess der Informationssammlung und erzeugt "Eingabe"-Aktionen nur für die Suche und den Besuch von Seiten.
Letzterer bedient den Desktop visuell und ist nicht auf die Automatisierung der Informationsbeschaffung beschränkt, sondern kann den Desktop frei bedienen, um die Aufgabe zu erledigen.
Zusammenfassung in einem Satz Unterschiede zwischen AutoGLM Contemplation und ClearSpeak Browser Plugin
Ersterer bedient den Browser visuell und kann später als PC-Client mit weiteren Schnittstellen interagieren.
Letzteres hat immer noch die gleiche visuelle Manipulation der Browser-Fähigkeiten und kann als Browser-Plug-in verwendet werden, um nativ mit den Informationen auf der besuchten Seite zu interagieren.
Zurück zum Thema KI, die Aufgaben der Desktop-Bearbeitung übernimmt
Lassen Sie uns mit einer Frage beginnen:
AutoGLM Kontemplative Kernkompetenzen Browser-Nutzung Beides, Verfassen von ausführlichen Forschungsberichten STURM Warum sollten Sie AutoGLM Contemplation verwenden?
Die Antwort wird im Folgenden zusammengefasst:
AutoGLM Contemplation ist ein auf den Verbraucher ausgerichtetes, produktspezifisches Tool, das einen vollständigen Prozess der Informationsbeschaffung und der Erstellung von Forschungsberichten umfasst.
Es ist nicht erforderlich, komplexe lokale Installationsumgebungen zu konfigurieren und die Cloud-Computing-Leistung für die Zusammenarbeit bei lokalen Interaktionen zu nutzen.
STORM ist eine feste Quelle für die Sammlung von Informationen ohne Zugang zu nicht offenen Informationen, während AutoGLM eine Automatisierung mit Hilfe des Browsers vorsieht, um Folgendes zu erreichenNicht offene Informationssammlung.
Zu diesem Zeitpunkt werden Sie vage einige Unterschiede zwischen den Werkzeugen erkennen? In der Tat ist das Problem sehr einfach, die folgenden von der Zusammenfassung der Desktop-Zeichen-Automatisierungs-Tools zu kämmen beginnen.
Zwei Arten von Lösungen für die Automatisierung von Desktop-Aufgaben
1. traditionell feste Ankerpunkte setzen und prozessweise ausführen. Beispiel: Microsoft PA, Shadowblade.
2. rein visuelle Interaktionen unter Verwendung von Browser-Use zur Unterstützung bei großen Modellbeurteilungen und zur Erzeugung von Interaktionen. Beispiel: AutoGLM-Betrachtung.
3) Hybrid: Shadowblade kann auch auf einem festen Arbeitsablauf basieren, wobei einige Knoten (insbesondere Inhaltsextraktionssitzungen) rein visuelle Interaktionen verwenden. Typischer ist Microsofts automatisiertes Kundendienstplanungs-Tool, nach der Einführung von KI, so dass der Kundendienst in der festen SOP-Prämisse, menschlicher arbeitet.
接着聚焦纯视觉交互方案,起一个名字吧…桌面任务自动执行智能体
Was kann eine intelligente Desktop-Automatisierung leisten?
Allgemeine Kompetenz:
Visuelle Erkennung des Desktops, Bedienung der Desktop-Funktionen
Skalierbarkeit:
Einzelne Intelligenz, Multi-Intelligenz bei der Ausführung von Aufgaben.Multiple Intelligenzen werden im Allgemeinen für die Aufgabenplanung, die Verzweigung von Aufgaben, die Aufgabenkoordination und die Informationsverdichtung eingesetzt.
Führen Sie Desktop-Vorgänge aus, indem Sie sich auf ein festes "Werkzeug" oder einen festen "Arbeitsablauf" für eine bestimmte Aufgabe beziehen.Zum Beispiel: Berechnungen, Programmierung, Suche nach qualitativ hochwertigen Informationsquellen. Was Manus für alle so leistungsfähig macht, ist die Integration von Programmierwerkzeugen, um einige Verzweigungsaufgaben zu erledigen.
Erweitern (Zugriff) auf lokale und entfernte Datenquellen.
Beschränkungen:
Intelligenzen zur Automatisierung von Desktop-Aufgaben müssen den Desktop nicht unbedingt rein visuell bedienen. Wenn meine Zweigstellenaufgabe die Suche nach "Wissen" umfasst, ist es vielleicht besser, direkt mit den Suchergebnissen von "Wissen" zu arbeiten, und die Bedienung des Desktops ist stattdessen ineffizient. Daher kann eine vernünftige Erweiterungsmöglichkeit dazu beitragen, den Wert von Desktop-Intelligenzen zu realisieren.
Wozu Desktop Task Automation Intelligence gut ist
AutoGLM contemplation beschränkt sich auf die Suche nach nicht offenem Wissen, was für Wissenssuchszenarien gut geeignet ist, aber der Punkt, an dem es von größerem Wert sein kann, ist bei der Automatisierung von Vorgängen, bei denen die Schnittstelle dynamische Informationen enthält und sich wiederholt. Diese Konvergenz Die Automatisierung der Aufgabenausführung durch die KI und die anschließende Speicherung des Aufgabenausführungsprozesses, so dass dieser zu einem späteren Zeitpunkt erneut durchlaufen werden kann, ist gut gelungen.
Zusammenfassen: Informationen überprüfen, sich wiederholende Aufgaben ausführen.
Desktop Operating Tasks Produktportfolio
Der obige Teardown enthält genügend Informationen, um die aktuelle Form ähnlicher Produkte zusammenzufassen.
Letztendlich ist es nichts anderes als eine Kombination der folgenden Fähigkeiten, lokal oder in der Cloud, die Gestaltung des Bereichs der verarbeiteten und unverarbeiteten Aufgabenausführung und schließlich die Präsentation der Art der ausführbaren Aufgabe für den Benutzer.
Alle denkbaren ähnlichen Instrumente lassen sich in der nachstehenden Tabelle zusammenfassen.