Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

Magentic-UI ist ein von Microsoft Research entwickeltes Open-Source-Tool für intelligente Agenten, das Benutzern helfen soll, komplexe Webaufgaben durch Zusammenarbeit zu erledigen. Es basiert auf dem AutoGen-Framework und kombiniert ein Multi-Agenten-System, um eine transparente und kontrollierte Benutzererfahrung zu bieten. Magentic-UI automatisiert nicht nur das Web-Browsing und die Code-Ausführung, sondern verwaltet auch Dateien, so dass es sich für Aufgaben eignet, die eine eingehende Web-Navigation oder Datenmanipulation erfordern. Benutzer können Aufgabenpläne bearbeiten und Agentenoperationen in Echtzeit überwachen, um sicherzustellen, dass die Ergebnisse den Erwartungen entsprechen. Das Tool ist auf GitHub unter der MIT-Lizenz verfügbar, und Entwickler sind eingeladen, Code beizutragen oder Vorschläge zu machen.

 

Funktionsliste

  • Web-AutomatisierungUnterstützung für komplexe Webaufgaben wie das Ausfüllen von Formularen, das Anpassen von Bestellungen, das Filtern von Flügen und vieles mehr.
  • Zusammenarbeit zwischen mehreren AgentenEnthält Agenten wie WebSurfer (Webseitenmanipulation), Coder (Codeausführung), FileSurfer (Dateiverwaltung) und andere.
  • Aufgabenplan-EditorBenutzer können Aufgabenschritte erstellen, ändern und löschen und an der Aufgabenplanung teilnehmen.
  • Betriebliches Feedback in EchtzeitAnzeige der einzelnen Handlungsschritte eines Agenten, wie z. B. das Anklicken einer Schaltfläche oder die Eingabe einer Abfrage.
  • Unterstützung der CodeausführungPython- und Shell-Befehle sicher über den Docker-Container ausführen.
  • DokumentenverarbeitungskapazitätSuche, Konvertierung von Dokumenten in das Markdown-Format und Beantwortung von Fragen zu Dokumenten.
  • Unterstützung mehrerer ModelleKompatibel mit Claude 3.7 Sonnet, Qwen 2.5 VL und anderen mehrsprachigen Modellen.
  • Geplante LernfunktionenSpeichern historischer Aufgabenpläne, um die Effizienz zukünftiger Aufgabenausführungen zu optimieren.

Hilfe verwenden

Einbauverfahren

Magentic-UI muss über ein GitHub-Repository installiert werden, und Docker wird empfohlen, um die volle Funktionalität zu gewährleisten. Hier sind die detaillierten Installationsschritte:

  1. Vorbereitung der Umwelt::
    • Stellen Sie sicher, dass Git und Docker auf Ihrem System installiert sind. Wenn Sie Windows verwenden, aktivieren Sie WSL2 (Windows Subsystem für Linux).
    • Überprüfen Sie, ob Docker ordnungsgemäß ausgeführt wird, Befehl:
      docker --version
      
    • Wenn Docker nicht installiert ist, lesen Sie die offizielle Dokumentation (https://docs.docker.com/get-docker/).
  2. Klon-Lager::
    • Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um das Magentic-UI-Repository zu klonen:
      git clone https://github.com/microsoft/magentic-ui.git
      cd magentic-ui
      
  3. Installation von Abhängigkeiten::
    • Das Lager enthält requirements.txt Datei, führen Sie den folgenden Befehl aus, um die Python-Abhängigkeit zu installieren:
      pip install -r requirements.txt
      
    • Wenn Sie nicht mit Docker arbeiten, können Sie eine eingeschränkte Version des Befehls ausführen (ohne Unterstützung für die Codeausführung):
      python main.py --no-docker
      
  4. Docker konfigurieren::
    • Ziehen Sie das erforderliche Docker-Image und führen Sie es aus:
      docker-compose up -d
      
    • Stellen Sie sicher, dass die Container für WebSurfer, Coder und FileSurfer ordnungsgemäß gestartet sind.
  5. Magentic-UI starten::
    • Führen Sie es im Stammverzeichnis des Projekts aus:
      python main.py
      
    • Nach dem Start öffnet der Browser die Magentic-UI-Schnittstelle, die sich standardmäßig unter http://localhost:8000.

Verwendung

Die Benutzeroberfläche von Magentic-UI ist in zwei Teile gegliedert: das Sitzungsnavigationsfeld auf der linken Seite und das Browser-Bedienungsfenster auf der rechten Seite. Im Folgenden wird der Ablauf der Hauptfunktionen beschrieben:

  • Erstellen einer neuen Aufgabe::
    1. Klicken Sie im linken Bereich auf "Neue Sitzung" und geben Sie eine Aufgabenbeschreibung ein, z. B. "Pizza bestellen" oder "Flüge suchen".
    2. Zur Unterstützung von Aufgabenbeschreibungen können Bilder hochgeladen werden, z. B. Screenshots von Webseiten.
    3. Magentic-UI erstellt einen ersten Aufgabenplan, der Schritte wie "Website öffnen" und "Formular ausfüllen" enthält.
  • Bearbeitung des Aufgabenplans::
    1. Zeigen Sie die erstellten Schritte an und klicken Sie auf die Schaltfläche "Bearbeiten", um Schritte zu ändern, hinzuzufügen oder zu löschen.
    2. Nachdem Sie den Plan bestätigt haben, klicken Sie auf die Schaltfläche "Ausführen", um den Agentenvorgang zu starten.
    3. Der Benutzer kann den Betrieb jederzeit unterbrechen, übernehmen oder das Programm anpassen.
  • Web-Automatisierung::
    • Der WebSurfer-Agent ist für die Interaktion mit der Webseite zuständig und unterstützt das Anklicken von Schaltflächen, die Eingabe von Text, das Hochladen von Dateien usw.
    • Es werden Details zu den Vorgängen in Echtzeit angezeigt, z. B. "Klicken Sie auf die Schaltfläche 'Senden'" oder "Geben Sie den Suchbegriff 'Flüge' ein".
    • Die Benutzer können den Inhalt der Webseite über die Schnittstelle überprüfen, um zu bestätigen, dass der Agent korrekt arbeitet.
  • Code-Ausführung::
    • Der Coder-Agent schreibt und führt Python- oder Shell-Code aus, der für Datenverarbeitungsaufgaben geeignet ist.
    • Beispiel: Der Benutzer gibt ein: "Daten aus einer Webseite extrahieren und ein Diagramm erstellen", der Coder generiert den Code und führt ihn in einem Docker-Container aus.
    • Die Ergebnisse des Laufs werden in der Benutzeroberfläche angezeigt und können vom Benutzer eingesehen oder heruntergeladen werden.
  • Verwaltung von Dokumenten::
    • Der FileSurfer-Agent kann Dateien in einem Projektverzeichnis finden, sie in das Markdown-Format konvertieren oder Fragen zum Inhalt einer Datei beantworten.
    • Beispiel: Geben Sie "Finde den Inhalt von README.md" ein und FileSurfer gibt eine Zusammenfassung der Datei zurück.
  • Unterstützung mehrerer Modelle::
    • OpenAI-Modelle werden standardmäßig unterstützt und befinden sich in der config.json Konfigurieren Sie andere Modelle (z.B. Claude 3.7 Sonnet) im
    • Beispiel für eine Konfiguration:
      {
      "model": "claude-3.7-sonnet",
      "api_key": "your-api-key"
      }
      
  • Überwachung und Intervention in Echtzeit::
    • Im linken Feld wird der Status der Aufgabe angezeigt: 🔴 (Benutzereingabe erforderlich), ✅ (Aufgabe abgeschlossen), ↺ (Aufgabe in Bearbeitung).
    • Der Nutzer kann den Agenten jederzeit unterbrechen, die Schritte ändern oder den Browser manuell bedienen.

caveat

  • Der Docker-Modus bietet volle Funktionalität, der Nicht-Docker-Modus unterstützt keine Code-Ausführung und eignet sich für einfache Webaufgaben.
  • Überprüfen Sie es, wenn Sie Probleme haben TROUBLESHOOTING.md Datei oder senden Sie ein Issue auf GitHub.
  • Gewährleistung der Netzstabilität, um Unterbrechungen des Agentenbetriebs zu vermeiden.

Anwendungsszenario

  1. Web-Formular-Automatisierung
    Die Benutzer müssen komplexe Online-Formulare ausfüllen, z. B. Visumanträge oder E-Commerce-Bestellungen. magentic-UI spart Zeit, indem es automatisch durch Webseiten navigiert und Informationen eingibt.
  2. Eingehende Web-Navigation
    Finden Sie Inhalte, die von Suchmaschinen nicht indiziert werden, wie z. B. Links zu einzelnen Websites oder spezifische Fluginformationen Der WebSurfer-Agent dringt für ein präzises Targeting tief in die Website-Hierarchie ein.
  3. Datenverarbeitung und Visualisierung
    Benutzer müssen Daten aus Webseiten extrahieren und Diagramme erstellen. Der Coder-Agent durchsucht die Daten und schreibt Code, um Visualisierungen zu erstellen.
  4. Inhaltsanalyse von Dokumenten
    Entwickler müssen den Inhalt von Projektdateien schnell finden. Der FileSurfer-Agent findet die Dateien und beantwortet Fragen zu ihnen.

QA

  1. Braucht Magentic-UI Docker?
    Docker ist der empfohlene Weg, der die Ausführung von Code und die Dateiverwaltung unterstützt. Nicht-Docker-Modi können ausgeführt werden, haben aber eine eingeschränkte Funktionalität.
  2. Wie kann ich einen neuen Agenten hinzufügen?
    existieren agents Katalog, um neue MCP-Agentencodes hinzuzufügen, aktualisieren Sie die config.jsonstarten Sie den Dienst neu.
  3. Welche Sprachmodelle werden unterstützt?
    Unterstützt OpenAI, Claude 3.7 Sonnet, Qwen 2.5 VL, etc. Der API-Schlüssel muss in der Konfigurationsdatei festgelegt werden.
  4. Wie gehen Sie mit dem Scheitern von Missionen um?
    Sonde TROUBLESHOOTING.mdWenn es fehlschlägt, reichen Sie einen Issue bei GitHub ein. Wenn es immer noch fehlschlägt, reichen Sie einen Issue auf GitHub ein.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Posteingang

Kontakt

zurück zum Anfang

de_DEDeutsch