Magentic-UI ist ein von Microsoft Research entwickeltes Open-Source-Tool für intelligente Agenten, das Benutzern helfen soll, komplexe Webaufgaben durch Zusammenarbeit zu erledigen. Es basiert auf dem AutoGen-Framework und kombiniert ein Multi-Agenten-System, um eine transparente und kontrollierte Benutzererfahrung zu bieten. Magentic-UI automatisiert nicht nur das Web-Browsing und die Code-Ausführung, sondern verwaltet auch Dateien, so dass es sich für Aufgaben eignet, die eine eingehende Web-Navigation oder Datenmanipulation erfordern. Benutzer können Aufgabenpläne bearbeiten und Agentenoperationen in Echtzeit überwachen, um sicherzustellen, dass die Ergebnisse den Erwartungen entsprechen. Das Tool ist auf GitHub unter der MIT-Lizenz verfügbar, und Entwickler sind eingeladen, Code beizutragen oder Vorschläge zu machen.
Funktionsliste
- Web-AutomatisierungUnterstützung für komplexe Webaufgaben wie das Ausfüllen von Formularen, das Anpassen von Bestellungen, das Filtern von Flügen und vieles mehr.
- Zusammenarbeit zwischen mehreren AgentenEnthält Agenten wie WebSurfer (Webseitenmanipulation), Coder (Codeausführung), FileSurfer (Dateiverwaltung) und andere.
- Aufgabenplan-EditorBenutzer können Aufgabenschritte erstellen, ändern und löschen und an der Aufgabenplanung teilnehmen.
- Betriebliches Feedback in EchtzeitAnzeige der einzelnen Handlungsschritte eines Agenten, wie z. B. das Anklicken einer Schaltfläche oder die Eingabe einer Abfrage.
- Unterstützung der CodeausführungPython- und Shell-Befehle sicher über den Docker-Container ausführen.
- DokumentenverarbeitungskapazitätSuche, Konvertierung von Dokumenten in das Markdown-Format und Beantwortung von Fragen zu Dokumenten.
- Unterstützung mehrerer ModelleKompatibel mit Claude 3.7 Sonnet, Qwen 2.5 VL und anderen mehrsprachigen Modellen.
- Geplante LernfunktionenSpeichern historischer Aufgabenpläne, um die Effizienz zukünftiger Aufgabenausführungen zu optimieren.
Hilfe verwenden
Einbauverfahren
Magentic-UI muss über ein GitHub-Repository installiert werden, und Docker wird empfohlen, um die volle Funktionalität zu gewährleisten. Hier sind die detaillierten Installationsschritte:
- Vorbereitung der Umwelt::
- Stellen Sie sicher, dass Git und Docker auf Ihrem System installiert sind. Wenn Sie Windows verwenden, aktivieren Sie WSL2 (Windows Subsystem für Linux).
- Überprüfen Sie, ob Docker ordnungsgemäß ausgeführt wird, Befehl:
docker --version
- Wenn Docker nicht installiert ist, lesen Sie die offizielle Dokumentation (https://docs.docker.com/get-docker/).
- Klon-Lager::
- Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um das Magentic-UI-Repository zu klonen:
git clone https://github.com/microsoft/magentic-ui.git cd magentic-ui
- Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um das Magentic-UI-Repository zu klonen:
- Installation von Abhängigkeiten::
- Das Lager enthält
requirements.txt
Datei, führen Sie den folgenden Befehl aus, um die Python-Abhängigkeit zu installieren:pip install -r requirements.txt
- Wenn Sie nicht mit Docker arbeiten, können Sie eine eingeschränkte Version des Befehls ausführen (ohne Unterstützung für die Codeausführung):
python main.py --no-docker
- Das Lager enthält
- Docker konfigurieren::
- Ziehen Sie das erforderliche Docker-Image und führen Sie es aus:
docker-compose up -d
- Stellen Sie sicher, dass die Container für WebSurfer, Coder und FileSurfer ordnungsgemäß gestartet sind.
- Ziehen Sie das erforderliche Docker-Image und führen Sie es aus:
- Magentic-UI starten::
- Führen Sie es im Stammverzeichnis des Projekts aus:
python main.py
- Nach dem Start öffnet der Browser die Magentic-UI-Schnittstelle, die sich standardmäßig unter
http://localhost:8000
.
- Führen Sie es im Stammverzeichnis des Projekts aus:
Verwendung
Die Benutzeroberfläche von Magentic-UI ist in zwei Teile gegliedert: das Sitzungsnavigationsfeld auf der linken Seite und das Browser-Bedienungsfenster auf der rechten Seite. Im Folgenden wird der Ablauf der Hauptfunktionen beschrieben:
- Erstellen einer neuen Aufgabe::
- Klicken Sie im linken Bereich auf "Neue Sitzung" und geben Sie eine Aufgabenbeschreibung ein, z. B. "Pizza bestellen" oder "Flüge suchen".
- Zur Unterstützung von Aufgabenbeschreibungen können Bilder hochgeladen werden, z. B. Screenshots von Webseiten.
- Magentic-UI erstellt einen ersten Aufgabenplan, der Schritte wie "Website öffnen" und "Formular ausfüllen" enthält.
- Bearbeitung des Aufgabenplans::
- Zeigen Sie die erstellten Schritte an und klicken Sie auf die Schaltfläche "Bearbeiten", um Schritte zu ändern, hinzuzufügen oder zu löschen.
- Nachdem Sie den Plan bestätigt haben, klicken Sie auf die Schaltfläche "Ausführen", um den Agentenvorgang zu starten.
- Der Benutzer kann den Betrieb jederzeit unterbrechen, übernehmen oder das Programm anpassen.
- Web-Automatisierung::
- Der WebSurfer-Agent ist für die Interaktion mit der Webseite zuständig und unterstützt das Anklicken von Schaltflächen, die Eingabe von Text, das Hochladen von Dateien usw.
- Es werden Details zu den Vorgängen in Echtzeit angezeigt, z. B. "Klicken Sie auf die Schaltfläche 'Senden'" oder "Geben Sie den Suchbegriff 'Flüge' ein".
- Die Benutzer können den Inhalt der Webseite über die Schnittstelle überprüfen, um zu bestätigen, dass der Agent korrekt arbeitet.
- Code-Ausführung::
- Der Coder-Agent schreibt und führt Python- oder Shell-Code aus, der für Datenverarbeitungsaufgaben geeignet ist.
- Beispiel: Der Benutzer gibt ein: "Daten aus einer Webseite extrahieren und ein Diagramm erstellen", der Coder generiert den Code und führt ihn in einem Docker-Container aus.
- Die Ergebnisse des Laufs werden in der Benutzeroberfläche angezeigt und können vom Benutzer eingesehen oder heruntergeladen werden.
- Verwaltung von Dokumenten::
- Der FileSurfer-Agent kann Dateien in einem Projektverzeichnis finden, sie in das Markdown-Format konvertieren oder Fragen zum Inhalt einer Datei beantworten.
- Beispiel: Geben Sie "Finde den Inhalt von README.md" ein und FileSurfer gibt eine Zusammenfassung der Datei zurück.
- Unterstützung mehrerer Modelle::
- OpenAI-Modelle werden standardmäßig unterstützt und befinden sich in der
config.json
Konfigurieren Sie andere Modelle (z.B. Claude 3.7 Sonnet) im - Beispiel für eine Konfiguration:
{ "model": "claude-3.7-sonnet", "api_key": "your-api-key" }
- OpenAI-Modelle werden standardmäßig unterstützt und befinden sich in der
- Überwachung und Intervention in Echtzeit::
- Im linken Feld wird der Status der Aufgabe angezeigt: 🔴 (Benutzereingabe erforderlich), ✅ (Aufgabe abgeschlossen), ↺ (Aufgabe in Bearbeitung).
- Der Nutzer kann den Agenten jederzeit unterbrechen, die Schritte ändern oder den Browser manuell bedienen.
caveat
- Der Docker-Modus bietet volle Funktionalität, der Nicht-Docker-Modus unterstützt keine Code-Ausführung und eignet sich für einfache Webaufgaben.
- Überprüfen Sie es, wenn Sie Probleme haben
TROUBLESHOOTING.md
Datei oder senden Sie ein Issue auf GitHub. - Gewährleistung der Netzstabilität, um Unterbrechungen des Agentenbetriebs zu vermeiden.
Anwendungsszenario
- Web-Formular-Automatisierung
Die Benutzer müssen komplexe Online-Formulare ausfüllen, z. B. Visumanträge oder E-Commerce-Bestellungen. magentic-UI spart Zeit, indem es automatisch durch Webseiten navigiert und Informationen eingibt. - Eingehende Web-Navigation
Finden Sie Inhalte, die von Suchmaschinen nicht indiziert werden, wie z. B. Links zu einzelnen Websites oder spezifische Fluginformationen Der WebSurfer-Agent dringt für ein präzises Targeting tief in die Website-Hierarchie ein. - Datenverarbeitung und Visualisierung
Benutzer müssen Daten aus Webseiten extrahieren und Diagramme erstellen. Der Coder-Agent durchsucht die Daten und schreibt Code, um Visualisierungen zu erstellen. - Inhaltsanalyse von Dokumenten
Entwickler müssen den Inhalt von Projektdateien schnell finden. Der FileSurfer-Agent findet die Dateien und beantwortet Fragen zu ihnen.
QA
- Braucht Magentic-UI Docker?
Docker ist der empfohlene Weg, der die Ausführung von Code und die Dateiverwaltung unterstützt. Nicht-Docker-Modi können ausgeführt werden, haben aber eine eingeschränkte Funktionalität. - Wie kann ich einen neuen Agenten hinzufügen?
existierenagents
Katalog, um neue MCP-Agentencodes hinzuzufügen, aktualisieren Sie dieconfig.json
starten Sie den Dienst neu. - Welche Sprachmodelle werden unterstützt?
Unterstützt OpenAI, Claude 3.7 Sonnet, Qwen 2.5 VL, etc. Der API-Schlüssel muss in der Konfigurationsdatei festgelegt werden. - Wie gehen Sie mit dem Scheitern von Missionen um?
SondeTROUBLESHOOTING.md
Wenn es fehlschlägt, reichen Sie einen Issue bei GitHub ein. Wenn es immer noch fehlschlägt, reichen Sie einen Issue auf GitHub ein.