Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

UI-TARS-desktop ist eine von Bytedance freigegebene Desktop-Anwendung, die im Wesentlichen eine multimodale KI-Intelligenz darstellt. Mit diesem Tool können Benutzer einen lokalen oder entfernten Computer durch Eingabe einfacher Befehle in natürlicher Sprache bedienen. Es stützt sich auf die visuellen Sprachmodelle UI-TARS und Seed-1.5-VL/1.6, die es ihm ermöglichen, zu verstehen, was auf dem Bildschirm zu sehen ist, und entsprechende Aktionen auszuführen. Die Kernfähigkeit von UI-TARS-desktop liegt in seiner Fähigkeit, die Benutzeroberfläche (GUI) durch Erkennung von Screenshots zu verstehen und dann präzise Maus- und Tastaturbewegungen zu simulieren, um die Aufgabe zu erledigen, wobei eine breite Palette von Betriebssystemen wie Windows und MacOS unterstützt wird. Das Tool bedient nicht nur reguläre Desktop-Anwendungen, sondern steuert auch Browser und automatisiert komplexe anwendungsübergreifende Workflows. Da es sich um ein Tool handelt, das Informationen vollständig lokal verarbeitet, gewährleistet es auch den Datenschutz und die Sicherheit der Benutzerdaten.

UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用-1

 

Funktionsliste

  • natürliche SprachsteuerungBefehle aus der Alltagssprache verwenden, um den Computer zu bedienen, ohne Code zu schreiben.
  • Visuelles Erkennen und VerstehenApps können Oberflächenelemente auf dem Bildschirm "sehen" und verstehen, um präzise Vorgänge zu ermöglichen.
  • Präzise Steuerung von Cursor und TastaturSimulation menschlicher Benutzeraktionen wie Mausklick, Ziehen, Scrollen und Tastatureingabe.
  • Plattformübergreifende UnterstützungUnterstützt die Betriebssysteme Windows und MacOS.
  • Fernbedienungsmöglichkeit: Sie können nicht nur Ihren eigenen Rechner steuern, sondern auch die Fernsteuerung anderer Computer oder Browser ohne zusätzliche Konfiguration unterstützen.
  • Feedback in EchtzeitDer aktuelle Status und der Betriebsablauf werden in Echtzeit angezeigt, wenn die Aufgabe ausgeführt wird.
  • LokalisierungAlle Identifizierungen und Vorgänge werden lokal durchgeführt, wodurch der Datenschutz und die Sicherheit der Nutzerdaten gewährleistet sind.

Hilfe verwenden

UI-TARS-desktop ist eine sofort einsatzbereite KI-Intelligenz, die es den Benutzern ermöglicht, Computeroperationen mit Hilfe von intuitiven Befehlen in natürlicher Sprache durchzuführen. Wie Sie dieses Tool installieren und verwenden, wird im Folgenden ausführlich beschrieben.

Einbauverfahren

Das Projekt ist auf GitHub als direkt herunterladbares Installationsprogramm verfügbar, aus dem die Benutzer je nach Betriebssystem wählen können.

  1. Besuchen Sie die Projektfreigabeseite::
    Gehen Sie zum GitHub-Repository für UI-TARS-desktop und suchen Sie den Abschnitt "Releases" in der rechten Navigationsleiste.
  2. Laden Sie das entsprechende Installationspaket herunter::
    Je nach Betriebssystem (Windows oder macOS) laden Sie die neueste Version der Installationsdatei herunter. Zum Beispiel, Download für Windows.exevielleicht.msiDatei zum Herunterladen für macOS.dmgDokumentation.
  3. Durchführung der Installation::
    • Windows-BenutzerDoppelklicken Sie auf das heruntergeladene Installationsprogramm und folgen Sie den Anweisungen des Standard-Installationsassistenten, um die Installation abzuschließen.
    • macOS-Benutzer: Doppelklick zum Öffnen.dmgund ziehen Sie das Anwendungssymbol in den Anwendungsordner.

Kernfunktionen Betriebsanleitung

Starten Sie nach der Installation UI-TARS-desktop und Sie werden eine einfache Benutzeroberfläche sehen. Die Kernlogik ist sehr einfach und lässt sich in drei Schritten zusammenfassen:Anweisungen geben -> Modell versteht und plant -> automatische Ausführung.

1. lokaler Bediener (LOCAL OPERATOR)

Dies ist die grundlegendste und wichtigste Funktion, die es KI-Intelligenzen ermöglicht, den Computer, den Sie gerade benutzen, direkt zu bedienen.

Arbeitsablauf:

  1. eine Anwendung startenÖffnen Sie die Anwendung UI-TARS-desktop.
  2. Bestätigung der BetriebsartWählen Sie auf dem Hauptbildschirm den Modus "Lokaler Betrieb" aus oder bestätigen Sie, dass Sie sich in diesem Modus befinden.
  3. EingabeIm Texteingabefeld beschreiben Sie klar und deutlich in natürlicher Sprache, was Sie erreichen wollen. Je spezifischer die Anweisung ist, desto besser ist die Ausführung.
    • Beispiel 1 (VS-Code einrichten)"Bitte helfen Sie mir, die Autosave-Funktion in VS Code zu aktivieren und die Autosave-Verzögerung auf 500 Millisekunden einzustellen."
    • Beispiel 2 (Betrieb von GitHub)"Helfen Sie mir, das letzte ungelöste Problem für das UI-TARS-Desktop-Projekt auf GitHub zu überprüfen."
  4. beginnen.Drücken Sie die Eingabetaste oder klicken Sie auf die Schaltfläche "Ausführen".
  5. Beobachtung des UmsetzungsprozessesJetzt sollten Sie sehen können, wie sich der Mauszeiger automatisch bewegt, klickt und Text eintippt, wie eine unsichtbare Person, die den Computer für Sie bedient. Die Anwendungsschnittstelle gibt Ihnen in Echtzeit Rückmeldung über die gerade durchgeführten Schritte.
  6. Auftrag erfülltDer Smart Body stellt den Betrieb ein, wenn alle Schritte abgeschlossen sind, und wartet auf Ihren nächsten Befehl.

2. ferngesteuerter Computer-/Browserbetrieb (Remote Operator)

Dies ist eine großartige Funktion von UI-TARS-desktop, die es Ihnen ermöglicht, ein anderes Gerät von einem Computer aus zu bedienen, und der gesamte Prozess erfordert keine komplexe Konfiguration.

Arbeitsablauf:

  1. UmschaltmodusIm Hauptbildschirm der Anwendung wechseln Sie in den Modus "Remote PC Operation" oder "Remote Browser Operation".
  2. Verbinden entfernter GeräteDie App kann Sie auffordern, die IP-Adresse des Zielgeräts einzugeben oder eine Verbindung über einen bestimmten Pairing-Code herzustellen (bitte beachten Sie die Aufforderungen in der App für bestimmte Verbindungsmethoden).
  3. Anweisungen gebenNach erfolgreicher Verbindung ist die Bedienung genau dieselbe wie im lokalen Modus. Geben Sie Ihren Befehl in das Eingabefeld ein.
    • Beispiel (entfernter Browser)Öffnen Sie booking.com in einem entfernten Browser und helfen Sie mir bei der Suche nach den am besten bewerteten Ritz-Carlton Hotels in der Nähe des LAX vom 1. September bis zum 6. September".
  4. Überwachung der Remote-AusführungSie können eine Live-Ansicht des Bildschirms des entfernten Geräts auf Ihrem lokalen Bildschirm sehen und jeden Schritt der Bedienung des Smart Body verfolgen.

Tipps und bewährte Praktiken

  • Die Anweisungen sollten klar und unmissverständlich seinVermeiden Sie zweideutige Begriffe. Sagen Sie z. B. statt "Öffnen Sie diese Datei" lieber "Öffnen Sie die Datei `Projektbericht.docx' auf Ihrem Desktop".
  • Komplexe Aufgaben zerlegenBei einer sehr komplexen, mehrstufigen Aufgabe sollten Sie versuchen, sie in mehrere einfache Teilaufgaben mit Schritt-für-Schritt-Anweisungen zu unterteilen. Dies trägt dazu bei, die Erfolgsquote bei der Ausführung zu erhöhen.
  • kontextabhängige InformationenWenn die Aufgabe eine bestimmte Anwendung betrifft, sollten Sie zunächst sicherstellen, dass die Anwendung geöffnet und im Vordergrund ist. Oder fügen Sie die Schritte zum Öffnen der Anwendung in die Anweisungen ein, z. B. "Öffnen Sie Excel und erstellen Sie eine neue leere Arbeitsmappe."

Mit den oben beschriebenen Schritten können Sie UI-TARS-desktop ganz einfach nutzen, um KI-Intelligenzen als Ihre persönlichen Computerassistenten für verschiedene tägliche und sich wiederholende Desktop-Aufgaben einzusetzen.

Anwendungsszenario

  1. Tägliche Büroautomatisierung
    Benutzer können die manuelle Arbeit reduzieren, indem sie natürliche Sprachbefehle verwenden, damit KI-Intelligenzen sich wiederholende Vorgänge in Bürosoftware (z. B. Word, Excel) automatisieren können, wie das Formatieren von Dokumenten, das Ausfüllen von Formularen und das Organisieren von Daten.
  2. Softwareprüfung und -demonstration
    Entwickler oder Tester können die KI-Intelligenz anweisen, eine Reihe von Testfällen auf der grafischen Benutzeroberfläche auszuführen, um zu prüfen, ob die Software ordnungsgemäß funktioniert. Sie kann auch eine Videodemonstration der Produktfunktionalität aufzeichnen und so alle Arbeitsschritte automatisieren.
  3. Sammlung und Zusammenstellung von Informationen
    Wenn Informationen von mehreren Webseiten oder Anwendungen gesammelt werden müssen, kann UI-TARS-desktop angewiesen werden, die relevanten Seiten automatisch zu öffnen, den erforderlichen Inhalt zu kopieren und ihn in ein bestimmtes Dokument einzufügen, um einen zusammenfassenden Bericht zu erstellen.
  4. Technische Fernunterstützung
    Das Personal des technischen Kundendienstes kann mit der Fernbedienungsfunktion Reparaturen direkt auf dem anderen Computer durchführen, wenn der Benutzer dazu autorisiert ist, wodurch das Problem der Ineffizienz von Anweisungen nur per Sprache oder Text gelöst wird.

QA

  1. Welche Betriebssysteme werden von UI-TARS-desktop unterstützt?
    Derzeit werden die Desktop-Betriebssysteme Windows und macOS unterstützt.
  2. Sind für die Nutzung dieses Tools Programmierkenntnisse erforderlich?
    Ganz und gar nicht. Sein Kernkonzept ist die Interaktion durch natürliche Sprache, die es Benutzern ohne Programmierkenntnisse leicht macht, ihre Computeroperationen zu automatisieren.
  3. Sind meine Daten sicher?
    Das Tool führt lokale Computeroperationen durch, die gesamte Screenshot-Erkennung und Modellverarbeitung wird lokal durchgeführt und lädt Ihre Bildschirmdaten nicht in die Cloud hoch, wodurch die persönliche Privatsphäre und die Datensicherheit wirksam geschützt werden können.
  4. Wie unterscheidet es sich von anderen Automatisierungstools wie Selenium?
    Herkömmliche Tools wie Selenium automatisieren auf der Grundlage von Code und der DOM-Struktur von Webseiten und können keine Desktop-Anwendungen manipulieren und erfordern Skripting, während UI-TARS-desktop auf visuellem Verständnis basiert und durch "Sehen" des Bildschirms wie ein Mensch bedient werden kann und sowohl Browser als auch jede Desktop-Software steuert. UI-TARS-desktop hingegen basiert auf visuellem Verständnis und kann den Bildschirm wie ein Mensch "sehen" und sowohl Browser als auch jede beliebige Desktop-Software steuern, und wird durch natürliche Sprache gesteuert, so dass kein Code erforderlich ist.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

zurück zum Anfang

de_DEDeutsch