Die Innovation von TankWork im Bereich der multimodalen Interaktion spiegelt sich vor allem in drei Dimensionen wider: Erstens unterstützt es im Hinblick auf den Eingabemodus die gleichzeitige Zweikanaleingabe von Sprachbefehlen (über ElevenLabs API) und Textbefehlen, so dass der Benutzer je nach Szene frei umschalten kann; zweitens verwendet es im Hinblick auf die Umgebungswahrnehmung die Technologie zur Analyse von Bildschirminhalten in Echtzeit, die in der Lage ist, die Schnittstellenelemente zu erkennen und auf sie zu reagieren; und schließlich bietet es im Hinblick auf den Feedback schließlich bietet es ein duales Feedbacksystem mit Sprachübertragung und Visualisierungsprotokollen.
In der konkreten Implementierung verwendet das Computer-Vision-Modul des Frameworks PyAutoGUI und andere Bibliotheken, um die Bildschirmerfassung und -analyse zu ermöglichen, das Sprachmodul integriert die APIs verschiedener KI-Dienstleister (einschließlich Gemini, OpenAI, Anthropic usw.), und die Systemsteuerungsschicht führt die zugrunde liegenden Vorgänge über Python-Systemd und andere Tools aus. Dank dieses Designs ist TankWork in der Lage, die Umgebung besser zu verstehen als herkömmliche RPA-Tools. Wenn der Benutzer z. B. den Befehl "Desktop-Dateien organisieren" sendet, kann das System nicht nur die voreingestellten Operationen ausführen, sondern auch die Ausführungsstrategie dynamisch an den Bildschirmzustand in Echtzeit anpassen.
Die Idee des modularen Designs ist in der Projektkonfigurationsdatei sichtbar, und es steht dem Benutzer frei, verschiedene Anbieter von KI-Modellen zu wählen, z. B. COMPUTER_USE_MODEL=claude-3-5-sonnet-20241022, um das neueste Modell von Anthropic aufzurufen, eine Flexibilität, die die multimodale Erweiterungsfähigkeit des Projekts weiter stärkt.
Diese Antwort stammt aus dem ArtikelTankWork: ein intelligenter Körper, der Computer über Sprache und Text steuert und Sprachfeedback in Echtzeit liefertDie































