O UI-TARS-desktop é um aplicativo de desktop de código aberto da Bytedance, que é essencialmente uma inteligência de IA multimodal. Essa ferramenta permite que os usuários operem um computador local ou remoto digitando comandos simples de linguagem natural. Ela é alimentada pela série de modelos de linguagem visual UI-TARS e Seed-1.5-VL/1.6, o que permite que ela entenda o que está na tela e execute as ações de acordo. O principal recurso do UI-TARS-desktop está na sua capacidade de entender a interface do usuário (GUI) reconhecendo capturas de tela e, em seguida, simular movimentos precisos do mouse e do teclado para concluir a tarefa, oferecendo suporte a uma ampla variedade de sistemas operacionais, como Windows e MacOS. A ferramenta não apenas opera aplicativos de desktop comuns, mas também controla navegadores e automatiza fluxos de trabalho complexos entre aplicativos. Como uma ferramenta que processa informações totalmente localmente, ela também garante a privacidade e a segurança dos dados do usuário.
Lista de funções
- controle de linguagem naturalUse comandos da fala cotidiana para operar o computador sem escrever código.
- Reconhecimento e compreensão visualAplicativos: os aplicativos podem "ver" e entender os elementos da interface na tela para permitir operações precisas.
- Controle preciso do cursor e do tecladoCapacidade de simular ações de usuários humanos, como clicar no mouse, arrastar, rolar e digitar no teclado.
- Suporte a várias plataformasSuporte para execução nos sistemas operacionais Windows e MacOS.
- Capacidade de operação remotaControle remoto: Além de poder controlar sua própria máquina, você também pode oferecer suporte ao controle remoto de outros computadores ou navegadores sem configuração adicional.
- Feedback em tempo realStatus: O status atual e o processo de operação serão exibidos em tempo real quando a tarefa for executada.
- localizaçãoIdentificação e operações: Todas as identificações e operações são feitas localmente, garantindo a privacidade e a segurança dos dados do usuário.
Usando a Ajuda
O UI-TARS-desktop vem como uma inteligência de IA pronta para uso, projetada para permitir que os usuários realizem operações no computador por meio dos comandos de linguagem natural mais intuitivos. Como instalar e usar essa ferramenta é descrito em detalhes a seguir.
Processo de instalação
O projeto está disponível no GitHub como um instalador direto para download, que os usuários podem escolher de acordo com seu sistema operacional.
- Visite a página de lançamento do projeto::
Acesse o repositório GitHub do UI-TARS-desktop e localize a seção "Releases" na barra de navegação à direita. - Faça o download do pacote de instalação correspondente::
Dependendo do seu sistema operacional (Windows ou macOS), faça o download da versão mais recente do arquivo de instalação. Por exemplo, faça o download para Windows.exe
talvez.msi
Arquivo para download para macOS.dmg
Documentação. - Executar a instalação::
- Usuário do WindowsClique duas vezes no instalador baixado e siga as instruções do assistente de instalação padrão para concluir a instalação.
- Usuários do macOS: clique duas vezes para abrir
.dmg
e arraste o ícone do aplicativo para a pasta Aplicativos.
Guia de operação das funções principais
Após a instalação, inicie o UI-TARS-desktop e você verá uma interface simples. A lógica central é muito simples e pode ser resumida em três etapas:Dar instruções -> modelo entende e planeja -> execução automatizada.
1. operador local (LOCAL OPERATOR)
Esse é o recurso mais básico e central que permite que as inteligências de IA operem diretamente o computador que você está usando no momento.
fluxo de trabalho:
- iniciar um aplicativoAbra o aplicativo UI-TARS-desktop.
- Confirmação do modo de operaçãoSelecione ou confirme que está no modo "operação local" na tela principal.
- entradaNa caixa de entrada de texto, descreva claramente em linguagem natural o que você deseja realizar. Quanto mais específica for a instrução, melhor será a execução.
- Exemplo 1 (Configuração do código VS): "Por favor, ajude-me a ativar o recurso de salvamento automático no VS Code e a definir o atraso de salvamento automático para 500 milissegundos."
- Exemplo 2 (GitHub operacional): "Ajude-me a verificar o último problema não resolvido do projeto UI-TARS-Desktop no GitHub."
- inícioPressione Enter ou clique no botão "Execute" (Executar).
- Observação do processo de implementaçãoClique no ponteiro do mouse e digite o texto automaticamente, como se fosse uma pessoa invisível operando o computador para você. A interface do aplicativo fornecerá feedback em tempo real sobre as etapas que estão sendo executadas no momento.
- Missão cumpridaO corpo inteligente parará de funcionar após a conclusão de todas as etapas e aguardará seu próximo comando.
2. operação remota por computador/navegador (operador remoto)
Esse é um excelente recurso do UI-TARS-desktop, que permite operar outro dispositivo por meio dele a partir de um computador, e todo o processo não exige configuração complexa.
fluxo de trabalho:
- Modo de comutaçãoNa interface principal do aplicativo, alterne para o modo "Remote PC Operation" (Operação remota do PC) ou "Remote Browser Operation" (Operação remota do navegador).
- Conexão de dispositivos remotosO aplicativo pode solicitar que você insira o endereço IP do dispositivo de destino ou se conecte por meio de um código de emparelhamento específico (consulte os prompts no aplicativo para obter os métodos de conexão específicos).
- Instruções de emissãoApós uma conexão bem-sucedida, a operação é exatamente a mesma que no modo local. Dê seu comando na caixa de entrada.
- Exemplo (navegador remoto)"Abra o booking.com em um navegador remoto e me ajude a pesquisar os hotéis Ritz-Carlton mais bem avaliados próximos ao LAX de 1º a 6 de setembro."
- Monitoramento da execução remotaVisualização ao vivo da tela do dispositivo remoto na tela local e observação de cada etapa da operação do smart body.
Dicas e práticas recomendadas
- As instruções devem ser claras e inequívocasTermos ambíguos: Evite termos ambíguos. Por exemplo, em vez de dizer "abra esse arquivo", diga "abra o arquivo `ProjectReport.docx' em sua área de trabalho".
- Decompor tarefas complexasPara uma tarefa de várias etapas muito complexa, tente dividi-la em várias subtarefas simples com instruções passo a passo. Isso ajuda a aumentar a taxa de sucesso da execução.
- informações sensíveis ao contextoSe a tarefa envolver um aplicativo específico, é uma boa ideia garantir primeiro que o aplicativo esteja aberto e em primeiro plano. Ou inclua as etapas para abrir o aplicativo nas instruções, por exemplo, "Abra o Excel e crie uma nova pasta de trabalho em branco".
Com as etapas acima, você pode utilizar facilmente o UI-TARS-desktop para usar inteligências de IA como assistentes pessoais do computador para várias tarefas diárias e repetitivas do desktop.
cenário do aplicativo
- Automação diária do escritório
Os usuários podem reduzir o trabalho manual usando comandos de linguagem natural para permitir que as inteligências de IA automatizem operações repetitivas em softwares de escritório (por exemplo, Word, Excel), como formatação de documentos, preenchimento de formulários e organização de dados. - Teste e demonstração de software
Os desenvolvedores ou testadores podem instruir a inteligência de IA a executar uma série de casos de teste na GUI para verificar se o software funciona corretamente. Ela também pode ser usada para gravar uma demonstração em vídeo da funcionalidade do produto, automatizando todas as etapas operacionais. - Coleta e agrupamento de informações
Quando as informações precisam ser coletadas de várias páginas da Web ou aplicativos, o UI-TARS-desktop pode ser instruído a abrir automaticamente as páginas relevantes, copiar o conteúdo necessário e colá-lo em um documento especificado para formar um relatório resumido. - Suporte técnico remoto
A equipe de suporte técnico pode executar as etapas de reparo diretamente no outro computador com a autorização do usuário por meio da função de operação remota, que resolve o problema da ineficiência da instrução somente por voz ou texto.
QA
- Quais sistemas operacionais são compatíveis com o UI-TARS-desktop?
Atualmente, há suporte para os sistemas operacionais de desktop Windows e macOS. - É necessário ter conhecimento de programação para usar essa ferramenta?
De forma alguma. Seu principal conceito de design é a interação por meio de linguagem natural, facilitando a automatização das operações do computador para usuários sem experiência em programação. - Meus dados estão seguros?
A ferramenta executa operações no computador local, todo o reconhecimento da captura de tela e o processamento do modelo são realizados localmente, e não carrega os dados da tela para a nuvem, o que pode proteger efetivamente a privacidade pessoal e a segurança dos dados. - Como ele se diferencia de outras ferramentas de automação, como o Selenium?
As ferramentas tradicionais, como o Selenium, automatizam com base no código e na estrutura DOM das páginas da Web e não podem manipular aplicativos de desktop e exigem scripts, enquanto a UI-TARS-desktop baseia-se na compreensão visual e pode ser operada "olhando" para a tela como um ser humano, controlando navegadores e qualquer software de desktop. A UI-TARS-desktop, por outro lado, baseia-se na compreensão visual e pode "ver" a tela como um ser humano, controlando navegadores e qualquer software de desktop, e é acionada por linguagem natural, não exigindo código.