O OpenAdapt é uma ferramenta de software de código aberto que conecta grandes modelos multimodais (LMMs) avançados à interface gráfica do usuário (GUI) de um computador com o objetivo de automatizar processos. Tradicionalmente, uma grande quantidade de esforço mental é desperdiçada em operações repetitivas de computador, e o OpenAdapt visa a resolver esse problema. Ele funciona de forma semelhante à automação de processos robóticos (RPA), mas o principal impulsionador é um modelo avançado de IA em vez de uma ferramenta tradicional de RPA. A ferramenta aprende registrando o que os usuários realmente fazem em seus computadores (incluindo capturas de tela e ações de digitação) e, em seguida, usa esses dados para gerar tarefas automatizadas. Esse método de aprendizado a partir de demonstrações humanas torna as tarefas de automação mais próximas do processo real e reduz a probabilidade de a IA gerar operações incorretas. Como um projeto de código aberto independente de modelo, ele é aplicável a todos os tipos de aplicativos de desktop, até mesmo a ambientes virtualizados (por exemplo, Citrix) e páginas da Web.
Lista de funções
- Registrar ações do usuárioCapacidade de capturar capturas de tela e entradas de usuário associadas (por exemplo, cliques de mouse, entradas de teclado) para fornecer dados de aprendizado para automação.
- visualizaçãoFornecer ferramentas para agregar e visualizar dados registrados para facilitar a compreensão e a depuração pelos desenvolvedores.
- Gerar scripts de automaçãoConverta registros de ações do usuário em um formato que os modelos de IA possam entender e gerar tarefas automatizadas que possam ser repetidas várias vezes.
- Várias estratégias de reproduçãoSuporte para diferentes estratégias de execução automatizada, desde a reprodução direta simples até a reprodução mais inteligente usando GPT-4 ou modelos visuais.
- Integração do navegadorFornece uma extensão do Chrome para registrar eventos de ação no navegador para uma automação da Web mais precisa.
- PrivacidadeApagamento de informações de privacidade incorporado, líder do setor, para remover informações de identificação pessoal (PII) e informações de saúde protegidas (PHI) com ferramentas como AWS Comprehend, Microsoft Presidio e muito mais. [citar:1. 1]
- Monitoramento de desempenhoFerramentas detalhadas de monitoramento de desempenho são integradas para ajudar os desenvolvedores a analisar e otimizar seus programas.
- Suporte a várias plataformasInstruções de instalação e uso para os principais sistemas operacionais, como Windows e macOS.
Usando a Ajuda
O OpenAdapt permite que os modelos de IA aprendam a imitar seu comportamento para concluir tarefas repetitivas, gravando as ações do computador (como cliques do mouse e pressionamentos de teclas) juntamente com capturas de tela.
Processo de instalação
O OpenAdapt oferece uma instalação com script conveniente para usuários de diferentes sistemas operacionais.
Sistemas Windows.
- manter a mão sobre
Windows
digite "powershell" e pressione Enter para abrir o PowerShell. - Copie e cole os seguintes comandos em uma janela do PowerShell e pressione a tecla Enter para executá-los. Se for solicitado o Controle de Conta de Usuário, clique em Sim.
Start-Process powershell -Verb RunAs -ArgumentList '-NoExit', '-ExecutionPolicy', 'Bypass', '-Command', "iwr -UseBasicParsing -Uri 'https://raw.githubusercontent.com/OpenAdaptAI/OpenAdapt/main/install/install_openadapt.ps1' | Invoke-Expression"
sistemas macOS.
- Primeiro, verifique se você tem o
Git
responder cantandoPython 3.10
. - manter a mão sobre
Command+Space
digite "terminal" e pressione Enter para abrir o terminal. - Copie e cole o seguinte comando na janela do terminal e pressione Enter para executá-lo:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/OpenAdaptAI/OpenAdapt/HEAD/install/install_openadapt.sh)"
Operação da função principal
Depois que a instalação estiver concluída, você poderá usar o OpenAdapt com alguns comandos principais. Antes de usá-lo, verifique se você passou o comando cd OpenAdapt
no diretório raiz do projeto e execute o comando poetry shell
O ambiente virtual é ativado.
1. iniciar a bandeja do sistema e o back-end da Web
Execute o seguinte comando para iniciar o ícone da bandeja do sistema e o painel da Web do OpenAdapt para facilitar o gerenciamento e a visualização de tarefas.
python -m openadapt.entrypoint
2. registrar uma nova missão
fazer uso de openadapt.record
para iniciar uma nova gravação. Você precisará de um nome descritivo para a tarefa que está gravando, como "testando o openadapt".
python -m openadapt.record "testing out openadapt"
Quando os gravadores de eventos de exibição de terminal (tela, ação, janela) forem iniciados, você poderá começar a operar o computador. O OpenAdapt registrará os movimentos do mouse, os cliques e a entrada do teclado. Quando terminar, pressione CTRL+C
para interromper a gravação.
tomar nota deA versão atual sugere manter a gravação curta (por exemplo, menos de um minuto) para evitar o uso excessivo de memória.
3. visualização do conteúdo gravado
Quando a gravação estiver concluída, você poderá visualizar rapidamente o que foi gravado. Execute o seguinte comando:
python -m openadapt.visualize
Esse comando gera automaticamente um arquivo HTML e o abre em seu navegador. Você verá uma visualização detalhada com todas as etapas e as capturas de tela correspondentes.
4. reprodução (execução) de tarefas automatizadas
fazer uso de openadapt.replay
para automatizar a tarefa que você acabou de gravar. Você precisa especificar uma política de reprodução, a mais simples das quais é a NaiveReplayStrategy
.
python -m openadapt.replay NaiveReplayStrategy
Além disso, o OpenAdapt oferece outras estratégias de reprodução mais inteligentes, como VisualReplayStrategy
Se o usuário não tiver uma tarefa, ele usará modelos visuais para reconhecer elementos na tela. Algumas estratégias avançadas também permitem que você adicione novas instruções para modificar a tarefa original, por exemplo:
python -m openadapt.replay VanillaReplayStrategy --instructions "calculate 9-8"
Essa instrução diz à IA para adaptar seu comportamento à nova instrução ("Calculate 9-8") à medida que executa a tarefa.
Integração da automação do navegador
Se você quiser registrar operações no Google Chrome, precisará configurar a extensão do navegador adicionalmente:
- Na barra de endereços do Chrome, digite
chrome://extensions
E aberto. - Ative o botão "Modo de desenvolvedor" no canto superior direito.
- Clique em "Load unzipped extensions" (Carregar extensões descompactadas) no canto superior esquerdo.
- Na janela de seleção de arquivos que aparece, localize e selecione o diretório do projeto OpenAdapt no diretório
chrome_extension
Pasta. - Certifique-se de que a extensão OpenAdapt esteja ativada.
- modificações
openadapt/data/config.json
arquivo, que iráRECORD_BROWSER_EVENTS
é definido como o valor detrue
.
cenário do aplicativo
- Entrada de dados automatizada
Para tarefas repetitivas que requerem copiar informações de um software (por exemplo, documento PDF, e-mail) e colá-las em outro (por exemplo, planilha do Excel, banco de dados), você pode usar o OpenAdapt para registrar o fluxo da operação uma vez e, em seguida, permitir que ele automatize todas as tarefas de entrada de dados semelhantes subsequentes. - Auxílios operacionais de software
Para os usuários não familiarizados com um software complexo, é possível que outra pessoa grave previamente uma série de procedimentos operacionais padrão. Os usuários podem simplesmente reproduzir esses procedimentos por meio do OpenAdapt para automatizar tarefas específicas, reduzindo as barreiras ao uso do software. - Teste de regressão de software
Durante o desenvolvimento do software, os desenvolvedores podem registrar uma série de casos de teste padrão. Esses casos de teste podem ser reproduzidos automaticamente sempre que o software for atualizado para verificar se a nova versão introduz novos problemas, melhorando assim a eficiência dos testes. - Automação de tarefas pessoais diárias
Ele pode ser usado para automatizar tarefas diárias no PC, como organizar arquivos da área de trabalho regularmente todos os dias, renomear fotos em lote, fazer login automaticamente em sites e entrar, etc., economizando assim seu tempo pessoal.
QA
- O que é o OpenAdapt?
O OpenAdapt é um software de automação de processos de código aberto. Ele automatiza tarefas repetitivas registrando as ações do usuário em um computador e usando grandes modelos multimodais (LMMs) para aprender e imitar essas ações. - Qual é a diferença em relação às ferramentas tradicionais de RPA?
As ferramentas tradicionais de RPA geralmente dependem de regras e scripts predefinidos para executar tarefas, o que é menos adaptável. O OpenAdapt, por outro lado, adota uma estratégia de "IA em primeiro lugar" e aprende observando demonstrações humanas, o que lhe permite entender melhor a intenção da tarefa e se adaptar a cenários dinâmicos, como mudanças de interface, tornando-o mais flexível e inteligente. - Preciso pagar para usar o OpenAdapt?
Não. O OpenAdapt é um projeto de código aberto baseado na licença MIT e pode ser usado, modificado e distribuído gratuitamente por qualquer pessoa. - Quais sistemas operacionais são compatíveis?
Atualmente, o OpenAdapt fornece scripts de instalação detalhados e guias de configuração manual para Windows e macOS que podem ser usados nos dois principais sistemas operacionais de desktop. - Como a OpenAdapt lida com meus dados privados?
O OpenAdapt tem um sistema integrado de apagamento de informações privadas líder do setor que identifica e remove automaticamente informações de identificação pessoal (PII) e informações de saúde protegidas (PHI) durante a gravação para manter os dados do usuário seguros.