O Magentic-UI é uma ferramenta de agente inteligente de código aberto desenvolvida pela Microsoft Research, projetada para ajudar os usuários a concluir tarefas complexas na Web por meio da colaboração. O Magentic-UI não só automatiza a navegação na Web e a execução de códigos, mas também gerencia arquivos, o que o torna adequado para tarefas que exigem navegação aprofundada na Web ou manipulação de dados. Os usuários podem editar programações de tarefas e monitorar as operações do agente em tempo real para garantir que os resultados sejam os esperados. A ferramenta está disponível no GitHub sob a licença MIT, e os desenvolvedores podem contribuir com código ou fazer sugestões.
Lista de funções
- automação da webSuporte para tarefas complexas na Web, como preenchimento de formulários, personalização de pedidos, filtragem de voos e muito mais.
- Colaboração com vários agentesInclui agentes como o WebSurfer (manipulação de páginas da Web), Coder (execução de código) e FileSurfer (gerenciamento de arquivos).
- Editor de plano de tarefasOs usuários podem criar, modificar e excluir etapas de tarefas e participar do planejamento de tarefas.
- Feedback operacional em tempo realExibição de cada etapa da ação de um agente, como clicar em um botão ou inserir uma consulta.
- Suporte à execução de códigoExecute comandos Python e Shell com segurança por meio do contêiner do Docker.
- Capacidade de processamento de documentosEncontre, converta documentos para o formato Markdown e responda a perguntas relacionadas a documentos.
- Suporte a vários modelosCompatível com o Claude 3.7 Sonnet, Qwen 2.5 VL e outros modelos multilíngues.
- Funções de aprendizagem planejadasSalvar planos de tarefas históricos para otimizar a eficiência da execução de tarefas futuras.
Usando a Ajuda
Processo de instalação
O Magentic-UI precisa ser instalado por meio de um repositório do GitHub, e o Docker é recomendado para garantir a funcionalidade total. Aqui estão as etapas detalhadas da instalação:
- Preparação ambiental::
- Certifique-se de que o Git e o Docker estejam instalados em seu sistema e, se estiver usando o Windows, ative o WSL2 (Subsistema Windows para Linux).
- Verifique se o Docker está sendo executado corretamente, comando:
docker --version
- Se o Docker não estiver instalado, consulte a documentação oficial (https://docs.docker.com/get-docker/).
- armazém de clones::
- Abra um terminal e execute o seguinte comando para clonar o repositório Magentic-UI:
git clone https://github.com/microsoft/magentic-ui.git cd magentic-ui
- Abra um terminal e execute o seguinte comando para clonar o repositório Magentic-UI:
- Instalação de dependências::
- O depósito contém
requirements.txt
execute o seguinte comando para instalar a dependência do Python:pip install -r requirements.txt
- Se você não estiver usando o Docker, poderá executar uma versão limitada (sem suporte à execução de código) do comando:
python main.py --no-docker
- O depósito contém
- Configuração do Docker::
- Extraia a imagem do Docker necessária e execute-a:
docker-compose up -d
- Certifique-se de que os contêineres do WebSurfer, Coder e FileSurfer sejam iniciados corretamente.
- Extraia a imagem do Docker necessária e execute-a:
- Iniciar o Magentic-UI::
- Execute-o no diretório raiz do projeto:
python main.py
- Uma vez iniciado, o navegador abrirá a interface Magentic-UI, que está localizada por padrão em
http://localhost:8000
.
- Execute-o no diretório raiz do projeto:
Uso
A interface do Magentic-UI é dividida em duas partes: o painel de navegação da sessão, à esquerda, e a janela de operação do navegador, à direita. A seguir, o fluxo das principais funções:
- Criação de uma nova tarefa::
- Clique em "New Session" (Nova sessão) no painel esquerdo e insira uma descrição da tarefa, como "Order Pizza" (Pedir pizza) ou "Find Flights" (Encontrar voos).
- É possível fazer upload de imagens para ajudar nas descrições de tarefas, como capturas de tela de páginas da Web.
- O Magentic-UI gera um plano de tarefas inicial, listando etapas como "abrir o site" e "preencher o formulário".
- Edição do plano de tarefas::
- Visualize as etapas geradas e clique no botão "Edit" (Editar) para modificar, adicionar ou excluir etapas.
- Depois de confirmar o plano, clique no botão "Execute" (Executar) para iniciar a operação do agente.
- O usuário pode pausar, assumir a operação ou ajustar o programa a qualquer momento.
- automação da web::
- O agente WebSurfer é responsável pela interação com a página da Web, suportando o clique em botões, a inserção de texto, o upload de arquivos e assim por diante.
- São exibidos detalhes da operação em tempo real, como "Clique no botão 'Enviar'" ou "Digite o termo de pesquisa 'voos'".
- Os usuários podem verificar o conteúdo da página da Web por meio da interface para confirmar que o agente está funcionando corretamente.
- execução de código::
- O agente Coder grava e executa código Python ou Shell, adequado para tarefas de processamento de dados.
- Exemplo: o usuário digita "extrair dados de uma página da Web e gerar um gráfico", o codificador gera o código e o executa em um contêiner do Docker.
- Os resultados da execução são exibidos na interface para o usuário visualizar ou fazer download.
- Gerenciamento de documentos::
- O agente FileSurfer pode localizar arquivos em um diretório de projeto, convertê-los para o formato Markdown ou responder a perguntas sobre o conteúdo de um arquivo.
- Exemplo: Digite "Find the contents of README.md" e o FileSurfer retornará um resumo do arquivo.
- Suporte a vários modelos::
- Os modelos OpenAI são compatíveis por padrão e podem ser encontrados no
config.json
Configure outros modelos (por exemplo, Claude 3.7 Sonnet) no - Exemplo de configuração:
{ "model": "claude-3.7-sonnet", "api_key": "your-api-key" }
- Os modelos OpenAI são compatíveis por padrão e podem ser encontrados no
- Monitoramento e intervenção em tempo real::
- O painel esquerdo exibe o status da tarefa: 🔴 (entrada do usuário necessária), ✅ (tarefa concluída), ↺ (tarefa em andamento).
- O usuário pode pausar o agente, modificar as etapas ou operar manualmente o navegador a qualquer momento.
advertência
- O modo Docker oferece funcionalidade completa, enquanto o modo não Docker não oferece suporte à execução de código e é adequado para tarefas simples da Web.
- Verifique se você tem problemas
TROUBLESHOOTING.md
ou enviar um problema no GitHub. - Garantir a estabilidade da rede para evitar a interrupção da operação do agente.
cenário do aplicativo
- Automação de formulários da Web
Os usuários precisam preencher formulários on-line complexos, como solicitações de visto ou pedidos de comércio eletrônico. O magentic-UI economiza tempo ao navegar automaticamente pelas páginas da Web e inserir informações. - Navegação aprofundada na Web
Encontre conteúdo que não é indexado pelos mecanismos de busca, como links para sites individuais ou informações específicas sobre voos. O agente WebSurfer penetra profundamente na hierarquia do site para obter um direcionamento preciso. - Processamento e visualização de dados
Os usuários precisam extrair dados de páginas da Web e gerar gráficos. O agente Coder rastreia os dados e escreve código para gerar visualizações. - Análise de conteúdo de documentos
Os desenvolvedores precisam encontrar rapidamente o conteúdo dos arquivos de projeto. O agente FileSurfer localiza os arquivos e responde a perguntas sobre eles.
QA
- O Magentic-UI precisa do Docker?
O Docker é o modo recomendado, com suporte para execução de código e gerenciamento de arquivos. Os modos não Docker podem ser executados, mas têm funcionalidade limitada. - Como faço para adicionar um novo agente?
existiragents
Catalogue para adicionar um novo código de agente MCP, atualizar oconfig.json
, reinicie o serviço. - Quais modelos de idioma são compatíveis?
Suporte a OpenAI, Claude 3.7 Sonnet, Qwen 2.5 VL, etc. A chave de API precisa ser definida no arquivo de configuração. - Como você lida com o fracasso da missão?
sondaTROUBLESHOOTING.md
Se falhar, envie um problema para o GitHub. Se ainda assim falhar, envie um problema para o GitHub.