Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Magentic-UI é uma ferramenta de agente inteligente de código aberto desenvolvida pela Microsoft Research, projetada para ajudar os usuários a concluir tarefas complexas na Web por meio da colaboração. O Magentic-UI não só automatiza a navegação na Web e a execução de códigos, mas também gerencia arquivos, o que o torna adequado para tarefas que exigem navegação aprofundada na Web ou manipulação de dados. Os usuários podem editar programações de tarefas e monitorar as operações do agente em tempo real para garantir que os resultados sejam os esperados. A ferramenta está disponível no GitHub sob a licença MIT, e os desenvolvedores podem contribuir com código ou fazer sugestões.

 

Lista de funções

  • automação da webSuporte para tarefas complexas na Web, como preenchimento de formulários, personalização de pedidos, filtragem de voos e muito mais.
  • Colaboração com vários agentesInclui agentes como o WebSurfer (manipulação de páginas da Web), Coder (execução de código) e FileSurfer (gerenciamento de arquivos).
  • Editor de plano de tarefasOs usuários podem criar, modificar e excluir etapas de tarefas e participar do planejamento de tarefas.
  • Feedback operacional em tempo realExibição de cada etapa da ação de um agente, como clicar em um botão ou inserir uma consulta.
  • Suporte à execução de códigoExecute comandos Python e Shell com segurança por meio do contêiner do Docker.
  • Capacidade de processamento de documentosEncontre, converta documentos para o formato Markdown e responda a perguntas relacionadas a documentos.
  • Suporte a vários modelosCompatível com o Claude 3.7 Sonnet, Qwen 2.5 VL e outros modelos multilíngues.
  • Funções de aprendizagem planejadasSalvar planos de tarefas históricos para otimizar a eficiência da execução de tarefas futuras.

Usando a Ajuda

Processo de instalação

O Magentic-UI precisa ser instalado por meio de um repositório do GitHub, e o Docker é recomendado para garantir a funcionalidade total. Aqui estão as etapas detalhadas da instalação:

  1. Preparação ambiental::
    • Certifique-se de que o Git e o Docker estejam instalados em seu sistema e, se estiver usando o Windows, ative o WSL2 (Subsistema Windows para Linux).
    • Verifique se o Docker está sendo executado corretamente, comando:
      docker --version
      
    • Se o Docker não estiver instalado, consulte a documentação oficial (https://docs.docker.com/get-docker/).
  2. armazém de clones::
    • Abra um terminal e execute o seguinte comando para clonar o repositório Magentic-UI:
      git clone https://github.com/microsoft/magentic-ui.git
      cd magentic-ui
      
  3. Instalação de dependências::
    • O depósito contém requirements.txt execute o seguinte comando para instalar a dependência do Python:
      pip install -r requirements.txt
      
    • Se você não estiver usando o Docker, poderá executar uma versão limitada (sem suporte à execução de código) do comando:
      python main.py --no-docker
      
  4. Configuração do Docker::
    • Extraia a imagem do Docker necessária e execute-a:
      docker-compose up -d
      
    • Certifique-se de que os contêineres do WebSurfer, Coder e FileSurfer sejam iniciados corretamente.
  5. Iniciar o Magentic-UI::
    • Execute-o no diretório raiz do projeto:
      python main.py
      
    • Uma vez iniciado, o navegador abrirá a interface Magentic-UI, que está localizada por padrão em http://localhost:8000.

Uso

A interface do Magentic-UI é dividida em duas partes: o painel de navegação da sessão, à esquerda, e a janela de operação do navegador, à direita. A seguir, o fluxo das principais funções:

  • Criação de uma nova tarefa::
    1. Clique em "New Session" (Nova sessão) no painel esquerdo e insira uma descrição da tarefa, como "Order Pizza" (Pedir pizza) ou "Find Flights" (Encontrar voos).
    2. É possível fazer upload de imagens para ajudar nas descrições de tarefas, como capturas de tela de páginas da Web.
    3. O Magentic-UI gera um plano de tarefas inicial, listando etapas como "abrir o site" e "preencher o formulário".
  • Edição do plano de tarefas::
    1. Visualize as etapas geradas e clique no botão "Edit" (Editar) para modificar, adicionar ou excluir etapas.
    2. Depois de confirmar o plano, clique no botão "Execute" (Executar) para iniciar a operação do agente.
    3. O usuário pode pausar, assumir a operação ou ajustar o programa a qualquer momento.
  • automação da web::
    • O agente WebSurfer é responsável pela interação com a página da Web, suportando o clique em botões, a inserção de texto, o upload de arquivos e assim por diante.
    • São exibidos detalhes da operação em tempo real, como "Clique no botão 'Enviar'" ou "Digite o termo de pesquisa 'voos'".
    • Os usuários podem verificar o conteúdo da página da Web por meio da interface para confirmar que o agente está funcionando corretamente.
  • execução de código::
    • O agente Coder grava e executa código Python ou Shell, adequado para tarefas de processamento de dados.
    • Exemplo: o usuário digita "extrair dados de uma página da Web e gerar um gráfico", o codificador gera o código e o executa em um contêiner do Docker.
    • Os resultados da execução são exibidos na interface para o usuário visualizar ou fazer download.
  • Gerenciamento de documentos::
    • O agente FileSurfer pode localizar arquivos em um diretório de projeto, convertê-los para o formato Markdown ou responder a perguntas sobre o conteúdo de um arquivo.
    • Exemplo: Digite "Find the contents of README.md" e o FileSurfer retornará um resumo do arquivo.
  • Suporte a vários modelos::
    • Os modelos OpenAI são compatíveis por padrão e podem ser encontrados no config.json Configure outros modelos (por exemplo, Claude 3.7 Sonnet) no
    • Exemplo de configuração:
      {
      "model": "claude-3.7-sonnet",
      "api_key": "your-api-key"
      }
      
  • Monitoramento e intervenção em tempo real::
    • O painel esquerdo exibe o status da tarefa: 🔴 (entrada do usuário necessária), ✅ (tarefa concluída), ↺ (tarefa em andamento).
    • O usuário pode pausar o agente, modificar as etapas ou operar manualmente o navegador a qualquer momento.

advertência

  • O modo Docker oferece funcionalidade completa, enquanto o modo não Docker não oferece suporte à execução de código e é adequado para tarefas simples da Web.
  • Verifique se você tem problemas TROUBLESHOOTING.md ou enviar um problema no GitHub.
  • Garantir a estabilidade da rede para evitar a interrupção da operação do agente.

cenário do aplicativo

  1. Automação de formulários da Web
    Os usuários precisam preencher formulários on-line complexos, como solicitações de visto ou pedidos de comércio eletrônico. O magentic-UI economiza tempo ao navegar automaticamente pelas páginas da Web e inserir informações.
  2. Navegação aprofundada na Web
    Encontre conteúdo que não é indexado pelos mecanismos de busca, como links para sites individuais ou informações específicas sobre voos. O agente WebSurfer penetra profundamente na hierarquia do site para obter um direcionamento preciso.
  3. Processamento e visualização de dados
    Os usuários precisam extrair dados de páginas da Web e gerar gráficos. O agente Coder rastreia os dados e escreve código para gerar visualizações.
  4. Análise de conteúdo de documentos
    Os desenvolvedores precisam encontrar rapidamente o conteúdo dos arquivos de projeto. O agente FileSurfer localiza os arquivos e responde a perguntas sobre eles.

QA

  1. O Magentic-UI precisa do Docker?
    O Docker é o modo recomendado, com suporte para execução de código e gerenciamento de arquivos. Os modos não Docker podem ser executados, mas têm funcionalidade limitada.
  2. Como faço para adicionar um novo agente?
    existir agents Catalogue para adicionar um novo código de agente MCP, atualizar o config.json, reinicie o serviço.
  3. Quais modelos de idioma são compatíveis?
    Suporte a OpenAI, Claude 3.7 Sonnet, Qwen 2.5 VL, etc. A chave de API precisa ser definida no arquivo de configuração.
  4. Como você lida com o fracasso da missão?
    sonda TROUBLESHOOTING.mdSe falhar, envie um problema para o GitHub. Se ainda assim falhar, envie um problema para o GitHub.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil