Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Magentic-UI é uma ferramenta de agente inteligente de código aberto desenvolvida pela Microsoft Research e projetada para ajudar os usuários a concluir tarefas complexas na Web por meio da colaboração. Ela é baseada em AutoGen O Magentic-UI automatiza a navegação na Web, a execução de códigos e o gerenciamento de arquivos, tornando-o ideal para tarefas que exigem navegação aprofundada na Web ou manipulação de dados. Os usuários podem editar programações de tarefas e monitorar as operações do agente em tempo real para garantir que os resultados sejam os esperados. A ferramenta está disponível no GitHub sob a licença MIT, e os desenvolvedores podem contribuir com código ou fazer sugestões.

 

Lista de funções

  • automação da webSuporte para tarefas complexas na Web, como preenchimento de formulários, personalização de pedidos, filtragem de voos e muito mais.
  • Colaboração com vários agentesInclui agentes como o WebSurfer (manipulação de páginas da Web), Coder (execução de código) e FileSurfer (gerenciamento de arquivos).
  • Editor de plano de tarefasOs usuários podem criar, modificar e excluir etapas de tarefas e participar do planejamento de tarefas.
  • Feedback operacional em tempo realExibição de cada etapa da ação de um agente, como clicar em um botão ou inserir uma consulta.
  • Suporte à execução de códigoExecute comandos Python e Shell com segurança por meio do contêiner do Docker.
  • Capacidade de processamento de documentosEncontre, converta documentos para o formato Markdown e responda a perguntas relacionadas a documentos.
  • Suporte a vários modelos: Compatível Claude 3.7 Sonnet, Qwen 2.5 VL e outros modelos multilíngues.
  • Funções de aprendizagem planejadasSalvar planos de tarefas históricos para otimizar a eficiência da execução de tarefas futuras.

Usando a Ajuda

Processo de instalação

O Magentic-UI precisa ser instalado por meio de um repositório do GitHub, e o Docker é recomendado para garantir a funcionalidade total. Aqui estão as etapas detalhadas da instalação:

  1. Preparação ambiental
    • Certifique-se de que o Git e o Docker estejam instalados em seu sistema e, se estiver usando o Windows, ative o WSL2 (Subsistema Windows para Linux).
    • Verifique se o Docker está sendo executado corretamente, comando:
      docker --version
      
    • Se o Docker não estiver instalado, consulte a documentação oficial (https://docs.docker.com/get-docker/).
  2. armazém de clones
    • Abra um terminal e execute o seguinte comando para clonar o repositório Magentic-UI:
      git clone https://github.com/microsoft/magentic-ui.git
      cd magentic-ui
      
  3. Instalação de dependências
    • O depósito contém requirements.txt execute o seguinte comando para instalar a dependência do Python:
      pip install -r requirements.txt
      
    • Se você não estiver usando o Docker, poderá executar uma versão limitada (sem suporte à execução de código) do comando:
      python main.py --no-docker
      
  4. Configuração do Docker
    • Extraia a imagem do Docker necessária e execute-a:
      docker-compose up -d
      
    • Certifique-se de que os contêineres do WebSurfer, Coder e FileSurfer sejam iniciados corretamente.
  5. Iniciar o Magentic-UI
    • Execute-o no diretório raiz do projeto:
      python main.py
      
    • Uma vez iniciado, o navegador abrirá a interface Magentic-UI, que está localizada por padrão em http://localhost:8000

Uso

A interface do Magentic-UI é dividida em duas partes: o painel de navegação da sessão, à esquerda, e a janela de operação do navegador, à direita. A seguir, o fluxo das principais funções:

  • Criação de uma nova tarefa
    1. Clique em "New Session" (Nova sessão) no painel esquerdo e insira uma descrição da tarefa, como "Order Pizza" (Pedir pizza) ou "Find Flights" (Encontrar voos).
    2. É possível fazer upload de imagens para ajudar nas descrições de tarefas, como capturas de tela de páginas da Web.
    3. O Magentic-UI gera um plano de tarefas inicial, listando etapas como "abrir o site" e "preencher o formulário".
  • Edição do plano de tarefas
    1. Visualize as etapas geradas e clique no botão "Edit" (Editar) para modificar, adicionar ou excluir etapas.
    2. Depois de confirmar o plano, clique no botão "Execute" (Executar) para iniciar a operação do agente.
    3. O usuário pode pausar, assumir a operação ou ajustar o programa a qualquer momento.
  • automação da web
    • O agente WebSurfer é responsável pela interação com a página da Web, suportando o clique em botões, a inserção de texto, o upload de arquivos e assim por diante.
    • São exibidos detalhes da operação em tempo real, como "Clique no botão 'Enviar'" ou "Digite o termo de pesquisa 'voos'".
    • Os usuários podem verificar o conteúdo da página da Web por meio da interface para confirmar que o agente está funcionando corretamente.
  • execução de código
    • O agente Coder grava e executa código Python ou Shell, adequado para tarefas de processamento de dados.
    • Exemplo: o usuário digita "extrair dados de uma página da Web e gerar um gráfico", o codificador gera o código e o executa em um contêiner do Docker.
    • Os resultados da execução são exibidos na interface para o usuário visualizar ou fazer download.
  • Gerenciamento de documentos
    • O agente FileSurfer pode localizar arquivos em um diretório de projeto, convertê-los para o formato Markdown ou responder a perguntas sobre o conteúdo de um arquivo.
    • Exemplo: Digite "Find the contents of README.md" e o FileSurfer retornará um resumo do arquivo.
  • Suporte a vários modelos
    • Os modelos OpenAI são compatíveis por padrão e podem ser encontrados no config.json Configure outros modelos (por exemplo, Claude 3.7 Sonnet) no
    • Exemplo de configuração:
      {
      "model": "claude-3.7-sonnet",
      "api_key": "your-api-key"
      }
      
  • Monitoramento e intervenção em tempo real
    • O painel esquerdo exibe o status da tarefa: 🔴 (entrada do usuário necessária), ✅ (tarefa concluída), ↺ (tarefa em andamento).
    • O usuário pode pausar o agente, modificar as etapas ou operar manualmente o navegador a qualquer momento.

advertência

  • O modo Docker oferece funcionalidade completa, enquanto o modo não Docker não oferece suporte à execução de código e é adequado para tarefas simples da Web.
  • Verifique se você tem problemas TROUBLESHOOTING.md ou enviar um problema no GitHub.
  • Garantir a estabilidade da rede para evitar a interrupção da operação do agente.

cenário do aplicativo

  1. Automação de formulários da Web
    Os usuários precisam preencher formulários on-line complexos, como solicitações de visto ou pedidos de comércio eletrônico. O magentic-UI economiza tempo ao navegar automaticamente pelas páginas da Web e inserir informações.
  2. Navegação aprofundada na Web
    Encontre conteúdo que não é indexado pelos mecanismos de busca, como links para sites individuais ou informações específicas sobre voos. O agente WebSurfer penetra profundamente na hierarquia do site para obter um direcionamento preciso.
  3. Processamento e visualização de dados
    Os usuários precisam extrair dados de páginas da Web e gerar gráficos. O agente Coder rastreia os dados e escreve código para gerar visualizações.
  4. Análise de conteúdo de documentos
    Os desenvolvedores precisam encontrar rapidamente o conteúdo dos arquivos de projeto. O agente FileSurfer localiza os arquivos e responde a perguntas sobre eles.

QA

  1. O Magentic-UI precisa do Docker?
    O Docker é o modo recomendado, com suporte para execução de código e gerenciamento de arquivos. Os modos não Docker podem ser executados, mas têm funcionalidade limitada.
  2. Como faço para adicionar um novo agente?
    在 agents Catalogue para adicionar um novo código de agente MCP, atualizar o config.json, reinicie o serviço.
  3. Quais modelos de idioma são compatíveis?
    Suporte a OpenAI, Claude 3.7 Sonnet, Qwen 2.5 VL, etc. A chave de API precisa ser definida no arquivo de configuração.
  4. Como você lida com o fracasso da missão?
    sonda TROUBLESHOOTING.mdSe falhar, envie um problema para o GitHub. Se ainda assim falhar, envie um problema para o GitHub.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo