Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Web Crawler é uma ferramenta de rastreamento da Web de código aberto que é executada como uma interface de linha de comando (CLI) e fornece aos usuários um canal conciso e em tempo real para pesquisar informações na Internet. A ferramenta foi projetada especificamente para pesquisar na Web com base nas palavras-chave de consulta inseridas pelo usuário e gerar os resultados no formato JSON (contendo o título, o URL e a data de lançamento) diretamente no terminal, na ordem do tempo de lançamento, do mais próximo ao mais distante. Esse projeto faz parte da organização "financial-datasets", que se dedica a fornecer APIs e ferramentas de dados financeiros fáceis de usar para modelos de linguagem grande (LLMs) e agentes de inteligência artificial (agentes de IA). Esse rastreador da Web, como membro de seu conjunto de ferramentas, foi projetado para rastrear de forma rápida e eficiente as informações mais recentes da Internet para fornecer entrada de dados brutos para análise de dados subsequente e aplicativos de IA.

 

Lista de funções

  • Pesquisa na Web em tempo realPesquisa: recebe qualquer termo de consulta inserido pelo usuário por meio da interface de linha de comando e executa a pesquisa imediatamente.
  • Saída no formato JSONOs resultados da pesquisa são retornados em um formato JSON estruturado, cada um contendo otitle(Título),url(site da Web) epublished_date(data de lançamento) três campos.
  • Classificar por pontualidadeOs resultados de pesquisa retornados são classificados estritamente de acordo com a data de publicação para garantir que os usuários vejam primeiro as informações mais atualizadas.
  • Consultas interativasPesquisa contínua: A ferramenta oferece suporte à pesquisa contínua. Após concluir uma pesquisa, os usuários podem inserir imediatamente novas palavras-chave para a próxima pesquisa sem reiniciar o programa.
  • Compatibilidade entre plataformasBaseado no desenvolvimento do Python, ele pode ser executado em qualquer ambiente que suporte o Python 3.12+.
  • Mecanismos de saída simplesO usuário pode inserir um nome digitandoqequiteexitou use a tecla de atalhoCtrl+Cpara sair facilmente do programa.

Usando a Ajuda

A ferramenta é um programa de linha de comando leve que não requer nenhuma instalação ou configuração complexa para ser iniciada rapidamente. Veja abaixo um procedimento detalhado de instalação e uso.

Preparação ambiental

Antes de começar, certifique-se de que os dois programas de software essenciais a seguir estejam instalados em seu computador:

  1. PythonRequisitos da versão: Os requisitos da versão são 3.12 Ou superior.
  2. uvFerramenta de instalação e gerenciamento de pacotes Python: uma ferramenta rápida de instalação e gerenciamento de pacotes Python.

Etapas de instalação

  1. Repositório de código clone
    Abra seu terminal (ferramenta de linha de comando) e use o comando git clona o código-fonte do projeto do GitHub para seu computador local.

    git clone https://github.com/financial-datasets/web-crawler.git
    
  2. Vá para o diretório do projeto
    Após a conclusão da clonagem, use o comando cd na pasta do projeto que você acabou de criar.

    cd web-crawler
    

programa de corrida

Quando você estiver no diretório raiz do projeto (web-crawler), você pode executar diretamente o seguinte comando para iniciar essa ferramenta de rastreamento da Web:

uv run web-crawler

uv run trata automaticamente da instalação de dependências e da configuração do ambiente virtual exigido pelo projeto, seguido pelo lançamento do aplicativo principal.

fluxo de trabalho

  1. Insira uma consulta
    Quando o programa é iniciado, o terminal solicita que você digite o que deseja pesquisar. Você pode digitar qualquer palavra-chave de seu interesse, por exemplo, para procurar as atas da última reunião de lucros da Apple:

    Enter your search (e.g., "AAPL latest earnings transcript"):
    

    Digite sua consulta aqui e pressione Enter.

  2. Exibir resultados
    O programa inicia a pesquisa imediatamente e imprime os resultados na tela como uma lista de objetos JSON em poucos segundos. Cada objeto JSON representa um resultado de pesquisa, contendo o título, o URL e a data de publicação.

    Por exemplo, os resultados de uma pesquisa podem ser parecidos com os seguintes:

    [
    {
    "title": "Apple Inc. (AAPL) Q3 2025 Earnings Call Transcript",
    "url": "https://example.com/aapl-q3-2025-transcript",
    "published_date": "2025-07-30"
    },
    {
    "title": "Analysis of Apple's Latest Financial Report",
    "url": "https://example-news.com/aapl-q3-analysis",
    "published_date": "2025-07-29"
    }
    ]
    
  3. Continuar ou retirar
    • Continuar pesquisandoNo final de uma consulta, o programa exibirá novamente o prompt de entrada e você poderá inserir diretamente novas palavras-chave para a próxima pesquisa.
    • procedimento de exclusãoSe quiser encerrar o uso, você pode digitar após o prompt de entrada qequit talvez exit e pressione Enter. Como alternativa, você sempre pode usar o atalho de teclado Ctrl+C para forçar uma interrupção e sair do programa.

cenário do aplicativo

  1. Analistas e pesquisadores financeiros
    Os analistas podem usar essa ferramenta para obter rapidamente os mais recentes relatórios de lucros, comunicados à imprensa, análises de mercado e entrevistas com executivos de uma determinada empresa. Por exemplo, digite o código de uma empresa e "earnings transcript" para obter rapidamente um link para o texto da última reunião de ganhos, fornecendo dados oportunos para apoiar a modelagem financeira e as decisões de investimento.
  2. Entrada de dados para agentes de IA e grandes modelos de linguagem
    A ferramenta pode ser usada como parte de um fluxo de trabalho automatizado para fornecer feeds de dados em tempo real para agentes de IA. Por exemplo, um agente de IA usado para escrever resumos de mercado poderia chamar esse rastreador para obter links para as últimas notícias sobre um setor ou uma empresa específica e, em seguida, acessar esses links para resumir e gerar um relatório.
  3. Desenvolvedores de software e cientistas de dados
    Os desenvolvedores podem integrar esse rastreador em seus aplicativos para monitorar informações da Web sobre tópicos específicos. Por exemplo, crie um sistema de monitoramento de opinião pública para coletar os últimos comentários de usuários e relatórios da mídia consultando regularmente palavras-chave relacionadas a um produto.
  4. Jornalistas e jornalistas
    Os jornalistas podem usar a ferramenta para acompanhar os desenvolvimentos mais recentes dos eventos de notícias de última hora. Ao inserir palavras-chave de eventos, os links para relatórios de diferentes fontes de notícias podem ser rapidamente obtidos e organizados em uma linha do tempo, mantendo-se assim a par dos eventos de maneira eficiente.

QA

  1. Essa ferramenta faz buscas em toda a Web?
    Atualmente, a ferramenta utiliza a API de pesquisa do DuckDuckGo para recuperação de informações, o que teoricamente poderia abranger uma ampla gama de conteúdo da Internet. No entanto, o roteiro de desenvolvimento futuro planeja incluir mais fontes de dados, como o Bing e o Reddit, para expandir ainda mais a amplitude e a diversidade da pesquisa.
  2. Por que os resultados da pesquisa estão no formato JSON?
    O JSON é um formato de troca de dados leve, fácil de ler e escrever, que também é fácil para as máquinas analisarem e gerarem. Para os desenvolvedores, esse formato é muito amigável e é fácil usar a saída dessa ferramenta como entrada para outros programas, facilitando os processos de processamento automatizados.
  3. Esse projeto pode ser usado para rastrear sites que exigem login ou têm carregamento complexo de JavaScript?
    A versão atual é limitada em sua capacidade de lidar com sites que exigem muito JavaScript para carregar conteúdo dinamicamente (como alguns dos principais sites de notícias financeiras). Essa é uma das tarefas conhecidas, e as versões futuras estão planejadas para aprimorar a análise de conteúdo para essas páginas "pesadas em JavaScript".
  4. Sou um desenvolvedor, posso contribuir para este projeto?
    Com certeza. Este é um projeto de código aberto e a ajuda e as contribuições da comunidade são muito bem-vindas. O roteiro oficial menciona várias direções em que a ajuda é necessária, incluindo, mas não se limitando a: aprimoramento da análise de páginas JavaScript, integração de grandes modelos de linguagem para resumo de conteúdo, adição de novas fontes de dados e aumento da velocidade por meio de consultas paralelas.
0Marcado
0Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil