A versão atual adota uma estratégia conservadora para lidar com conteúdo dinâmico, principalmente por meio da API de pesquisa para obter metadados básicos. No entanto, a documentação técnica revelou que a versão 2.0 introduzirá o Playwright para obter uma simulação completa do ambiente do navegador e planeja romper a barreira de renderização JS em três estágios: o primeiro estágio adiciona uma função de instantâneo do DOM para capturar o estado inicial do aplicativo SPA; o segundo estágio integra o LLM para extração de texto do corpo e resolve o problema de interferência com elementos flutuantes; e, por fim, implementa a análise em nível de componente com base no React/Vue para Extrair com precisão estruturas complexas, como tabelas de dados de relatórios financeiros.
Essa solução incremental decorre dos desafios específicos dos sites financeiros: por exemplo, o Bloomberg.com precisa lidar com fluxos de dados WebSocket em tempo real, e o Benzinga.com usa um módulo de comentários de carregamento lento. Os dados de teste mostram que a versão protótipo alcançou uma precisão de 92% para a extração de corpos de artigos do Seeking Alpha, uma melhoria de 47 pontos percentuais em relação às soluções xpath tradicionais. Os desenvolvedores da comunidade estão ampliando o suporte ao Puppeteer e ao Selenium por meio do sistema de plug-ins.
Essa resposta foi extraída do artigoWeb Crawler: uma ferramenta de linha de comando para pesquisa em tempo real de informações da InternetO































