O LangExtract foi projetado com recursos inteligentes de processamento paralelo e de fragmentação para processar com eficiência textos muito longos, como romances inteiros ou relatórios médicos. Por max_workers
controla o número de threads simultâneas e oferece suporte a várias rodadas de extração (num_passes
) para aumentar a precisão. Por exemplo, ao processar o texto completo de Romeu e Julieta, o sistema divide o texto e o analisa em paralelo, gerando um resultado unificado no formato JSONL.
Essa resposta foi extraída do artigoLangExtract: ferramenta de código aberto para extrair dados estruturados de textosO