As etapas para instalar e usar o Docstrange estão listadas abaixo:
- Certifique-se de que o Python 3.8 ou superior esteja instalado
- Instale a biblioteca Docstrange via pip:
pip install docstrange
- Selecione o modo de processamento:
- Modo de nuvem (padrão): nenhuma configuração adicional é necessária, mas você pode registrar a NanoNets para obter uma chave de API para aumentar o limite
- Modo nativo: as dependências de OCR (por exemplo, Ollama) precisam ser instaladas, use a opção
--cpu-mode
talvez--gpu-mode
parâmetros
- Comece a trabalhar com documentos por meio da API do Python ou da linha de comando
Por exemplo, o comando básico PDF to Markdown:docstrange document.pdf --output markdown
O uso mais detalhado pode ser encontrado na documentação do GitHub.
Essa resposta foi extraída do artigoDocstrange: uma ferramenta para extrair dados de documentos e imagens e convertê-los em vários formatosO