Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Docstrange é uma ferramenta de processamento de documentos de código aberto que se concentra em extrair dados de documentos e imagens em vários formatos e convertê-los em formatos como Markdown, JSON, CSV ou HTML. Ele usa inteligência artificial e tecnologia avançada de OCR para dar suporte ao processamento de PDF, documentos do Word, tabelas do Excel, apresentações do PowerPoint, imagens e conteúdo da Web. Os usuários podem extrair rapidamente textos, tabelas ou campos específicos com operações simples de código ou linha de comando, o que o torna adequado para desenvolvedores, pesquisadores e usuários corporativos que trabalham com documentos complexos. A ferramenta é compatível com processamento local e em nuvem, garante a privacidade dos dados e a saída é claramente estruturada, o que a torna particularmente adequada para uso com modelos de linguagem ampla (LLMs). O Docstrange foi desenvolvido pela NanoNets, está hospedado no GitHub, é gratuito e fácil de integrar.

 

Lista de funções

  • Extraia texto e dados de PDF, Word, Excel, PowerPoint, imagens e páginas da Web.
  • Suporte para conversão do conteúdo extraído para os formatos Markdown, JSON, CSV, HTML e texto simples.
  • Oferece extração inteligente de campos que podem ser definidos pelo usuário para extrair informações específicas, como números de faturas ou termos de contratos.
  • Oferece suporte a definições de esquema JSON e gera dados que estão em conformidade com uma estrutura especificada pelo usuário.
  • Tecnologia avançada de OCR incorporada para processar texto em imagens e documentos digitalizados.
  • Oferece extração de tabelas, preservando a estrutura de tabelas complexas e convertendo-as em Markdown ou HTML.
  • Oferece suporte ao processamento local de CPU ou GPU para proteger a privacidade dos dados.
  • Fornece operação de linha de comando e API Python, adequada para a integração de desenvolvedores.
  • Oferece suporte ao processamento em lote de vários arquivos para aumentar a eficiência do trabalho.

Usando a Ajuda

Processo de instalação

Para usar o Docstrange, primeiro você precisa instalar o ambiente Python (recomenda-se o Python 3.8 ou superior). Em seguida, instale a biblioteca Docstrange seguindo estas etapas:

  1. Instalação do Docstrange
    Execute o seguinte comando em um terminal para instalar o Docstrange:

    pip install docstrange
    

    Depois de instalada, o usuário pode invocar a ferramenta a partir de um script Python ou da linha de comando.

  2. Obter chave de API (opcional)
    Se estiver usando o modo de processamento em nuvem, poderá se registrar e obter uma chave de API gratuita no site da NanoNets para aumentar o limite de processamento. Depois de obter a chave, você pode passar a linha de comando para o comando --api-key YOUR_API_KEY é especificado.
  3. Modo de processamento local (opcional)
    Se for necessário um processamento totalmente localizado, instale uma dependência que ofereça suporte a OCR nativo (por exemplo, Ollama). Execute o seguinte comando para ativar o processamento de CPU ou GPU:

    docstrange document.pdf --cpu-mode
    

    talvez

    docstrange document.pdf --gpu-mode
    

    Observação: o modo GPU requer um ambiente de hardware compatível com CUDA.

Uso

O Docstrange oferece duas maneiras principais de operar: a API do Python e a linha de comando. A seguir, descrevemos em detalhes como usar a funcionalidade principal.

Usando a API do Python

A API Python do Docstrange é adequada para que os desenvolvedores a integrem a projetos existentes. Aqui está um exemplo de extração do conteúdo de um arquivo PDF:

from docstrange import DocumentExtractor
# 初始化提取器(默认云端模式)
extractor = DocumentExtractor()
# 提取 PDF 文件并转换为 Markdown
result = extractor.extract("document.pdf")
markdown = result.extract_markdown()
print(markdown)
# 提取特定字段
fields = result.extract_data(specified_fields=["invoice_number", "total_amount"])
print(fields)
# 使用 JSON 模式提取结构化数据
schema = {
"contract_number": "string",
"parties": ["string"],
"total_value": "number"
}
structured_data = result.extract_data(json_schema=schema)
print(structured_data)

Os usuários podem escolher o formato de saída (Markdown, JSON, CSV, HTML) de acordo com suas necessidades. [](https://github.com/NanoNets/docstrange)

Usado na linha de comando

As operações de linha de comando são adequadas para o processamento rápido de arquivos. A seguir estão alguns comandos comuns:

  • Extraia arquivos PDF e produza para Markdown:
    docstrange document.pdf --output markdown
    
  • Extrai campos específicos e os gera como JSON:
    docstrange invoice.pdf --output json --extract-fields invoice_number total_amount
    
  • Processamento em lote de vários arquivos PDF:
    docstrange *.pdf --output markdown
    
  • Salve os resultados em um arquivo:
    docstrange document.pdf --output-file result.md
    

A linha de comando suporta combinações flexíveis de parâmetros, e os usuários podem especificar o formato de saída ou o modo de processamento de acordo com suas necessidades.

Operação da função em destaque

  1. Extração inteligente de campos
    O Docstrange permite que o usuário especifique os campos a serem extraídos, como o número da fatura, o valor ou a data do contrato. Por exemplo, ao processar faturas:

    docstrange invoice.pdf --output json --extract-fields invoice_number vendor_name total_amount
    

    A ferramenta identifica automaticamente os campos relevantes no documento e retorna dados JSON estruturados. Isso é ideal para cenários em que as principais informações precisam ser extraídas rapidamente.

  2. Extração de formulários
    Para documentos que contêm tabelas complexas, o Docstrange pode extrair com precisão as tabelas e convertê-las para o formato Markdown ou HTML. Por exemplo:

    result = extractor.extract("financial_report.pdf")
    html_table = result.extract_html()
    print(html_table)
    

    O formulário de saída mantém sua estrutura original e é adequado para uso direto em páginas da Web ou edição de documentos.

  3. modo de processamento local
    Para proteger a privacidade dos dados, os usuários podem ativar o modo de processamento local:

    extractor = DocumentExtractor(cpu=True)
    result = extractor.extract("document.pdf")
    print(result.extract_markdown())
    

    O modo local elimina a necessidade de enviar dados para a nuvem e é adequado para o processamento de documentos confidenciais.

  4. Suporte ao esquema JSON
    Os usuários podem definir esquemas JSON para garantir que os dados de saída estejam em conformidade com uma estrutura específica. Por exemplo, o processamento de documentos de contrato:

    schema = {
    "contract_number": "string",
    "parties": ["string"],
    "total_value": "number",
    "start_date": "string"
    }
    structured_data = result.extract_data(json_schema=schema)
    print(structured_data)
    

    Essa abordagem é adequada para cenários de saída de dados que exigem padronização.

advertência

  • O modo de nuvem requer uma conexão estável com a Internet e é recomendável usar uma chave de API para um processamento mais rápido.
  • O modo nativo requer a instalação de uma dependência adicional de OCR; consulte a documentação do GitHub para obter os requisitos específicos.
  • Atualmente, a ferramenta não oferece suporte ao processamento de documentos manuscritos e é adequada para o processamento de documentos impressos ou eletrônicos.

cenário do aplicativo

  1. pesquisa acadêmica
    Os pesquisadores podem usar o Docstrange para converter arquivos PDF de artigos acadêmicos em formato Markdown, preservando a estrutura de tabela e texto para análise posterior ou importação para uma base de conhecimento.
  2. gerenciamento financeiro
    Os usuários corporativos podem extrair campos-chave (por exemplo, valor, data) de faturas, recibos ou relatórios financeiros e exportá-los como JSON ou CSV para facilitar a importação para o software financeiro.
  3. Documentação legal
    Os advogados podem extrair rapidamente cláusulas-chave ou informações de assinatura de contratos para gerar dados estruturados e simplificar o processo de revisão de contratos.
  4. análise de dados
    Os analistas de dados podem extrair tabelas de páginas da Web ou arquivos do Excel em formato CSV para visualização de dados ou treinamento de modelos de aprendizado de máquina.

QA

  1. Quais formatos de arquivo são compatíveis com o Docstrange?
    Ele suporta a extração de dados de PDF, Word, Excel, PowerPoint, imagens (PNG, JPG, etc.) e URLs de páginas da Web.
  2. Como você garante a privacidade dos dados?
    Os usuários podem escolher entre os modos de processamento de CPU local ou GPU, e os dados não são carregados na nuvem, o que o torna adequado para lidar com documentos confidenciais.
  3. Tenho que pagar para usá-lo?
    O Docstrange é uma ferramenta de código aberto e de uso gratuito. O modo de nuvem requer o registro de uma conta NanoNets para obter chaves de API, e as contas gratuitas têm limites de uso.
  4. Você consegue lidar com documentos manuscritos?
    Atualmente, o Docstrange suporta principalmente documentos impressos ou eletrônicos, com tratamento limitado de documentos manuscritos.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil