O recurso de extração de formulários do Docstrange tem as seguintes características:
- Capacidade de identificar e extrair com precisão estruturas complexas de tabelas, incluindo cabeçalhos de tabelas de vários níveis, células mescladas, etc.
- Suporte para conversão de tabelas em vários formatos:
- Formato Markdown: para facilitar a edição de documentos e o gerenciamento do conhecimento
- Formato HTML: pode ser usado diretamente para apresentação na Web
- Formato CSV: adequado para análise de dados e importação para bancos de dados
- Manter a estrutura completa e os relacionamentos de dados da tabela original
Por exemplo, uma API Python pode ser usada no processamento de demonstrações financeiras:html_table = result.extract_html()
Obtenha o código completo da tabela HTML ou produza a tabela no formato Markdown diretamente da linha de comando.
Essa resposta foi extraída do artigoDocstrange: uma ferramenta para extrair dados de documentos e imagens e convertê-los em vários formatosO