A Kreuzberg amplia seus recursos de extração de texto para formatos que não sejam PDF, integrando-se à ferramenta de conversão de documentos Pandoc. Esse recurso resolve o problema da heterogeneidade de dados comum em ambientes corporativos:
- Suporte à extração de conteúdo de documentos do Office (Word/Excel/PowerPoint)
- Manipulação de arquivos Markdown, HTML e outras linguagens de marcação
- Compatível com a conversão do formato de eBook EPUB
Mecanismos para a realização da tecnologia:
- Chamada da interface de linha de comando do Pandoc para conversão de formato
- Conformidade com a especificação da licença GPL v2.0
- Manter a estrutura original do documento e as informações de estilo
Valores típicos de aplicação:
- Integração de dados de várias fontes para bases de conhecimento corporativas
- Comparação de conteúdo de documentos entre formatos
- Pré-processamento de tarefas de extração de informações
Esse recurso torna o Kreuzberg uma solução de extração de texto verdadeiramente universal.
Essa resposta foi extraída do artigoKreuzberg: ferramenta de código aberto para extrair texto de qualquer documentoO































