O subsistema de processamento de documentos da Simba usa filas de tarefas distribuídas do Celery para realizar a análise assíncrona em tempo real de documentos em vários formatos. O mecanismo oferece suporte à conversão automática de 15 formatos de documentos, como Markdown, PDF, Word etc., processa documentos digitalizados por meio da tecnologia OCR e, de forma inovadora, usa LLM para extração estruturada do conteúdo do formulário. O processo de processamento introduz mecanismos de controle de qualidade, incluindo verificação de formato, eliminação de duplicação de conteúdo e verificação de integridade semântica.
Em cenários típicos de aplicativos, o sistema pode processar 50 documentos técnicos padrão por minuto com uma taxa de precisão de até 98,71 TP3T. Os resultados da análise constroem automaticamente um índice triplo: armazenamento de texto original para recuperação precisa, vetorização de partes para dar suporte à pesquisa semântica e extração de relações de gráficos de conhecimento para obter raciocínio associativo. Esse paradigma de processamento reduz o consumo de tempo de ETL do gerenciamento tradicional de documentos de horas para minutos.
Essa resposta foi extraída do artigoSimba: um sistema de gerenciamento de conhecimento para organizar documentos, perfeitamente integrado a qualquer sistema RAG.O































