A plataforma suporta o processamento de seis tipos principais de fontes de dados heterogêneas com os seguintes recursos:
- classe de arquivoIncluindo PDF (extração de parágrafos e tabelas), Word (preservação da conversão de formatação), TXT (reconhecimento automático de codificação)
- imagensJPG/PNG e outros formatos comuns, suporte para reconhecimento de texto OCR e extração de metadados
- aula de áudioMP3/WAV, etc., com geração automática de legendas na linha do tempo (por exemplo, formato "00:01-opener")
- tipo de vídeoMP4/MOV, etc., enquanto extrai informações de quadro visual (miniatura) e fala para texto
- categoria webSuporte para páginas renderizadas dinamicamente, envios de formulários, carregamento em cascata e outras estruturas complexas
- Dados da APIAnálise direta de respostas JSON/XML, suporte para mapeamento de campos personalizados
Em termos de capacidade de arquivo, a plataforma usa a tecnologia de processamento segmentado:
- A versão básica suporta arquivos únicos de ≤200 MB.
- O Enterprise Edition pode processar mais de 500 MB de vídeo 4K ou centenas de páginas de documentos jurídicos
- Arquivos de tamanho grande serão processados automaticamente em partes, o status do processamento é exibido por meio da barra de progresso, suporte para transferência intermitente
É importante observar que o processamento de áudio e vídeo consumirá mais recursos do Token, e é recomendável vincular modelos externos (por exemplo, o Whisper da OpenAI) para aumentar a eficiência. Para dados confidenciais, a versão de implantação privada pendente do Docker fornecerá recursos de processamento totalmente off-line.
Essa resposta foi extraída do artigoSupametas.AI: extração de dados não estruturados em dados altamente disponíveis do LLMO