Sistema de defesa de filtragem de informações em três níveis
Para cenários confidenciais, como contratos/médicos, é recomendável configurar as seguintes medidas de proteção:
nível de proteção | método operacional | Descrição do efeito |
---|---|---|
dessensibilização de metadados | ingest_file(..., rules=[{"type":"metadata_extraction", "schema":{"patient_id":"redact"}}]) |
Substituição automática de campos, como carteira de identidade de 18 dígitos, por *** |
limpeza de conteúdo | Adição de regras
{"type":"natural_language", "prompt":"删除所有电话号码和邮箱"} |
Identificar e remover informações de PII com base em NLP |
controle de acesso | existirstart_server.py ativar--auth-token parâmetros |
Forçar as chamadas de API a carregar tokens JWT |
Observação: 1) O processamento de vídeo requer uma chamada adicional para oenable_face_blur=True
2) O registro de auditoria precisa ser usado regularmenteexport_audit_log()
Backup.
Essa resposta foi extraída do artigoMorphik Core: uma plataforma RAG de código aberto para processamento de dados multimodaisO