Mecanismos de garantia da qualidade dos dados
A razoabilidade dos dados é garantida por meio de um sistema de validação de três níveis:
- Controle de pré-processamento::
Adicione o parâmetro VALIDATION_RULES ao .env.local para definir regras comerciais (por exemplo, "order_date >= customer_join_date") - calibração em tempo real::
Ative o parâmetro -strict-mode para interromper automaticamente a geração quando a proporção de dados anômalos exceder 5% - Verificação posterior::
Use o script validate.py incorporado para executar verificações de asserção SQL (por exemplo, "SELECT COUNT(*) WHERE age < 0″)
Os problemas típicos são tratados:
- Para referências circulares: adicione o sinalizador -no-circular-deps no momento da geração.
- Problemas com valores fora dos limites: configuração de restrições fields.price.min=0 fields.price.max=10000
- Use o parâmetro -sampling-ratio=0,1 para gerar uma pequena amostra para validação.
A solução foi testada para reduzir a taxa de erro de lógica de dados para menos de 0,21 TP3T
Essa resposta foi extraída do artigoMetabase AI Dataset Generator: gere rapidamente conjuntos de dados reais para demonstração e análiseO































