O programa de proteção de privacidade do WhiteLightning consiste em três camadas de salvaguardas:
- Nenhum requisito de dados reaisTreinamento: O treinamento se baseia inteiramente em dados sintéticos gerados pelo LLM, sem a necessidade de o usuário fornecer quaisquer dados comerciais.
- criptografia de ponta a pontaAs chaves de API são usadas apenas para a geração de dados durante a fase de treinamento (por meio de serviços como o OpenRouter), o modelo em si não contém dados brutos!
- Funciona totalmente off-lineApós o treinamento, o modelo pode ser usado em um ambiente desconectado da rede, evitando o risco de transferência de dados na nuvem.
Para domínios sensíveis, como saúde/finanças, recomenda-se 1) usar LLMs implantados de forma privada para gerar dados 2) treinar o modelo em uma rede isolada 3) treinar o modelo por meio do --generate-edge-cases
Os modelos aprimorados por parâmetros são capazes de lidar com terminologia especializada.
Essa resposta foi extraída do artigoWhiteLightning: uma ferramenta de código aberto para gerar modelos leves de classificação de texto off-line em um cliqueO