Das Programm von WhiteLightning zum Schutz der Privatsphäre besteht aus drei Schichten von Schutzmaßnahmen:
- Keine echten DatenanforderungenTraining stützt sich vollständig auf synthetische Daten, die vom LLM generiert werden, ohne dass der Benutzer Geschäftsdaten zur Verfügung stellen muss.
- End-to-End-VerschlüsselungAPI-Schlüssel werden nur zur Datengenerierung während der Trainingsphase verwendet (über Dienste wie OpenRouter), das Modell selbst enthält keine Rohdaten!
- Läuft komplett offlineNach dem Training kann das Modell in einer vom Netz getrennten Umgebung verwendet werden, wodurch das Risiko der Datenübertragung in der Cloud vermieden wird.
Für sensible Bereiche wie Gesundheitswesen/Finanzen wird empfohlen, 1) privat eingesetzte LLMs zu verwenden, um Daten zu generieren 2) das Modell in einem isolierten Netzwerk zu trainieren 3) das Modell durch die --generate-edge-cases
Parametererweiterte Modelle sind in der Lage, Fachterminologie zu verarbeiten.
Diese Antwort stammt aus dem ArtikelWhiteLightning: ein Open-Source-Tool zur Erstellung von leichtgewichtigen Offline-Textklassifikationsmodellen mit einem KlickDie