Programa de implantação de conversão de fala em texto totalmente off-line
Para cenários médicos e financeiros que exigem que os dados não estejam fora deste mundo, as seguintes etapas podem ser adotadas para criar um ambiente seguro:
- isolamento ambiental::
- Criação de imagens off-line com o Docker:
docker build --network none -t local-asr .
- Desativar todas as interfaces de rede (ifdown eth0)
- Desativar o download automático do modelo (Configurações)
HF_HUB_OFFLINE=1
)
- Criação de imagens off-line com o Docker:
- <strong]Preparação de recursos::
- Faça o download prévio do modelo do whisper no diretório . /models
- Instale todas as dependências off-line (pip download -r requirements.txt)
- Uso de pacotes binários do ffmpeg armazenados em cache localmente
- aprimoramento da segurança::
- Configuração da criptografia de memória (dm-crypt)
- Ativar a auditoria do registro de transcrição
- Adicionar um parâmetro de cache de limpeza automática (
auto_flush=True
)
- <strong]Métodos de validação::
- estar em movimento
netstat -tulnp
Confirmação de que não há conexões externas - Verificação usando a captura de pacotes do wireshark
- Verificar. O diretório /cache está livre de dados confidenciais
- estar em movimento
A solução foi aprovada no teste de segurança Equalisation Level 3 e é adequada para lidar com dados confidenciais HIPAA/GDPR. A implantação leva cerca de 2 horas e requer 10 GB de armazenamento reservado.
Essa resposta foi extraída do artigoFerramenta de código aberto para conversão de fala em texto em tempo realO