O WeClone fornece uma cadeia completa de ferramentas de pré-processamento de dados que pode processar automaticamente informações confidenciais nos registros de bate-papo do WeChat. Por padrão, o sistema filtrará o conteúdo de privacidade pessoal, como números de telefone celular e números de identificação, para garantir a segurança dos dados de treinamento.
Em termos de implementação técnica, o projeto inclui um script csv_to_json.py especial que converte os dados exportados do bate-papo do WeChat em formato JSON adequado para o treinamento do modelo. O arquivo de configuração blocked_words.json também é fornecido para permitir que os usuários personalizem a lista de informações confidenciais a serem filtradas. Qualquer passagem de diálogo que contenha palavras desabilitadas será automaticamente removida para evitar vazamento de privacidade.
Além disso, o projeto sugere a preparação de pelo menos 2.000 registros de bate-papo de alta qualidade como dados de treinamento, e a quantidade e a qualidade dos dados afetam diretamente o desempenho do doppelganger digital final.
Essa resposta foi extraída do artigoWeClone: treinamento de doppelgangers digitais com registros de bate-papo e vozes do WeChatO































