O WeClone oferece um processo completo de pré-processamento de dados:
- Exportação de dadosPrimeiro, é necessário usar a ferramenta PyWxDump para descriptografar o banco de dados do WeChat e selecionar o formato CSV para exportar registros específicos de contatos ou de bate-papo em grupo.
- Preparação de dadosColoque a pasta CSV exportada (caminho padrão wxdump_tmp/export/csv) no diretório do projeto em . /data/csv
- conversão de formatoExecute o script csv_to_json.py incluído para converter os dados no formato de treinamento JSON
- Filtragem de informações confidenciaisOs usuários podem adicionar palavras desabilitadas personalizadas em blocked_words.json
Observação: 1) Recomenda-se preparar pelo menos 2.000 dados de diálogos de alta qualidade; 2) Os dados de bate-papo em grupo precisam ser filtrados manualmente para obter diálogos válidos; 3) O formato de dados de exemplo pode ser consultado em data/example_chat.csv.
Essa resposta foi extraída do artigoWeClone: treinamento de doppelgangers digitais com registros de bate-papo e vozes do WeChatO





























