O Auto-Audio-Book é um projeto de código aberto Python 3.10+ criado pelo desenvolvedor zqq-nuli e hospedado na plataforma GitHub. A ferramenta, por meio da integração de tecnologia de modelos grandes (como Gemini e CosyVoice2-0.5B), realiza o processo completo da rede para rastrear o conteúdo do romance e gerar audiolivros com vários caracteres. O código do projeto é totalmente público, permitindo que os usuários façam o download e o modifiquem livremente, o que o torna particularmente adequado para entusiastas de tecnologia e produtores de audiolivros.
A arquitetura central contém cinco módulos tecnológicos principais: 1) um sistema de rastreamento da Web baseado na biblioteca de solicitações; 2) um mecanismo de análise de diálogo que usa a tecnologia de PNL; 3) uma interface de síntese de fala com várias funções; 4) um sistema de processamento de áudio baseado no ffmpeg; e 5) suporte opcional ao banco de dados MongoDB. Esse design modular torna o projeto altamente dimensionável e os desenvolvedores podem substituir facilmente os componentes nele contidos.
A partir da versão mais recente (0.5B), em março de 2025, o projeto ainda está em fase de desenvolvimento e a GUI ainda não está concluída, mas é possível concluir todo o fluxo de trabalho, desde o rastreamento até a geração, por meio da linha de comando. Um ambiente de tempo de execução típico requer Python 3.10+, a ferramenta de áudio ffmpeg e a chave de API do Big Model apropriada, que é especificada na documentação do projeto.
Essa resposta foi extraída do artigoUma ferramenta para rastrear automaticamente romances e gerar audiolivros com vários caracteresO































