Histórico da questão
A solução de tecnologia dupla da Audibit garante a pronúncia precisa de artigos de tecnologia, que geralmente contêm termos de programação (por exemplo, Kubernetes), símbolos matemáticos e outros conteúdos especiais que podem ser facilmente mal interpretados por mecanismos TTS convencionais.
Caminhos de soluções tecnológicas
- estágio de pré-tratamento::
- Adicionar regras de substituição de termos antes das chamadas da API da OpenAI (editar src/utils/textProcessor.js)
- Ativar o isolamento da tag
para trechos de código
- Seleção do motor::
- O conteúdo técnico é priorizado usando a Biblioteca de voz acadêmica da Lemonfox.
- O conteúdo comum usa o modelo "whisper-large" da OpenAI
Programa de manutenção
Crie um repositório de terminologia personalizado (armazenado em public/glossary.json) que possa ser complementado com novos termos pelos usuários da comunidade por meio de Pull Request. Sugestões de termos especializados que aparecem de forma consistente:
- Adição de anotações fonéticas ao campo de pronúncia no banco de dados do Firestore
- Identificação de termos semelhantes para processamento unificado por meio da pesquisa vetorial Pinecone
Quando forem encontrados problemas imediatos, eles podem ser resolvidos temporariamente usando o método de anotação pinyin (por exemplo, @pragma → [praegma]).
Essa resposta foi extraída do artigoAudibit: transformando artigos populares de tecnologia em podcasts de áudio prontos para serem ouvidosO