O sistema de transcrição do Whisper App usa uma arquitetura de tecnologia de várias camadas com os seguintes recursos distintos:
- combinação de modelos::
- O front-end usa o modelo Whisper da Together.ai para conversão básica de fala em texto, suportando até 5 minutos de gravação contínua.
- Integração de back-end com o modelo Llama para pós-processamento de texto, incluindo correção gramatical e otimização de formatação
- mecanismo multilíngueCapacidade multilíngue baseada no modelo Whisper para lidar com entrada mista em idiomas comuns, como chinês, inglês, espanhol, etc.
- processamento on-lineSincronização do estado e controle de versão durante a transcrição por meio de serviços de banco de dados em tempo real fornecidos pela Convex.
- Controle de precisãoRecomendado para uso em ambientes silenciosos, o sistema reconhece e filtra automaticamente os ruídos que não são de voz (por exemplo, toques no teclado)
Em termos de limitações técnicas, a versão atual depende da configuração de parâmetros do Together.ai para o reconhecimento da terminologia, e a precisão do reconhecimento do dialeto é de aproximadamente 75%. As versões futuras planejam adicionar um mecanismo de cache de modelo local para reduzir a dependência da rede.
Essa resposta foi extraída do artigoAplicativo Whisper: organizador gratuito de notas de voz para texto e IAO































