Com base em seu protocolo de código aberto do MIT, as extensões de funcionalidade disponíveis para os usuários incluem:
- Modificações na funcionalidade principal::
- Ajuste das combinações de teclas de atalho no main.py (modificação)
pynput.keyboard.Controller(Configuração) - Alterar o limite de tempo de gravação (nenhuma configuração de tempo limite por padrão)
- Adicionar módulo de pré-processamento de áudio para melhorar a taxa de reconhecimento
- Ajuste das combinações de teclas de atalho no main.py (modificação)
- Personalização da interface::
- Modificar o estilo da GUI do prompt de gravação (arquivo CSS)
- Adicionar janela de visualização de texto em tempo real
- Adicionar suporte à interface em vários idiomas
- aprimoramento da modelagem::
- Integração com outros modelos de reconhecimento de fala (por exemplo, Whisper)
- Treinar modelos personalizados para terminologia
- Suporte estendido para reconhecimento de dialetos ou sotaques específicos
Os desenvolvedores também podem enviar uma solicitação de pull do GitHub para mesclar as melhorias na ramificação principal. Recomenda-se que as alterações importantes que exigem fundamentos de aprendizado de máquina consultem a documentação oficial do Parakeet, e as alterações que envolvem aceleração de hardware exigem familiaridade com os recursos da estrutura MLX.
Essa resposta foi extraída do artigoVery Fast Dictation: uma ferramenta rápida de conversão de voz em texto para MACsO































