O OpenWispr é um aplicativo de desktop de código aberto de conversão de fala em texto baseado na tecnologia OpenAI Whisper que converte rapidamente a fala do usuário em texto. Ele oferece opções de processamento local e em nuvem, com ênfase na proteção da privacidade, e os dados podem ser deixados totalmente locais. Os usuários podem iniciar rapidamente o ditado com uma tecla de atalho global e o texto é colado automaticamente na posição do cursor, o que o torna adequado para escrita, programação, anotações de reuniões etc. O OpenWispr é compatível com a operação em várias plataformas (macOS, Windows, Linux) e oferece uma variedade de opções de modelos, equilibrando velocidade e precisão. Sua interface moderna e os painéis arrastáveis melhoram a experiência, e o modelo de desenvolvimento orientado pela comunidade permite que os usuários personalizem livremente.
Lista de funções
- A conversão de fala em texto em tempo real cola automaticamente o texto transcrito na posição do cursor.
- Com suporte ao processamento local, os dados de voz não são carregados na nuvem para garantir a privacidade e a segurança.
- Oferece opções de processamento em nuvem para transcrição mais rápida por meio da API OpenAI.
- Teclas de atalho globais (aspas padrão)
`
) Início/parada rápida do ditado. - O painel de ditado pode ser arrastado para ajustar livremente a posição da tela.
- Suporta vários modelos de Whisper (minúsculo, básico, pequeno, médio, grande) para atender a diferentes necessidades.
- Fornece a funcionalidade de nomeação de agentes para personalizar os nomes dos assistentes de IA, suportando a distinção entre comando e ditado regular.
- Painel de controle integrado para gerenciar configurações, visualizar o histórico de transcrição e configurar chaves de API.
- Use um banco de dados SQLite para armazenar o histórico de transcrição localmente para facilitar a visualização e o gerenciamento.
- Suporte a várias plataformas, compatível com macOS, Windows e Linux.
- Código-fonte aberto, sob a licença MIT, permitindo modificação e distribuição gratuitas.
Usando a Ajuda
Processo de instalação
O OpenWispr está disponível em uma versão de código aberto que requer instalação manual e é adequado para usuários técnicos ou para aqueles que precisam personalizar. Veja abaixo as etapas detalhadas:
Instalação da Open Source Edition
- Código de clonagem: Acesso
https://github.com/HeroTools/open-wispr
Execute o seguinte comando:git clone https://github.com/HeroTools/open-wispr.git cd open-wispr
- Instalação de dependênciasVerifique se o Node.js 18+ e o npm estão instalados localmente e execute:
npm install
- Ambiente de configuração(Opcional, a chave da API da OpenAI é necessária para o processamento na nuvem):
- Copie o arquivo de modelo de ambiente:
cp env.example .env
- compilador
.env
adicione a chave da API da OpenAI:OPENAI_API_KEY=your_openai_api_key_here
- Ou configure a chave por meio do painel de controle (operado após o lançamento do aplicativo).
- Copie o arquivo de modelo de ambiente:
- Configuração de processamento local(Opcional):
- Certifique-se de que o Python 3.7+ esteja instalado (o programa o instala automaticamente).
- Faça o download dos modelos do Whisper (minúsculo, básico, pequeno, médio, grande) por meio do painel de controle.
- programa de corrida::
- Modo de desenvolvimento (suporte a hot reload):
npm run dev
- Modelo de produção:
npm start
- Modo de desenvolvimento (suporte a hot reload):
- Verificar a instalaçãoApós a inicialização, clique no ícone da bandeja do sistema para abrir o painel de controle e verificar o status ou pressione a tecla de atalho padrão
`
Teste de ditado.
Criação de aplicativos autônomos (opcional)
Se precisar gerar um executável autônomo:
- Execute o seguinte comando:
npm run pack
- Caminho de saída:
- macOS:
dist/mac-arm64/OpenWispr.app
- Windows:
dist/win-unpacked/OpenWispr.exe
- Linux:
dist/linux-unpacked/open-wispr
- macOS:
- tomar nota deNa primeira vez que você executar um aplicativo não assinado no macOS, talvez seja necessário clicar com o botão direito do mouse e selecionar "Abrir" para ignorar o aviso de segurança.
Configurações de permissão
- Autoridade de microfoneConcede acesso ao microfone do OpenWispr na primeira vez em que é executado.
- Permissões de acessibilidade (macOS)Para o recurso AutoPaste, você precisa ativar o OpenWispr em Configurações do sistema > Privacidade e segurança > Acessibilidade.
- Se o problema de permissões persistir, abra o Painel de Controle e clique em "Fix Permission Issues" (Corrigir problemas de permissão) para corrigi-lo.
Funções principais
conversão de fala para texto em tempo real
- Inicie o OpenWispr e a tela exibirá um pequeno painel de ditado arrastável.
- Pressione a tecla de atalho global (padrão)
`
), o painel exibe a animação de gravação e começa a falar. - Pressione a tecla de atalho novamente para interromper a gravação, o painel exibirá a animação de processamento e o texto transcrito será automaticamente colado na posição do cursor.
- Arraste o painel para qualquer posição na tela para facilitar a operação com várias janelas.
Seleção do tratamento
- Abra o Painel de Controle (clique com o botão direito do mouse no ícone da bandeja do sistema > Painel de Controle).
- Selecione o modo de processamento:
- processamento localDownload de modelos Whisper (pequeno é o mais rápido, grande é a mais alta qualidade) sem que os dados saiam do dispositivo.
- processamento em nuvemDigite a chave da API da OpenAI para um processamento mais rápido, é necessária uma conexão de rede.
- O modo entra em vigor imediatamente após você salvar as configurações.
nomeação de proxy
- Nomeie o assistente de IA (por exemplo, "Jarvis") na configuração inicial ou no Painel de Controle.
- Use comandos do agente (por exemplo, "Hey Jarvis, formate como lista") para acionar a função de assistência da IA.
- O ditado regular não precisa chamar o nome do agente e grava o texto diretamente.
- A IA detecta automaticamente os comandos com ditado regular e remove os nomes dos agentes da saída.
Gerenciamento do histórico de transcrição
- Abra o painel de controle e clique em "History" (Histórico) para visualizar todos os registros de transcrição.
- Oferece suporte à cópia, exclusão ou pesquisa de transcrições históricas.
- Todos os registros são armazenados em um banco de dados SQLite local com o caminho no diretório de dados do usuário.
Teclas de atalho personalizadas
- Na seção "Settings" (Configurações) do painel de controle, clique na opção "Hotkey" (Tecla de atalho).
- Pressione a nova combinação de teclas (por exemplo
Ctrl+Alt+V
) e salve-o. - Se houver um conflito de teclas de atalho, você sempre poderá alterá-las para qualquer tecla.
Operação da função em destaque
Processamento local de sussurros
- Selecione "Local Processing" (Processamento local) no painel de controle.
- O programa detecta automaticamente o ambiente Python e solicita que você instale o Python 3.11 se ele estiver ausente.
- Selecione o modelo (pequeno/base/pequeno/médio/grande) e faça o download automaticamente (39 MB a 1,5 GB).
- Verifique se você tem espaço suficiente em disco e se o modelo pode ser usado off-line após o download.
processamento em nuvem
- Insira uma chave de API OpenAI válida no painel de controle.
- Selecione o modo de processamento em nuvem e o programa processará a fala por meio da API OpenAI Whisper.
- Verifique o status da chave de API (o painel de controle mostra "OpenAI API Key present: Yes/No").
interface arrastável
- Clique na parte superior do painel de ditado e arraste-o para qualquer lugar da tela.
- Se o painel se mover para fora da tela, reiniciar o aplicativo redefinirá a posição.
Suporte a várias plataformas
- O OpenWispr é compatível com macOS 10.15+, Windows 10+ e Linux.
- Em qualquer editor de texto (por exemplo, VS Code, Notion) ou navegador, pressione a tecla de atalho para inserir o texto.
- Certifique-se de que as permissões de acessibilidade estejam ativadas para suportar a colagem automática entre aplicativos.
advertência
- O processamento local requer um dispositivo de alto desempenho (recomenda-se 8 GB de RAM e CPU rápida).
- O processamento em nuvem requer uma rede estável e uma chave de API OpenAI válida.
- sonda
DEBUG.md
para obter registros de depuração e resolver problemas operacionais. - Se a função de microfone ou colar não funcionar, verifique as configurações de permissão do sistema.
cenário do aplicativo
- Redação eficaz
Os escritores ou criadores de conteúdo podem gerar rapidamente o primeiro rascunho de um artigo por voz. As teclas de atalho globais e o recurso de colagem automática do openWispr permitem uma digitação suave e são adequados para blogs, reportagens ou redação de romances. - nota de programação
Os desenvolvedores podem usar a voz para gravar rapidamente comentários de código ou documentação técnica. O suporte a várias plataformas garante uma operação perfeita em editores como o VS Code, PyCharm e outros. - procedimentos
Estudantes ou profissionais podem gravar reuniões por voz, o modo de processamento local protege informações confidenciais e a função de gravação de histórico é fácil de organizar e revisar. - transcrição multilíngue
Suporta 58 idiomas (incluindo chinês, inglês, japonês, etc.), adequado para profissionais de tradução ou cenários de comunicação internacional, detecta automaticamente o idioma ou, por meio do.env
Defina o idioma preferido.
QA
- O OpenWispr é totalmente gratuito?
Sim, o OpenWispr é de código aberto e gratuito sob a licença MIT. O processamento em nuvem está sujeito a taxas de API da OpenAI. - Qual é a diferença entre processamento local e em nuvem?
O processamento local de dados não sai do dispositivo, adequado para cenários sensíveis à privacidade, exigindo maior desempenho do hardware. O processamento na nuvem é mais rápido e requer chaves de rede e de API. - Como faço para resolver conflitos de teclas de atalho?
Altere as teclas de atalho em "Settings" (Configurações) do painel de controle para suportar qualquer combinação de teclas. - Quais são os idiomas suportados?
Suporta 58 idiomas, incluindo chinês, inglês, espanhol e outros. Disponível em.env
O arquivo define o idioma preferencial ou usa a detecção automática. - Como você garante a segurança dos dados?
O áudio não é carregado para a nuvem no modo de processamento local. O processamento na nuvem depende da Política de Privacidade da OpenAI, e as chaves de API são armazenadas com segurança por meio do gerenciador de chaves do sistema. - E se o texto transcrito não for colado automaticamente?
Verifique se as permissões de acessibilidade do macOS estão ativadas ou tente colar manualmente (Cmd+V
Isso pode ser corrigido no Painel de controle em "Fix Permission Issues" (Corrigir problemas de permissão). Isso pode ser corrigido por meio de "Fix Permission Issues" (Corrigir problemas de permissão) no painel de controle.