A ferramenta oferece três fases da funcionalidade principal: i) suporte para gravação simultânea do áudio do sistema (por exemplo, saída do software de conferência) e entrada do microfone; ii) chamada do WhisperKit para obter a conversão de voz em texto off-line de alta precisão, permitindo que os usuários editem o texto transcrito; e iii) extração das principais decisões/tarefas das reuniões por meio do Ollama executado localmente ou do serviço OpenRouter opcional. As versões futuras também incluirão a detecção automática de áudio para as principais plataformas de conferência (Zoom/Teams).
Essa resposta foi extraída do artigoRecapitulação: Ferramenta de transcrição e resumo de áudio de reuniões locais no macOSO