
O Smart Dictation é um poderoso aplicativo para macOS que utiliza tecnologia avançada de IA para ajudar os usuários a converter facilmente gravações de áudio em texto. O aplicativo integra os mais recentes modelos GPT-4o e Whisper da OpenAI para fornecer transcrição, tradução e resumo precisos. Não importa se você está gravando uma reunião...

O Voquill é uma ferramenta de IA instalada no Chrome. Ele permite que os usuários usem a entrada de voz em vez de digitar no teclado em qualquer site. Quando estiver escrevendo um e-mail, respondendo a uma mensagem de bate-papo ou editando um documento, basta falar e o Voquill converterá sua voz em texto em tempo real. Além do ditado de voz básico, essa ferramenta oferece um...

O Grabcube é uma ferramenta gratuita de processamento de áudio e vídeo que se concentra no download de vídeo e áudio, na conversão de fala em texto por IA, na tradução de legendas e na edição. Ele é compatível com mais de 1.000 plataformas principais, incluindo YouTube, Bilibili, Vimeo etc., e permite que os usuários baixem arquivos de vídeo e áudio em vários formatos sem restrições.

O Recap é uma ferramenta de código aberto desenvolvida para o macOS para ajudar os usuários a gravar, transcrever e resumir rapidamente o áudio de reuniões. Ele processa todos os dados localmente sem carregá-los na nuvem, protegendo a privacidade do usuário. O desenvolvedor Rawand Ahmad criou o Recap para resolver o problema das reuniões em que é difícil se concentrar na discussão e na gravação ao mesmo tempo.

O Whisper_Cloudflare é um projeto de código aberto criado pelo desenvolvedor thun888 e hospedado no GitHub. Ele se baseia no modelo Whisper da OpenAI e combina a arquitetura sem servidor do Cloudflare Workers para fornecer uma conversão de voz em texto altamente eficiente...

O Spokenly é uma ferramenta de conversão de fala em texto projetada para o macOS, criada para ajudar os usuários a inserir texto rapidamente por voz e melhorar a eficiência do trabalho. Ele utiliza tecnologias avançadas de IA (como Whisper e GPT-4o) para converter a fala em texto em tempo real, suporta mais de 100 idiomas e é adequado para uma variedade de cenários, como...

O OpusLM_7B_Anneal é um modelo de processamento de fala de código aberto desenvolvido pela equipe da ESPnet e hospedado na plataforma Hugging Face. Ele se concentra em uma variedade de tarefas, como reconhecimento de fala, conversão de texto em fala, tradução de fala e aprimoramento de fala, e é adequado para pesquisadores e desenvolvedores experimentarem e aplicarem no campo de processamento de fala. O modelo é baseado em...

O OpenWispr é um aplicativo de desktop de código aberto de conversão de fala em texto baseado na tecnologia OpenAI Whisper que converte rapidamente a fala do usuário em texto. Ele oferece opções de processamento local e em nuvem, com ênfase na proteção da privacidade, e os dados podem ser deixados totalmente locais. Os usuários podem iniciar rapidamente o ditado com teclas de atalho globais, e o texto é colado automaticamente na posição do cursor, adequado para...

O vosk-browser é uma ferramenta de reconhecimento de fala executada no navegador, desenvolvida com base na tecnologia WebAssembly, usando a biblioteca de reconhecimento de fala Vosk. Ele suporta o processamento de entrada de microfone ou arquivos de áudio diretamente no navegador, fornecendo funcionalidade de fala para texto off-line sem depender de servidores em nuvem. A ferramenta é compatível com inglês, alemão...

O Any2Text é uma ferramenta on-line gratuita que se concentra na conversão rápida de arquivos de áudio e vídeo em texto. Utiliza tecnologia avançada de reconhecimento de fala com IA, suporta mais de 100 idiomas e é adequada para uma variedade de cenários, como gravação de reuniões, transcrição de podcasts e geração de legendas. Os usuários podem usá-lo sem registro, é fácil de operar e você pode fazer upload de arquivos para obter um texto final de alta precisão...

O Whisper App é uma ferramenta gratuita e de código aberto que permite aos usuários gravar notas por voz e usar a tecnologia de IA para converter a voz em texto, gerando conteúdo como listas, blogs ou tarefas. Desenvolvido pela Nutlope e hospedado no GitHub, o projeto é baseado no modelo Whisper da Together.ai...

O Voxtral é seu primeiro modelo de áudio aberto lançado em 15 de julho de 2025 pela startup francesa de IA Mistral AI. O objetivo da Voxtral é fornecer aos aplicativos comerciais recursos de compreensão de fala prontos para uso em ambientes de produção, a um preço altamente competitivo no mercado. Há duas versões do modelo Voxtral para produção...

O SimpleListenJournal é uma ferramenta de áudio/vídeo para texto da Baidu que se concentra na conversão rápida de conteúdo de voz ou vídeo em texto e fornece análise inteligente de IA. Os usuários podem fazer upload de áudio, vídeo ou texto de entrada para obter resultados de transcrição de alta precisão e resumos automáticos. A plataforma é compatível com vários idiomas e é adequada para uma variedade de cenários, como registros de reuniões, anotações de cursos, organização de podcasts e assim por diante. Limite...

O Tencent Meeting AI Little Assistant Pro é uma ferramenta inteligente de assistência a reuniões lançada pela Tencent, com o objetivo de melhorar a eficiência e a conveniência das reuniões on-line. Ela analisa o conteúdo da reunião em tempo real por meio da tecnologia de inteligência artificial, fornecendo lembretes personalizados, resumindo as principais informações e gerando listas de tarefas para ajudar os usuários a se concentrarem na discussão sem perder o foco.

O Flash Notes é uma ferramenta inteligente de anotações lançada pela Nail, projetada para ajudar os usuários a registrar, organizar e compartilhar informações rapidamente. Ele é compatível com vários métodos de gravação, como voz, texto e imagens, e é adequado para que indivíduos e equipes gerenciem com eficiência as anotações no trabalho, nos estudos ou na vida. O Flash Notes converte voz em texto por meio de tecnologia inteligente e organiza automaticamente o conteúdo, reduzindo o incômodo da entrada manual. Os usuários podem fixar...

O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...
O Very Fast Dictation é uma ferramenta de fala para texto de código aberto projetada para usuários de Mac. Ela usa tecnologia de reconhecimento de fala rápida para converter o que o usuário diz em texto em tempo real, para qualquer cenário que exija entrada de texto. O projeto está hospedado no GitHub, foi desenvolvido pelo desenvolvedor Avi Aryan e usa...

O Simple Subtitling é uma ferramenta de código aberto de geração de legendas de áudio que se concentra na geração automática de legendas e na identificação de alto-falantes para arquivos de vídeo ou áudio. Desenvolvido por Jaesung Huh e hospedado no GitHub, o projeto tem como objetivo fornecer uma solução simples e eficiente de geração de legendas. Ferramentas por meio da tecnologia de processamento de áudio, ...

O Abogen é uma ferramenta de código aberto projetada para converter rapidamente arquivos ePub, PDF ou de texto simples em áudio de alta qualidade. Ele usa o modelo Kokoro-82M para gerar uma fala natural e suave e oferece suporte à geração simultânea de legendas, o que o torna adequado para audiolivros, dublagem de vídeo ou auxílios de aprendizagem. Os usuários podem escolher entre vários idiomas e...
voltar ao topo

