O Smart Dictation é um poderoso aplicativo para macOS que utiliza tecnologia avançada de IA para ajudar os usuários a converter facilmente gravações de áudio em texto. O aplicativo integra os mais recentes modelos GPT-4o e Whisper da OpenAI para fornecer serviços precisos de transcrição, tradução e resumo. Se você estiver se lembrando de .....
O Voquill é uma ferramenta de IA instalada no Chrome. Ele permite que os usuários usem a entrada de voz em vez de digitar no teclado em qualquer site. Quando estiver escrevendo um e-mail, respondendo a uma mensagem de bate-papo ou editando um documento, basta falar e o Voquill converterá sua voz em texto em tempo real. Além da audição básica de voz...
O Grabcube é uma ferramenta gratuita de processamento de áudio e vídeo que se concentra em downloads de vídeo e áudio, conversão de fala em texto por IA, tradução e edição de legendas. Ele é compatível com mais de 1.000 plataformas convencionais, incluindo YouTube, Bilibili, Vimeo etc., e permite que os usuários baixem arquivos de vídeo e áudio em vários formatos sem limitações.
O Recap é uma ferramenta de código aberto desenvolvida para o macOS para ajudar os usuários a gravar, transcrever e resumir rapidamente o áudio de reuniões. Ele processa todos os dados localmente sem carregá-los na nuvem, protegendo a privacidade do usuário. O desenvolvedor Rawand Ahmad criou o Recap para resolver a dificuldade de se concentrar na discussão e na gravação ao mesmo tempo em uma reunião...
O Whisper_Cloudflare é um projeto de código aberto criado pelo desenvolvedor thun888 e hospedado no GitHub. Ele se baseia no modelo Whisper da OpenAI e combina a arquitetura sem servidor do Cloudflare Workers para fornecer uma conversão de voz em texto altamente eficiente...
O Spokenly é uma ferramenta de conversão de voz em texto projetada para o macOS, criada para ajudar os usuários a digitar rapidamente o texto por voz e melhorar a eficiência do trabalho. Ele utiliza tecnologias avançadas de IA (como Whisper e GPT-4o) para converter a fala em texto em tempo real, com suporte para mais de 100 idiomas e adequado para uma ampla variedade de cenários. ....
O OpusLM_7B_Anneal é um modelo de processamento de fala de código aberto desenvolvido pela equipe da ESPnet e hospedado na plataforma Hugging Face. Ele se concentra em uma variedade de tarefas, como reconhecimento de fala, conversão de texto em fala, tradução de fala e aprimoramento de fala, e é adequado para pesquisadores e desenvolvedores experimentarem e aplicarem no campo do processamento de fala. O modelo .....
O OpenWispr é um aplicativo de desktop de código aberto de conversão de fala em texto baseado na tecnologia OpenAI Whisper que converte rapidamente a fala do usuário em texto. Ele oferece opções de processamento local e em nuvem, com ênfase na proteção da privacidade, e os dados podem ser deixados totalmente locais. Os usuários podem iniciar rapidamente o ditado por meio de teclas de atalho globais, e o texto é automaticamente...
O vosk-browser é uma ferramenta de reconhecimento de fala executada no navegador, desenvolvida com base na tecnologia WebAssembly, usando a biblioteca de reconhecimento de fala Vosk. Ele suporta o processamento de entrada de microfone ou arquivos de áudio diretamente no navegador, fornecendo funcionalidade de fala para texto off-line sem depender de servidores em nuvem. A ferramenta é compatível com ...
O Any2Text é uma ferramenta on-line gratuita que se concentra na conversão rápida de arquivos de áudio e vídeo em texto. Utiliza tecnologia avançada de reconhecimento de fala com IA, suporta mais de 100 idiomas e é adequada para uma variedade de cenários, como gravação de reuniões, transcrição de podcasts e geração de legendas. Os usuários não precisam se registrar para usá-lo, e é fácil de operar...
O Whisper App é uma ferramenta gratuita e de código aberto que permite aos usuários gravar notas por voz e usar a tecnologia de IA para converter a voz em texto, gerando conteúdo como listas, blogs ou tarefas. Desenvolvido pela Nutlope e hospedado no GitHub, o projeto é baseado no modelo Whisper da Together.ai...
O Voxtral é seu primeiro modelo de áudio aberto lançado em 15 de julho de 2025 pela startup francesa de IA Mistral AI. O objetivo do Voxtral é fornecer aos aplicativos comerciais recursos de compreensão de fala prontos para uso em ambientes de produção, a um preço altamente competitivo no mercado. O modelo Voxtral está disponível em duas versões para ....
O SimpleListenJournal é uma ferramenta de áudio/vídeo para texto da Baidu que se concentra na conversão rápida de conteúdo de voz ou vídeo em texto e fornece análise inteligente de IA. Os usuários podem fazer upload de áudio, vídeo ou texto de entrada para obter resultados de transcrição de alta precisão e resumos automáticos. A plataforma oferece suporte a vários idiomas para...
O Tencent Meeting AI Assistant Pro é uma ferramenta inteligente de assistência a reuniões lançada pela Tencent, com o objetivo de melhorar a eficiência e a conveniência das reuniões on-line. Ela analisa o conteúdo da reunião em tempo real por meio da tecnologia de inteligência artificial, fornecendo lembretes personalizados, resumindo as principais informações e gerando listas de tarefas, ajudando os usuários a se concentrarem na discussão e a não perderem as principais...
O Flash Notes é uma ferramenta inteligente de anotações lançada pela Nail, projetada para ajudar os usuários a registrar, organizar e compartilhar informações rapidamente. Ele suporta uma variedade de métodos de gravação, como voz, texto e imagens, o que é adequado para indivíduos e equipes gerenciarem anotações de forma eficiente no trabalho, nos estudos ou na vida. O Flash Notes converte voz em texto por meio de tecnologia inteligente e automaticamente...
O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...
O Very Fast Dictation é uma ferramenta de fala para texto de código aberto projetada para usuários de Mac. Ela usa tecnologia de reconhecimento de fala rápida para converter o que o usuário diz em texto em tempo real, para qualquer cenário que exija entrada de texto. O projeto está hospedado no GitHub, foi desenvolvido pelo desenvolvedor Avi Aryan e usa...
O Simple Subtitling é uma ferramenta de código aberto de geração de legendas de áudio que se concentra na geração automática de legendas e na identificação de alto-falantes para arquivos de vídeo ou áudio. O projeto desenvolvido por Jaesung Huh, hospedado no GitHub, tem como objetivo fornecer uma solução simples e eficiente de geração de legendas. Ferramentas por meio da tecnologia de processamento de áudio .....
O Abogen é uma ferramenta de código aberto projetada para converter rapidamente arquivos ePub, PDF ou de texto simples em áudio de alta qualidade. Ele usa o modelo Kokoro-82M para gerar uma fala natural e suave e oferece suporte à geração simultânea de legendas, o que o torna adequado para audiolivros, dublagem de vídeo ou auxílios de aprendizagem. Os usuários podem escolher...
voltar ao topo