O Voxtral é seu primeiro modelo de áudio aberto lançado em 15 de julho de 2025 pela startup francesa de IA Mistral AI. O objetivo do Voxtral é fornecer aos aplicativos comerciais recursos de compreensão de fala prontos para uso em ambientes de produção, a um preço altamente competitivo no mercado. O modelo Voxtral está disponível em duas versões para ....
O SimpleListenJournal é uma ferramenta de áudio/vídeo para texto da Baidu que se concentra na conversão rápida de conteúdo de voz ou vídeo em texto e fornece análise inteligente de IA. Os usuários podem fazer upload de áudio, vídeo ou texto de entrada para obter resultados de transcrição de alta precisão e resumos automáticos. A plataforma oferece suporte a vários idiomas para...
O Tencent Meeting AI Assistant Pro é uma ferramenta inteligente de assistência a reuniões lançada pela Tencent, com o objetivo de melhorar a eficiência e a conveniência das reuniões on-line. Ela analisa o conteúdo da reunião em tempo real por meio da tecnologia de inteligência artificial, fornecendo lembretes personalizados, resumindo as principais informações e gerando listas de tarefas, ajudando os usuários a se concentrarem na discussão e a não perderem as principais...
O Flash Notes é uma ferramenta inteligente de anotações lançada pela Nail, projetada para ajudar os usuários a registrar, organizar e compartilhar informações rapidamente. Ele suporta uma variedade de métodos de gravação, como voz, texto e imagens, o que é adequado para indivíduos e equipes gerenciarem anotações de forma eficiente no trabalho, nos estudos ou na vida. O Flash Notes converte voz em texto por meio de tecnologia inteligente e automaticamente...
O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...
O Very Fast Dictation é uma ferramenta de fala para texto de código aberto projetada para usuários de Mac. Ela usa tecnologia de reconhecimento de fala rápida para converter o que o usuário diz em texto em tempo real, para qualquer cenário que exija entrada de texto. O projeto está hospedado no GitHub, foi desenvolvido pelo desenvolvedor Avi Aryan e usa...
O Simple Subtitling é uma ferramenta de código aberto de geração de legendas de áudio que se concentra na geração automática de legendas e na identificação de alto-falantes para arquivos de vídeo ou áudio. O projeto desenvolvido por Jaesung Huh, hospedado no GitHub, tem como objetivo fornecer uma solução simples e eficiente de geração de legendas. Ferramentas por meio da tecnologia de processamento de áudio .....
O Abogen é uma ferramenta de código aberto projetada para converter rapidamente arquivos ePub, PDF ou de texto simples em áudio de alta qualidade. Ele usa o modelo Kokoro-82M para gerar uma fala natural e suave e oferece suporte à geração simultânea de legendas, o que o torna adequado para audiolivros, dublagem de vídeo ou auxílios de aprendizagem. Os usuários podem escolher...
O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoção de fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com...
O On-Device AI é um aplicativo de IA que funciona totalmente off-line e foi projetado para dispositivos Apple, compatível com iOS, macOS e visionOS. Ele fornece execução de modelo de linguagem local em grande escala (LLM), transcrição de fala em tempo real, análise de documentos etc. e pode ser usado sem conexão com a Internet para garantir a privacidade dos dados. Os usuários podem...
A Vexa é uma plataforma de código aberto de transcrição de reuniões em tempo real e gerenciamento de conhecimento projetada para fornecer serviços eficientes de gravação de reuniões e extração inteligente de conhecimento para empresas e indivíduos. Ele se une automaticamente ao Google Meet, ao Zoom e a outras plataformas por meio de robôs de reunião orientados por API, transcreve voz para texto em tempo real e oferece suporte a 99 tipos de...
O realtime-transcription-fastrtc é um projeto de código aberto que se concentra na conversão de fala em texto em tempo real. Ele usa a tecnologia FastRTC para processar fluxos de áudio de baixa latência, combinada com modelos nativos do Whisper para um reconhecimento de fala eficiente. O projeto é mantido pelo desenvolvedor sofi444 , tor...
O Transkriptor é uma ferramenta de transcrição orientada por IA que se concentra na conversão rápida de áudio e vídeo em texto. Ela suporta mais de 100 idiomas com uma taxa de precisão de até 99% e é adequada para uma ampla variedade de cenários, como reuniões, entrevistas, anotações em sala de aula e muito mais. Os usuários podem fazer upload de arquivos, gravar diretamente ou transcrever por meio de links para o Zoom, Go...
O Otter.ai é uma ferramenta de transcrição de voz e gerenciamento de reuniões com tecnologia de IA, com funcionalidade central para converter voz em texto em tempo real e gerar automaticamente notas de reunião, resumos e itens de ação. Ele é alimentado de forma inteligente por um agente de reunião de IA que se junta automaticamente a reuniões como Zoom, Google Meet, etc., capturando...
O TurboScribe é uma ferramenta de transcrição baseada em IA que se concentra na conversão rápida de áudio e vídeo em texto. Ele suporta mais de 98 idiomas com uma taxa de precisão de 99,8% para usuários que precisam processar conteúdo de voz com eficiência. Os usuários podem fazer upload de arquivos para gerar transcrições ou legendas, o que é fácil e rápido...
O Aqua Voice é uma ferramenta inteligente de geração de texto baseada em fala, focada na conversão rápida da fala do usuário em texto formatado. Foi fundada em 2023 por Finnian Brown e Jack McIntire, está sediada em São Francisco, EUA, e faz parte do Y Combinator W24 ...
O Dolphin é um modelo de código aberto desenvolvido pela DataoceanAI em colaboração com a Universidade de Tsinghua, com foco no reconhecimento de fala e de idiomas para idiomas asiáticos. Ele é compatível com 40 idiomas do Leste Asiático, Sul da Ásia, Sudeste Asiático e Oriente Médio, além de 22 dialetos chineses. O modelo é baseado em mais de 210.000 horas de dados de áudio treinados...
O TwinMind é uma ferramenta inteligente desenvolvida pela ThirdEar AI, Inc. que "lembra de tudo para você". Ele pode gravar e converter conversas, reuniões ou palestras em texto em tempo real, em mais de 100 idiomas, e pode ser usado off-line mesmo quando o telefone está no bolso. Os usuários não precisam fazer anotações por conta própria, o TwinMind...
O Wispr Flow é uma ferramenta de entrada de texto habilitada para voz que ajuda os usuários a escrever rapidamente em seus computadores. Com uma experiência "3x mais rápida do que digitar", os usuários podem inserir texto em qualquer aplicativo, como Word, Slack ou Gmail, apenas falando naturalmente.O Wispr Flow suporta mais de 100 idiomas...