O Simple Subtitling é uma ferramenta de código aberto de geração de legendas de áudio que se concentra na geração automática de legendas e na identificação de alto-falantes para arquivos de vídeo ou áudio. O projeto desenvolvido por Jaesung Huh, hospedado no GitHub, tem como objetivo fornecer uma solução simples e eficiente de geração de legendas. Ferramentas por meio da tecnologia de processamento de áudio .....
O Abogen é uma ferramenta de código aberto projetada para converter rapidamente arquivos ePub, PDF ou de texto simples em áudio de alta qualidade. Ele usa o modelo Kokoro-82M para gerar uma fala natural e suave e oferece suporte à geração simultânea de legendas, o que o torna adequado para audiolivros, dublagem de vídeo ou auxílios de aprendizagem. Os usuários podem escolher...
O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoção de fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com...
O On-Device AI é um aplicativo de IA que funciona totalmente off-line e foi projetado para dispositivos Apple, compatível com iOS, macOS e visionOS. Ele fornece execução de modelo de linguagem local em grande escala (LLM), transcrição de fala em tempo real, análise de documentos etc. e pode ser usado sem conexão com a Internet para garantir a privacidade dos dados. Os usuários podem...
A Vexa é uma plataforma de código aberto de transcrição de reuniões em tempo real e gerenciamento de conhecimento projetada para fornecer serviços eficientes de gravação de reuniões e extração inteligente de conhecimento para empresas e indivíduos. Ele se une automaticamente ao Google Meet, ao Zoom e a outras plataformas por meio de robôs de reunião orientados por API, transcreve voz para texto em tempo real e oferece suporte a 99 tipos de...
O realtime-transcription-fastrtc é um projeto de código aberto que se concentra na conversão de fala em texto em tempo real. Ele usa a tecnologia FastRTC para processar fluxos de áudio de baixa latência, combinada com modelos nativos do Whisper para um reconhecimento de fala eficiente. O projeto é mantido pelo desenvolvedor sofi444 , tor...
O Transkriptor é uma ferramenta de transcrição orientada por IA que se concentra na conversão rápida de áudio e vídeo em texto. Ela suporta mais de 100 idiomas com uma taxa de precisão de até 99% e é adequada para uma ampla variedade de cenários, como reuniões, entrevistas, anotações em sala de aula e muito mais. Os usuários podem fazer upload de arquivos, gravar diretamente ou transcrever por meio de links para o Zoom, Go...
O Otter.ai é uma ferramenta de transcrição de voz e gerenciamento de reuniões com tecnologia de IA, com funcionalidade central para converter voz em texto em tempo real e gerar automaticamente notas de reunião, resumos e itens de ação. Ele é alimentado de forma inteligente por um agente de reunião de IA que se junta automaticamente a reuniões como Zoom, Google Meet, etc., capturando...
O TurboScribe é uma ferramenta de transcrição baseada em IA que se concentra na conversão rápida de áudio e vídeo em texto. Ele suporta mais de 98 idiomas com uma taxa de precisão de 99,8% para usuários que precisam processar conteúdo de voz com eficiência. Os usuários podem fazer upload de arquivos para gerar transcrições ou legendas, o que é fácil e rápido...
O Aqua Voice é uma ferramenta inteligente de geração de texto baseada em fala, focada na conversão rápida da fala do usuário em texto formatado. Foi fundada em 2023 por Finnian Brown e Jack McIntire, está sediada em São Francisco, EUA, e faz parte do Y Combinator W24 ...
O Dolphin é um modelo de código aberto desenvolvido pela DataoceanAI em colaboração com a Universidade de Tsinghua, com foco no reconhecimento de fala e de idiomas para idiomas asiáticos. Ele é compatível com 40 idiomas do Leste Asiático, Sul da Ásia, Sudeste Asiático e Oriente Médio, além de 22 dialetos chineses. O modelo é baseado em mais de 210.000 horas de dados de áudio treinados...
O TwinMind é uma ferramenta inteligente desenvolvida pela ThirdEar AI, Inc. que "lembra de tudo para você". Ele pode gravar e converter conversas, reuniões ou palestras em texto em tempo real, em mais de 100 idiomas, e pode ser usado off-line mesmo quando o telefone está no bolso. Os usuários não precisam fazer anotações por conta própria, o TwinMind...
O Wispr Flow é uma ferramenta de entrada de texto habilitada para voz que ajuda os usuários a escrever rapidamente em seus computadores. Com uma experiência "3x mais rápida do que digitar", os usuários podem inserir texto em qualquer aplicativo, como Word, Slack ou Gmail, apenas falando naturalmente.O Wispr Flow suporta mais de 100 idiomas...
O Local-NotebookLM é um projeto de código aberto que visa a fornecer ferramentas inteligentes de processamento de documentos e geração de conteúdo executadas localmente. Ele é inspirado no Google NotebookLM, com foco em ajudar os usuários a transformar PDFs e outros documentos em vários formatos de saída, como podcasts, entrevistas ou palestras, etc., enquanto oferece suporte à implantação local ....
A AssemblyAI é uma plataforma focada na tecnologia de IA de fala, fornecendo aos desenvolvedores e às empresas ferramentas eficientes de análise de fala para texto e áudio. Seu principal destaque é a família de modelos Universal, especialmente o recém-lançado Universal-2, que é a mais avançada tecnologia de fala para texto da AssemblyAI...
O FireRedASR é um modelo de reconhecimento de fala desenvolvido e de código aberto pela equipe do Little Red Book FireRed, com foco no fornecimento de soluções de reconhecimento automático de fala (ASR) de alta precisão e com suporte a vários idiomas. O projeto está hospedado no GitHub para desenvolvedores e pesquisadores, oferece design de nível industrial e suporta mandarim, dialetos chineses,...
O WhisperChain é um projeto de código aberto baseado em IA hospedado no GitHub e liderado pelo desenvolvedor Chris Choy. Ele é usado principalmente para converter a fala em texto e otimizar automaticamente a expressão por meio da tecnologia de IA, removendo palavras coloquiais redundantes (como "ah", "hmm" e outras palavras de preenchimento) para melhorar o texto ....
O LLPlayer é um reprodutor de mídia de código aberto projetado para alunos de idiomas, hospedado no GitHub e criado pelo desenvolvedor umlx5h. Ele integra uma variedade de recursos úteis, como exibição de legendas bilíngues, legendas geradas automaticamente por IA, tradução em tempo real e pesquisa de palavras etc. Seu objetivo é ajudar os usuários a aprimorar o idioma assistindo a vídeos...
O CapsWriter-Offline é uma ferramenta de transcrição de legendas e entrada de voz para PC, hospedada no GitHub e criada pelo desenvolvedor HaujetZhao. Ele é executado totalmente off-line e não requer conexão com a Internet para converter fala em texto e arquivos de áudio/vídeo em legendas, suportando tempo de gravação ilimitado, chinês e inglês .....