Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Whisper_Cloudflare é um projeto de código aberto criado pelo desenvolvedor thun888 e hospedado no GitHub. Sussurro combinado com a arquitetura sem servidor do Cloudflare Workers, fornece uma funcionalidade eficiente de fala para texto. Os usuários podem fazer isso implantando um único worker.js O projeto é compatível com vários idiomas e formatos de áudio e é fácil de usar para que os desenvolvedores criem rapidamente aplicativos de processamento de fala. O projeto oferece suporte a vários idiomas e formatos de áudio e é fácil de usar para que os desenvolvedores criem rapidamente aplicativos de processamento de fala. O projeto é totalmente gratuito, o código está disponível publicamente e não há necessidade de gerenciar um servidor para implantação, portanto, é adequado para que indivíduos ou equipes lidem com as necessidades de transcrição de áudio e geração de legendas.

 

Lista de funções

  • Conversão de fala em texto: converta arquivos de áudio em texto e ofereça suporte ao reconhecimento de vários idiomas.
  • Geração de legendas: gera arquivos de legendas com registro de data e hora no formato SRT.
  • Suporte a vários formatos de áudio: compatível com MP3, WAV e outros formatos de áudio comuns.
  • Implantação sem servidor: implantação rápida com o Cloudflare Workers, exigindo apenas worker.js Documentação.
  • Interface API: Fornece /raw(dados brutos de transcrição) e /srt(arquivo de legenda) duas interfaces.
  • Detecção de atividade de voz (VAD): Suporte vad_filter para filtrar partes que não são de fala.
  • Otimização de contexto: por initial_prompt responder cantando prefix Parâmetros para aumentar a precisão da transcrição.
  • Função de tradução: suporte para traduzir o conteúdo de áudio para um idioma específico (por exemplo, inglês, chinês etc.).

Usando a Ajuda

Processo de implantação

A implantação do projeto Whisper_Cloudflare exige apenas que o arquivo worker.js O código é copiado para a plataforma Cloudflare Workers sem clonar todo o seu repositório do GitHub. Aqui estão as etapas detalhadas:

  1. Registre-se em uma conta da Cloudflare
    Visite o site da Cloudflare para se registrar ou entrar em uma conta. Certifique-se de que o recurso Workers esteja ativado (o plano gratuito é suficiente). No painel da Cloudflare, vá até a página "Workers" e clique em "Create Worker".
  2. Crie um trabalhador e cole o código
    • No editor Workers, crie um novo trabalhador (por padrão, denominado worker (ou um nome personalizado).
    • oferta worker.js O código é copiado e colado no editor, substituindo o código padrão.
    • Salve o código.
  3. Instale o Wrangler (opcional, para implantação de linha de comando)
    Se quiser gerenciar seus workers a partir da linha de comando, você precisará instalar o Wrangler (a ferramenta de linha de comando para os Workers da Cloudflare). Certifique-se de que você tenha o Node.js instalado (versão recomendada 16.17.0 ou superior) e execute-o:

    npm install -g wrangler
    
  4. Configuração do Wrangler e dos vínculos de IA
    • Execute o seguinte comando para fazer login no Cloudflare:
      wrangler login
      
    • Criar ou editar wrangler.toml adicione a seguinte configuração:
      name = "whisper-cloudflare"
      compatibility_flags = ["nodejs_compat"]
      [ai]
      binding = "AI"
      
    • Se você não estiver usando o Wrangler, poderá vincular manualmente o modelo de IA nas configurações do Worker do painel da Cloudflare (selecione a opção @cf/openai/whisper-large-v3-turbo).
  5. Implantação de trabalhadores
    • No editor Workers, clique no botão "Deploy" (Implantar) para publicar o código diretamente.
    • ou executados pelo Wrangler:
      wrangler deploy
      
    • Após uma implantação bem-sucedida, a Cloudflare fornece um URL do trabalhador (por exemplo, https://whispercloudflare.tchepai.com/).
  6. Preparação de arquivos de áudio
    Certifique-se de que o áudio esteja no formato MP3 ou WAV e que o tamanho do arquivo não exceda 25 MB (sujeito aos limites do Cloudflare Workers). Os arquivos de áudio precisam ser carregados em formato binário ou acessados por meio de um URL público (por exemplo, carregados no armazenamento em nuvem).

Funções principais

conversão de voz em texto

O Whisper_Cloudflare usa o modelo Whisper para converter áudio em texto. As etapas são as seguintes:

  • Fazer upload de áudioenvia dados binários de áudio via solicitação POST para o /raw Interfaces. Exemplo:
    curl -X POST "https://whisper.ohen5pbf93.workers.dev/raw" \
    -H "Content-Type: application/octet-stream" \
    --data-binary "@audio.mp3"
    
  • Obtenção de resultadosTranscrição: retorna o resultado da transcrição no formato JSON, contendo texto e um registro de data e hora:
    {
    "response": {
    "text": "这是一个测试音频。",
    "segments": [
    {"text": "这是一个", "start": 0.0, "end": 1.2},
    {"text": "测试音频", "start": 1.3, "end": 2.5}
    ]
    }
    }
    
  • Manuseio de arquivos grandesSe o áudio exceder 25 MB, você precisará dividi-lo manualmente em partes menores (recomenda-se 1 MB por parte), carregar as partes uma a uma e mesclar os resultados.

Geração de subtítulos

Gerar arquivos de legenda no formato SRT para vídeos ou podcasts. Procedimento:

  • Solicitar legendasEnviar áudio para /srt Interface:
    curl -X POST "https://whispercloudflare.tchepai.com/srt" \
    -H "Content-Type: application/octet-stream" \
    --data-binary "@audio.mp3"
    
  • Obtenção de resultadosRetorna um arquivo no formato SRT, por exemplo:
    1
    00:00:00,000 --> 00:00:01,200
    这是一个
    2
    00:00:01,300 --> 00:00:02,500
    测试音频
    

Uso da interface da Web

worker.js Fornece uma interface HTML integrada (caminho raiz para o URL do Worker) /), que pode ser operado pelo usuário por meio do navegador:

  • interface de acessoAbra o URL do Worker (por exemplo, https://whispercloudflare.tchepai.com/).
  • Fazer upload de áudioSelecione um arquivo MP3 ou WAV, defina parâmetros como tipo de tarefa (transcrição ou tradução), idioma, filtragem de VAD etc.
  • Obtenção de resultadosApós o envio, a interface exibe a legenda SRT e permite baixá-la como um arquivo .srt Documentação.
  • tomar nota deA interface suporta uma barra de progresso e leva cerca de 1,9 minutos para processar 41 minutos de áudio.

Uso da API

O projeto fornece duas interfaces de API:

  • /rawTranscrição: retorna dados brutos de transcrição no formato JSON, adequados para processamento posterior pelos desenvolvedores.
  • /srtLegenda: retorna arquivos de legenda no formato SRT para uso direto na edição de vídeo.
    Exemplo de chamada JavaScript:
const response = await fetch('https://whispercloudflare.tchepai.com/srt', {
method: 'POST',
headers: { 'Content-Type': 'application/octet-stream' },
body: audioFile // 音频二进制数据
});
const srt = await response.text();
console.log(srt); // 输出 SRT 字幕

Otimização de contexto

fazer uso de initial_prompt talvez prefix Os parâmetros fornecem contexto para aumentar a precisão da transcrição. Exemplo:

curl -X POST "https://whispercloudflare.tchepai.com/raw?initial_prompt=技术会议" \
-H "Content-Type: application/octet-stream" \
--data-binary "@audio.mp3"

Detecção de atividade de voz (VAD)

Ativar a filtragem de VAD (vad_filter=true) pode remover partes que não sejam de fala:

curl -X POST "https://whispercloudflare.tchepai.com/raw?vad_filter=true" \
-H "Content-Type: application/octet-stream" \
--data-binary "@audio.mp3"

função de tradução

configurar task=translate responder cantando language para traduzir o áudio para o idioma especificado. Exemplo:

curl -X POST "https://whispercloudflare.tchepai.com/raw?task=translate&language=en" \
-H "Content-Type: application/octet-stream" \
--data-binary "@audio.mp3"

Desempenho e limitações

  • tempoTeste de áudio: Os testes mostram que leva apenas 1,9 minuto para processar 41 minutos e 39 segundos de áudio.
  • restriçãoLimitações de recursos do Cloudflare Workers podem causar falhas ocasionais; recomenda-se tentar novamente.
  • tamanho do arquivoNão mais do que 25 MB de áudio em uma única solicitação.

advertência

  • Segurança da APIConfigure as ligações de IA no painel da Cloudflare, não forneça tokens de API.
  • Tratamento de errosSe a solicitação falhar, aguarde alguns segundos e tente novamente.
  • Compatibilidade do navegadorInterface da Web: A interface da Web funciona bem em navegadores modernos (por exemplo, Chrome, Firefox).

cenário do aplicativo

  1. Transcrição de registros de reuniões
    Faça upload do áudio da reunião e gere texto ou legendas SRT para a organização de reuniões multilíngues.
  2. Geração de legendas de podcast
    Os produtores de podcast geram legendas SRT para melhorar a acessibilidade do conteúdo e a otimização da pesquisa.
  3. Transcrição de recursos educacionais
    Professores ou alunos fazem upload de gravações de aulas para gerar anotações ou legendas para facilitar a revisão.
  4. Desenvolvimento de aplicativos de voz
    Os desenvolvedores integram APIs para criar legendas em tempo real ou assistentes de voz para projetos leves.

QA

  1. Quais formatos de áudio são suportados?
    MP3, WAV e outros formatos são suportados e recomenda-se áudio de alta qualidade.
  2. Como você lida com arquivos grandes?
    Divida manualmente em blocos de 1 MB, faça upload e mescle os resultados bloco por bloco.
  3. Tenho que pagar pela implantação?
    O plano gratuito do Cloudflare Workers oferece suporte a implantações com 10.000 neurônios gratuitos por dia para modelos de IA, além do que é cobrado a $0,011 por 1.000 neurônios.
  4. Como otimizar a transcrição?
    fazer uso de initial_prompteprefix talvez vad_filter Os parâmetros aumentam a precisão.
  5. Quais são os idiomas suportados?
    Há suporte para inglês, chinês, japonês e outros idiomas; consulte a documentação do Whisper para obter o código específico.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil