Caminhos para a transcrição multilíngue de conferências
Para lidar com cenários multilíngues, como a combinação de chinês e inglês, é necessária uma configuração passo a passo:
- Fase de preparação do modelo::
- Faça o download do modelo multilíngue whisper-large-v3 (aprox. 3 GB)
- Configuração em .env
MODEL_ID=openai/whisper-large-v3
- Instalação da biblioteca langdetect para detecção de idioma
- Configuração de tempo de execução::
- Modificar o transcribe_task.py:
task='translate'
- Definir fallback_language='en' (saída padrão em inglês)
- Adicionar o parâmetro language_detection_threshold=0,7
- Modificar o transcribe_task.py:
- <strong]Tratamento especial::
- São necessárias configurações adicionais para idiomas como o CJK:
initial_prompt='以下是中文内容:'
- Ativação do módulo sentence_splitter para declarações mistas
- São necessárias configurações adicionais para idiomas como o CJK:
A solução avançada pode integrar o recurso languageID do Azure Speech Services para a troca dinâmica de idiomas. Os testes mostram que essa solução tem uma precisão de reconhecimento de 78% para conteúdo misto de chinês e inglês.
Essa resposta foi extraída do artigoFerramenta de código aberto para conversão de fala em texto em tempo realO