O Dolphin é um modelo de reconhecimento de fala de código aberto desenvolvido em conjunto pela DataoceanAI e pela Universidade de Tsinghua, com foco no processamento versátil de idiomas asiáticos. Seus principais recursos incluem:
- Ampla cobertura de idiomasSuporte para 40 idiomas asiáticos e 22 dialetos chineses, abrangendo o Leste Asiático, o Sul da Ásia, o Sudeste Asiático e o Oriente Médio
- multitarefaFunções integradas de conversão de fala em texto (ASR), detecção de atividade de voz (VAD), segmentação de áudio e identificação de idioma (LID)
- Base de dados sólidatreinado em mais de 210.000 horas de dados de áudio proprietários e publicamente disponíveis
- Inovação em arquiteturaArquitetura CTC-Attention: É usada uma arquitetura CTC-Attention híbrida, com o codificador usando o E-Branchformer e o decodificador usando o Transformer
- Sistema de etiquetagem de camada duplaDiferenciação precisa de variantes de dialeto por (por exemplo, )
O projeto tem código aberto no GitHub, fornecendo duas especificações de modelo, base (140 milhões de parâmetros) e pequeno (372 milhões de parâmetros), levando em conta os requisitos de velocidade de processamento e precisão de reconhecimento.
Essa resposta foi extraída do artigoDolphin: reconhecimento de idiomas asiáticos e modelagem de fala para texto para idiomas asiáticosO




























