Comparação dos recursos técnicos das versões do modelo
A inovação da Voxtral se reflete em seu cuidadoso controle de versões:
- A versão de parâmetro 24B é otimizada para ambientes de computação em nuvem, com capacidade de processamento de até:
- Suporta 30 minutos de transcrição de áudio
- Tarefa de compreensão profunda de 40 minutos
- Janela de contexto de token de 32k
- A versão 3B Mini é voltada para dispositivos de ponta:
- Manutenção da funcionalidade principal do 85%
- Requer apenas uma GPU de configuração média para ser executado
- Particularmente adequado para cenários de IoT e móveis
Esse projeto arquitetônico torna o Voxtral o único modelo de fala de código aberto que atualmente suporta serviços SaaS baseados em nuvem e implementações privadas.
Essa resposta foi extraída do artigoVoxtral: um modelo de IA desenvolvido pela Mistral AI para transcrição e compreensão de falaO