A estrutura do Transformers integra continuamente os seguintes novos modelos (a partir da versão mais recente):
- Kyutai-STT:Modelo de fala para texto baseado no codec Mimi, especialmente adequado para processamento de áudio de streaming
Comandos de instalação:pip install git+https://github.com/huggingface/transformers@v4.52.4-Kyutai-STT-preview - ColQwen2:Modelos projetados para recuperação de documentos que processam recursos visuais de imagens de páginas
Comandos de instalação:pip install git+https://github.com/huggingface/transformers@v4.52.4-ColQwen2-preview
Notas do julgamento:
- Esses modelos de visualização serão lançados na versão oficial subsequente (v4.53.0+)
- Pode exigir dependências específicas ou suporte de hardware
- A API pode ser ajustada na versão oficial
- Recomenda-se realizar a verificação funcional primeiro em um ambiente que não seja de produção
- Há exemplos disponíveis na comunidade Hugging Face.
Essa resposta foi extraída do artigoTransformers: estrutura de modelagem de aprendizado de máquina de código aberto com suporte para tarefas de texto, imagem e multimodaisO































