Transformers框架持续集成以下新模型(截至最新版本):
- Kyutai-STT:基于Mimi编解码器的语音转文本模型,特别适合流式音频处理
安装命令:pip install git+https://github.com/huggingface/transformers@v4.52.4-Kyutai-STT-preview
- ColQwen2:专为文档检索设计的模型,可处理页面图像的视觉特征
安装命令:pip install git+https://github.com/huggingface/transformers@v4.52.4-ColQwen2-preview
试用注意事项:
- 这些预览版模型将在后续正式版(v4.53.0+)发布
- 可能需要特定依赖项或硬件支持
- API可能在正式版中微调
- 建议在非生产环境中先进行功能验证
- 可通过Hugging Face社区获取使用示例
本答案来源于文章《Transformers:开源机器学习模型框架,支持文本、图像和多模态任务》