Ovis模型概述
Ovis(Open VISion)是由阿里巴巴国际数字商业集团的AIDC-AI团队开发的一款开源多模态大语言模型(MLLM)。该模型采用了创新的结构嵌入对齐技术,能够将视觉和文本数据进行高效融合。
Ovis当前的最新版本是Ovis2系列,提供从1B到34B参数的模型选择,适用于不同硬件环境。该系列模型的主要优势包括:
- 卓越的小模型性能表现
- 增强的推理能力
- 支持高分辨率图像和视频处理
- 提供量化版本降低运行门槛
作为开源项目,Ovis在GitHub上提供了详细的文档和代码,吸引了广泛的社区关注。开发者可以自由访问和参与项目协作。
本答案来源于文章《Ovis:视觉与文本对齐模型,精准反推图像提示词》