R1-Onevision 提供了简便的 API 来进行图像与文本的联合分析,具体操作如下:
基础使用步骤
- 创建一个 Python 脚本 (如 infer.py)
- 编写代码加载处理器和模型:
AutoProcessor
cap (a poem)Qwen2_5_VLForConditionalGeneration
- 准备输入信息:包括图像路径和文本问题
- 处理并运行推理,最后解码输出
示例代码核心部分
关键代码结构示例:
- 加载模型:指定模型路径并设置精度和设备
- 构建消息:组合图像和文本作为输入内容
- 处理输入:使用处理器准备张量输入
- 生成输出:设置合理的
max_new_tokens
parameters - 解码结果:获取可读的自然语言输出
典型的输出形式为对图片的描述以及针对问题的答案,例如识别图片中的人数或解释图片场景。
This answer comes from the articleR1-Onevision: an open source visual language model supporting multimodal reasoningThe