Step3 通过标准化处理流程解决格式问题:
- 输入结构:强制要求使用约定格式的 messages 数组,每个元素需明确指定
type
字段(text/image/audio) - 预处理组件:内置的
AutoProcessor
能自动识别并转换不同模态数据为模型可接受的张量
具体实现示例:
messages = [{
"role": "user",
"content": [
{"type": "image", "image": "https://example.com/img.jpg"},
{"type": "text", "text": "描述场景"}
]
}]
该设计已验证支持JPEG/PNG图像、MP3/WAV音频和UTF-8文本的混合输入,错误率低于0.1%。
本答案来源于文章《Step3:高效生成多模态内容的开源大模型》