easy-llm-cli 的多模态功能支持处理的文件类型包括:
- 图像文件:JPEG、PNG 等常见格式
- 文档文件:PDF(支持文本提取)
实际应用场景包括:
- 设计转代码:上传草图自动生成 Web 应用代码框架(如执行
elc "生成Web应用" -f sketch.jpg
) - 文档分析:提取 PDF 论文或报告的关键信息
- 内容审核:分析图片中的敏感内容
需注意:该功能依赖模型本身的支持程度,例如 Gemini-2.5-pro 和 GPT-4.1 完整支持,而部分模型可能仅支持文本交互。使用时建议查阅官方测试表格确认兼容性。
本答案来源于文章《easy-llm-cli:让Gemini CLI 支持调用多种大语言模型》