処方
Agent TARS 采用多模态技术结合视觉识别和命令操作来解决网页元素识别问题。具体可按照以下步骤实施:
- 启用辅助功能权限:在首次启动时确保授予 macOS 的”辅助功能”权限(系统设置 > 隐私与安全性),这是控制屏幕和键盘的基础。
- 配置高质量模型:在设置中选择可靠的模型提供商(如 Azure OpenAI),并输入正确的 API 密钥、apiVersion、deploymentName 和 endpoint 参数。
- 精准任务描述:输入任务时需明确元素特征(如按钮颜色或文字),例如”点击蓝色”搜索”按钮”比”点击搜索”更准确。
- リアルタイムデバッグ:利用桌面应用右侧的操作显示区观察识别过程,若发现偏差可立即追加修正指令(如”向下滚动再尝试识别”)。
对于复杂页面,建议先用”查看页面源代码”指令获取 DOM 结构辅助识别。若持续失效,可加入 Discord 社区反馈具体案例获取开发团队支持。
この答えは記事から得たものである。エージェントTARS:視覚とコマンドを使ってコンピュータを操作するオープンソースのインテリジェンスについて