OpenAdapt 是一款开源的软件工具,它将强大的大型多模态模型(LMMs)与电脑的图形用户界面(GUI)连接起来,旨在实现流程自动化。传统上,大量脑力劳动被浪费在重复性的电脑操作上,而OpenAdapt的目标就是解决这一问题。它的工作原理类似于机器人流程自动化(RPA),但核心驱动力是先进的AI模型,而非传统的RPA工具。该工具通过记录用户在电脑上的实际操作(包括屏幕截图和输入动作)来学习,然后利用这些数据生成自动化任务。这种从人类演示中学习的方法,使得自动化任务更贴近实际流程,减少了AI产生错误操作的可能性。作为一个模型无关的开源项目,它适用于各类桌面应用程序,甚至是虚拟化环境(如Citrix)和网页。
功能列表
- 记录用户操作: 能够捕获屏幕截图以及相关的用户输入(如鼠标点击、键盘输入),为自动化提供学习数据。
- 可视化开发: 提供工具将记录的数据进行聚合和可视化,方便开发者理解和调试。
- 生成自动化脚本: 将用户的操作记录转换成AI模型可以理解的格式,并生成可重复播放的自动化任务。
- 多种回放策略: 支持不同的自动化执行策略,包括简单的直接回放,以及使用GPT-4或视觉模型进行更智能的回放。
- 浏览器集成: 提供Chrome浏览器扩展,可以记录浏览器内的操作事件,实现更精准的网页自动化。
- 隐私保护: 内置了行业领先的隐私信息擦除功能,可以利用AWS Comprehend、Microsoft Presidio等工具去除个人身份信息(PII)和受保护的健康信息(PHI)。 [cite:1. 1]
- 性能监控: 集成了详细的性能监控工具,帮助开发者分析和优化程序。
- 跨平台支持: 提供适用于Windows和macOS等主流操作系统的安装和使用方法。
使用帮助
OpenAdapt通过记录你的电脑操作(如点击鼠标和敲击键盘)并配合屏幕截图,让AI模型学会如何模仿你的行为以完成重复性任务。
安装流程
OpenAdapt为不同操作系统的用户提供了便捷的脚本化安装方式。
Windows 系统:
- 按
Windows
键,输入 “powershell”,然后按回车键打开PowerShell。 - 将以下命令复制并粘贴到PowerShell窗口中,然后按回车键执行。如果系统弹出用户账户控制提示,请点击“是”。
Start-Process powershell -Verb RunAs -ArgumentList '-NoExit', '-ExecutionPolicy', 'Bypass', '-Command', "iwr -UseBasicParsing -Uri 'https://raw.githubusercontent.com/OpenAdaptAI/OpenAdapt/main/install/install_openadapt.ps1' | Invoke-Expression"
macOS 系统:
- 首先确保你的电脑上已经安装了
Git
和Python 3.10
。 - 按
Command+Space
组合键,输入 “terminal”,然后按回车键打开终端。 - 将以下命令复制并粘贴到终端窗口中,然后按回车键执行:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/OpenAdaptAI/OpenAdapt/HEAD/install/install_openadapt.sh)"
核心功能操作
安装完成后,你可以通过以下几个核心命令来使用OpenAdapt。在使用前,请确保已经通过 cd OpenAdapt
命令进入了项目的根目录,并执行 poetry shell
激活了虚拟环境。
1. 启动系统托盘和网页后台
运行以下命令来启动OpenAdapt的系统托盘图标和网页仪表盘,方便管理和查看任务。
python -m openadapt.entrypoint
2. 录制一个新任务
使用 openadapt.record
命令来开始一个新的录制。你需要为你录制的任务起一个描述性的名字,例如 “testing out openadapt”。
python -m openadapt.record "testing out openadapt"
当终端显示事件写入器(screen, action, window)都已启动后,你就可以开始操作电脑了。OpenAdapt会记录下你的鼠标移动、点击和键盘输入。完成操作后,按 CTRL+C
组合键停止录制。
注意:目前的版本建议录制时间保持简短(例如一分钟以内),以避免占用过多内存。
3. 可视化录制内容
录制完成后,你可以快速查看录制的内容。运行以下命令:
python -m openadapt.visualize
这个命令会自动生成一个HTML文件,并在你的浏览器中打开。你会看到一个包含所有操作步骤和对应截图的详细视图。
4. 回放(执行)自动化任务
使用 openadapt.replay
命令来自动执行你刚刚录制的任务。你需要指定一个回放策略,最简单的是 NaiveReplayStrategy
。
python -m openadapt.replay NaiveReplayStrategy
此外,OpenAdapt还提供其他更智能的回放策略,例如 VisualReplayStrategy
,它会使用视觉模型来识别屏幕上的元素。一些高级策略还允许你加入新的指令来修改原始任务,例如:
python -m openadapt.replay VanillaReplayStrategy --instructions "calculate 9-8"
这个指令会告诉AI在执行任务时,根据新的指令(“计算9-8”)来调整其行为。
浏览器自动化集成
如果你想录制在Google Chrome浏览器中的操作,需要额外设置浏览器扩展:
- 在Chrome地址栏输入
chrome://extensions
并打开。 - 打开右上角的“开发者模式”开关。
- 点击左上角的“加载已解压的扩展程序”。
- 在弹出的文件选择窗口中,找到并选择OpenAdapt项目目录下的
chrome_extension
文件夹。 - 确保OpenAdapt扩展已启用。
- 修改
openadapt/data/config.json
文件,将RECORD_BROWSER_EVENTS
的值设置为true
。
应用场景
- 自动化数据录入
对于需要从一个软件(如PDF文档、电子邮件)复制信息并粘贴到另一个软件(如Excel表格、数据库)的重复性工作,可以使用OpenAdapt录制一次操作流程,然后让它自动完成后续所有类似的数据录入任务。 - 软件操作辅助
对于不熟悉某个复杂软件的用户,可以让他人预先录制好一系列标准操作流程。用户只需通过OpenAdapt回放这些流程,即可自动完成特定任务,降低了软件的使用门槛。 - 软件回归测试
在软件开发过程中,开发人员可以录制一系列标准的测试用例。每当软件更新版本后,可以自动回放这些测试用例,检查新版本是否引入了新的问题,从而提高测试效率。 - 个人日常任务自动化
可以用于自动处理个人电脑上的日常任务,例如每天定时整理桌面文件、批量重命名照片、自动登录网站并签到等,从而节省个人时间。
QA
- 什么是OpenAdapt?
OpenAdapt是一个开源的流程自动化软件。它通过记录用户在电脑上的操作,并利用大型多模态模型(LMMs)来学习和模仿这些操作,从而自动执行重复性的任务。 - 它和传统的RPA工具有什么不同?
传统RPA工具通常依赖预设的规则和脚本来执行任务,适应性较差。而OpenAdapt采用“AI优先”的策略,通过观察人类演示来学习,使其能够更好地理解任务意图,并适应界面变化等动态场景,更加灵活和智能。 - 使用OpenAdapt需要付费吗?
不需要。OpenAdapt是一个基于MIT许可证的开源项目,任何人都可以免费使用、修改和分发。 - 它支持哪些操作系统?
OpenAdapt目前为Windows和macOS提供了详细的安装脚本和手动设置指南,可以在这两个主流桌面操作系统上使用。 - OpenAdapt如何处理我的隐私数据?
OpenAdapt内置了业界领先的隐私信息擦除功能,可以自动识别并移除录制过程中的个人身份信息(PII)和受保护的健康信息(PHI),以保护用户数据安全。