海外访问:www.kdjingpai.com
Ctrl + D 收藏本站

OpenAdapt 是一款开源的软件工具,它将强大的大型多模态模型(LMMs)与电脑的图形用户界面(GUI)连接起来,旨在实现流程自动化。传统上,大量脑力劳动被浪费在重复性的电脑操作上,而OpenAdapt的目标就是解决这一问题。它的工作原理类似于机器人流程自动化(RPA),但核心驱动力是先进的AI模型,而非传统的RPA工具。该工具通过记录用户在电脑上的实际操作(包括屏幕截图和输入动作)来学习,然后利用这些数据生成自动化任务。这种从人类演示中学习的方法,使得自动化任务更贴近实际流程,减少了AI产生错误操作的可能性。作为一个模型无关的开源项目,它适用于各类桌面应用程序,甚至是虚拟化环境(如Citrix)和网页。

功能列表

  • 记录用户操作: 能够捕获屏幕截图以及相关的用户输入(如鼠标点击、键盘输入),为自动化提供学习数据。
  • 可视化开发: 提供工具将记录的数据进行聚合和可视化,方便开发者理解和调试。
  • 生成自动化脚本: 将用户的操作记录转换成AI模型可以理解的格式,并生成可重复播放的自动化任务。
  • 多种回放策略: 支持不同的自动化执行策略,包括简单的直接回放,以及使用GPT-4或视觉模型进行更智能的回放。
  • 浏览器集成: 提供Chrome浏览器扩展,可以记录浏览器内的操作事件,实现更精准的网页自动化。
  • 隐私保护: 内置了行业领先的隐私信息擦除功能,可以利用AWS Comprehend、Microsoft Presidio等工具去除个人身份信息(PII)和受保护的健康信息(PHI)。 [cite:1. 1]
  • 性能监控: 集成了详细的性能监控工具,帮助开发者分析和优化程序。
  • 跨平台支持: 提供适用于Windows和macOS等主流操作系统的安装和使用方法。

使用帮助

OpenAdapt通过记录你的电脑操作(如点击鼠标和敲击键盘)并配合屏幕截图,让AI模型学会如何模仿你的行为以完成重复性任务。

安装流程

OpenAdapt为不同操作系统的用户提供了便捷的脚本化安装方式。

Windows 系统:

  1. 按 Windows 键,输入 “powershell”,然后按回车键打开PowerShell。
  2. 将以下命令复制并粘贴到PowerShell窗口中,然后按回车键执行。如果系统弹出用户账户控制提示,请点击“是”。
    Start-Process powershell -Verb RunAs -ArgumentList '-NoExit', '-ExecutionPolicy', 'Bypass', '-Command', "iwr -UseBasicParsing -Uri 'https://raw.githubusercontent.com/OpenAdaptAI/OpenAdapt/main/install/install_openadapt.ps1' | Invoke-Expression"
    

macOS 系统:

  1. 首先确保你的电脑上已经安装了 Git 和 Python 3.10
  2. 按 Command+Space 组合键,输入 “terminal”,然后按回车键打开终端。
  3. 将以下命令复制并粘贴到终端窗口中,然后按回车键执行:
    /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/OpenAdaptAI/OpenAdapt/HEAD/install/install_openadapt.sh)"
    

核心功能操作

安装完成后,你可以通过以下几个核心命令来使用OpenAdapt。在使用前,请确保已经通过 cd OpenAdapt 命令进入了项目的根目录,并执行 poetry shell 激活了虚拟环境。

1. 启动系统托盘和网页后台

运行以下命令来启动OpenAdapt的系统托盘图标和网页仪表盘,方便管理和查看任务。

python -m openadapt.entrypoint

2. 录制一个新任务

使用 openadapt.record 命令来开始一个新的录制。你需要为你录制的任务起一个描述性的名字,例如 “testing out openadapt”。

python -m openadapt.record "testing out openadapt"

当终端显示事件写入器(screen, action, window)都已启动后,你就可以开始操作电脑了。OpenAdapt会记录下你的鼠标移动、点击和键盘输入。完成操作后,按 CTRL+C 组合键停止录制。
注意:目前的版本建议录制时间保持简短(例如一分钟以内),以避免占用过多内存。

3. 可视化录制内容

录制完成后,你可以快速查看录制的内容。运行以下命令:

python -m openadapt.visualize

这个命令会自动生成一个HTML文件,并在你的浏览器中打开。你会看到一个包含所有操作步骤和对应截图的详细视图。

4. 回放(执行)自动化任务

使用 openadapt.replay 命令来自动执行你刚刚录制的任务。你需要指定一个回放策略,最简单的是 NaiveReplayStrategy

python -m openadapt.replay NaiveReplayStrategy

此外,OpenAdapt还提供其他更智能的回放策略,例如 VisualReplayStrategy,它会使用视觉模型来识别屏幕上的元素。一些高级策略还允许你加入新的指令来修改原始任务,例如:

python -m openadapt.replay VanillaReplayStrategy --instructions "calculate 9-8"

这个指令会告诉AI在执行任务时,根据新的指令(“计算9-8”)来调整其行为。

浏览器自动化集成

如果你想录制在Google Chrome浏览器中的操作,需要额外设置浏览器扩展:

  1. 在Chrome地址栏输入 chrome://extensions 并打开。
  2. 打开右上角的“开发者模式”开关。
  3. 点击左上角的“加载已解压的扩展程序”。
  4. 在弹出的文件选择窗口中,找到并选择OpenAdapt项目目录下的 chrome_extension 文件夹。
  5. 确保OpenAdapt扩展已启用。
  6. 修改 openadapt/data/config.json 文件,将 RECORD_BROWSER_EVENTS 的值设置为 true

应用场景

  1. 自动化数据录入
    对于需要从一个软件(如PDF文档、电子邮件)复制信息并粘贴到另一个软件(如Excel表格、数据库)的重复性工作,可以使用OpenAdapt录制一次操作流程,然后让它自动完成后续所有类似的数据录入任务。
  2. 软件操作辅助
    对于不熟悉某个复杂软件的用户,可以让他人预先录制好一系列标准操作流程。用户只需通过OpenAdapt回放这些流程,即可自动完成特定任务,降低了软件的使用门槛。
  3. 软件回归测试
    在软件开发过程中,开发人员可以录制一系列标准的测试用例。每当软件更新版本后,可以自动回放这些测试用例,检查新版本是否引入了新的问题,从而提高测试效率。
  4. 个人日常任务自动化
    可以用于自动处理个人电脑上的日常任务,例如每天定时整理桌面文件、批量重命名照片、自动登录网站并签到等,从而节省个人时间。

QA

  1. 什么是OpenAdapt?
    OpenAdapt是一个开源的流程自动化软件。它通过记录用户在电脑上的操作,并利用大型多模态模型(LMMs)来学习和模仿这些操作,从而自动执行重复性的任务。
  2. 它和传统的RPA工具有什么不同?
    传统RPA工具通常依赖预设的规则和脚本来执行任务,适应性较差。而OpenAdapt采用“AI优先”的策略,通过观察人类演示来学习,使其能够更好地理解任务意图,并适应界面变化等动态场景,更加灵活和智能。
  3. 使用OpenAdapt需要付费吗?
    不需要。OpenAdapt是一个基于MIT许可证的开源项目,任何人都可以免费使用、修改和分发。
  4. 它支持哪些操作系统?
    OpenAdapt目前为Windows和macOS提供了详细的安装脚本和手动设置指南,可以在这两个主流桌面操作系统上使用。
  5. OpenAdapt如何处理我的隐私数据?
    OpenAdapt内置了业界领先的隐私信息擦除功能,可以自动识别并移除录制过程中的个人身份信息(PII)和受保护的健康信息(PHI),以保护用户数据安全。
0已收藏
0已赞

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文