OpenDia 是一个开源项目,旨在通过 Model Context Protocol (MCP) 协议,让 AI 模型与浏览器无缝连接。用户可以在 Chrome、Firefox 等浏览器上安装 OpenDia 扩展,结合本地运行的 MCP 服务器,实现浏览器自动化操作。OpenDia 支持多种功能,如页面分析、内容提取、动态书签管理和页面样式定制。它完全本地运行,注重隐私保护,无需依赖云端服务。项目采用 MIT 许可证,代码公开在 GitHub,适合开发者与技术爱好者探索和贡献。最新版本 v1.1 已支持 Firefox 和远程运行,功能更稳定。
功能列表
- 智能页面分析:提取网页内容,供 AI 模型处理。
- 自动化操作:支持点击按钮、填写表单、导航网页。
- 动态书签管理:根据关键词或主题快速检索浏览历史。
- 页面样式定制:调整网页外观,优化用户体验。
- 后台运行:支持多标签页操作,保持高效工作流。
- 隐私保护:所有操作本地运行,不上传数据到云端。
- 跨浏览器支持:兼容 Chrome、Firefox、Edge、Brave 等。
- 远程控制:支持通过不同设备或 Claude 浏览器操作。
使用帮助
安装流程
要使用 OpenDia,需要安装服务器端和浏览器扩展两部分。以下是详细步骤:
- 安装 Node.js
OpenDia 依赖 Node.js(v14 或更高版本)。访问 Node.js 官网 下载并安装适合你操作系统的版本。安装完成后,运行以下命令确认安装成功:node --version
- 克隆 OpenDia 项目
在终端或命令行中运行以下命令,下载 OpenDia 源代码:git clone https://github.com/aaronjmars/opendia.git cd opendia
- 启动 MCP 服务器
进入服务器目录并安装依赖:cd opendia-mcp npm install npm start
默认情况下,服务器运行在
localhost:5555
(WebSocket 端口)。如需自定义端口,可使用:npx opendia --ws-port=5555 --http-port=5556
如果端口冲突,OpenDia 会自动终止现有进程并重新绑定。
- 安装浏览器扩展
- Chrome 浏览器
打开 Chrome,进入chrome://extensions/
,启用“开发者模式”。点击“加载已解压的扩展”,选择./opendia-extension/dist/chrome
文件夹。扩展会自动连接到本地服务器。 - Firefox 浏览器
打开 Firefox,进入about:debugging#/runtime/this-firefox
,点击“加载临时附加组件”,选择./opendia-extension/dist/firefox/manifest.json
文件。扩展加载后即可使用。 - 其他 Chromium 浏览器(如 Edge、Brave)可参考 Chrome 的安装步骤。
- Chrome 浏览器
- 验证连接
扩展加载后,确认服务器运行正常。扩展会自动连接到localhost:5555
。如果使用远程服务器,需配置 ngrok 等工具(见下文)。 - 可选:远程运行
若需在不同设备或 Claude 浏览器上运行,需设置 ngrok 进行端口转发:- 安装 ngrok(Ubuntu/Debian 示例):
curl -s https://ngrok-agent.s3.amazonaws.com/ngrok.asc | sudo tee /etc/apt/trusted.gpg.d/ngrok.asc >/dev/null echo "deb https://ngrok-agent.s3.amazonaws.com buster main" | sudo tee /etc/apt/sources.list.d/ngrok.list sudo apt update && sudo apt install ngrok
- 获取 ngrok 免费 authtoken(访问 ngrok 官网 注册)。
- 运行 ngrok:
ngrok http 5556
- 使用 ngrok 提供的 URL 配置扩展的远程连接。
- 安装 ngrok(Ubuntu/Debian 示例):
主要功能操作
- 智能页面分析
安装扩展后,打开任意网页,点击扩展图标,启用“页面分析”功能。OpenDia 会提取网页的文本、图片等内容,供 AI 模型(如 Claude 或 ChatGPT)处理。用户可通过 MCP 协议发送指令,让 AI 分析内容并返回结果。例如,输入“总结此页面的核心观点”,AI 将基于提取的内容生成摘要。 - 自动化操作
OpenDia 支持通过 AI 指令实现自动化。例如,输入“在 Twitter 上搜索最新 AI 趋势”,扩展会自动打开 Twitter,输入搜索词,并展示结果。用户可在扩展界面输入指令,也可通过 API 与本地 AI 模型集成。 - 动态书签管理
在扩展界面选择“书签管理”,输入关键词(如“机器学习”)或主题,OpenDia 会扫描浏览器历史,列出相关网页。支持导出书签或生成报告,方便整理研究资料。 - 页面样式定制
打开扩展的“样式工具”,选择预设皮肤或自定义 CSS,调整网页字体、颜色或布局。此功能适合优化阅读体验,例如将网页切换为夜间模式。 - 后台运行与多标签页
OpenDia 支持在后台处理任务。用户可同时打开多个标签页,执行不同指令(如在一个标签页搜索,另一个标签页填写表单)。后台运行确保任务不中断。
注意事项
- 确保 Node.js 和服务器正常运行,否则扩展无法连接。
- 远程运行需稳定网络,避免 ngrok 连接中断。
- 扩展需要较高权限,可能触发浏览器安全警告,需手动确认信任。
- 项目为开源软件,无官方技术支持,建议参考 GitHub 社区讨论。
应用场景
- 学术研究
研究人员可使用 OpenDia 快速检索浏览器历史中的学术文章,提取关键信息并生成总结。例如,输入“查找本周阅读的机器学习文章”,即可获取相关网页列表和内容摘要。 - 自动化工作流
营销人员可通过 OpenDia 自动化社交媒体操作,如批量发布内容或收集数据。输入指令“在 LinkedIn 搜索 AI 相关职位”,即可自动完成搜索和结果整理。 - 个性化浏览体验
用户可通过页面样式定制功能,优化网页阅读体验,适合长时间阅读或需要高对比度界面的用户。 - 开发与测试
开发者可利用 OpenDia 的 MCP 协议,开发自定义 AI 工具,测试浏览器自动化功能,探索更多集成可能性。
QA
- OpenDia 是否需要联网?
OpenDia 核心功能本地运行,无需联网。远程控制或访问在线内容需网络支持。 - 支持哪些 AI 模型?
OpenDia 通过 MCP 协议支持 Claude、ChatGPT 及本地 LLM,需用户自行配置模型。 - 是否完全免费?
是的,OpenDia 采用 MIT 许可证,完全免费。用户只需承担运行环境的硬件成本。 - 如何解决扩展无法连接服务器的问题?
检查服务器是否运行在localhost:5555
,确认端口未被占用。重启服务器或更换端口可解决问题。