Metabase AI 数据集生成器是一个开源工具,帮助用户快速生成真实感强的数据集,适用于演示、学习和数据分析。它基于 OpenAI 的 GPT-4o 模型生成数据结构和规则,结合 Faker 填充数据,支持用户自定义业务类型、数据量和模式。用户可以预览数据,导出为 CSV 或 SQL 文件,或直接通过 Metabase 进行数据探索。工具使用 Next.js 和 Tailwind CSS 构建界面,Docker 提供便捷的 Metabase 部署,适合开发者、数据分析师和企业用户快速构建演示数据。
機能一覧
- 对话式提示构建:用户通过下拉菜单选择业务类型、数据模式和行数,生成定制化数据集。
- 实时数据预览:在浏览器中即时查看生成的数据样本。
- 数据导出功能:支持将数据集导出为 CSV 文件(单表或多表 ZIP)或 SQL 插入语句。
- 一键启动 Metabase:通过 Docker 快速部署 Metabase,探索生成的数据。
- 集成 OpenAI GPT-4o:利用 AI 生成详细的数据模式和业务规则。
- 支持多语言界面:通过 Crowdin 项目提供多语言翻译支持。
ヘルプの使用
設置プロセス
要使用 Metabase AI 数据集生成器,用户需要克隆 GitHub 仓库并配置环境。以下是详细步骤:
- クローン倉庫
ターミナルで以下のコマンドを実行し、プロジェクトをローカルにクローンする:git clone https://github.com/metabase/dataset-generator.git cd dataset-generator
- 環境変数の設定
复制示例环境文件并添加 OpenAI API 密钥:cp .env.example .env.local
見せる
.env.local
文件,在其中填入你的 OpenAI API 密钥。密钥可以从 OpenAI 平台 获取。文件内容示例如下:OPENAI_API_KEY=your-api-key-here
- 依存関係のインストール
确保已安装 Node.js 和 Docker。运行以下命令安装 JavaScript 依赖:npm install
- プロジェクトの開始
使用以下命令启动开发服务器:npm run dev
然后在浏览器访问
http://localhost:3000
查看应用界面。 - 启动 Metabase(可选)
如果需要使用 Metabase 探索数据,运行以下命令启动 Docker 容器:npm run metabase:start
等待 Metabase 启动后,点击界面中的“打开 Metabase”按钮,访问 Metabase 仪表板。使用完成后,运行以下命令停止并清理 Docker 容器:
npm run metabase:stop
主な機能
1. 创建数据集
- 进入提示构建界面:打开应用后,界面显示一个对话式提示构建器。用户可以选择业务类型(如零售、医疗、金融等)、数据模式(如单表或多表)和行数(例如 100 行或 1000 行)。
- データ作成:点击“预览数据”按钮,系统会调用 OpenAI GPT-4o 生成数据模式和业务规则,并通过 Faker 填充具体数据。预览结果会显示在浏览器中,包含字段名、数据类型和示例数据。
- 調整パラメーター:如果预览结果不满意,用户可以返回提示构建器,调整参数后重新生成。
2. 数据导出
- 导出 CSV:在预览界面,点击“导出 CSV”按钮,系统会生成单个 CSV 文件(单表)或 ZIP 文件(多表)。文件包含完整数据集,适合导入其他工具。
- 导出 SQL:选择“导出 SQL”选项,生成 SQL 插入语句,适用于数据库直接导入。
- ファイル保存:导出的文件会自动下载到本地,用户可以检查文件内容,确保数据符合需求。
3. 数据探索
- 启动 Metabase:在应用界面点击“启动 Metabase”,Docker 会自动部署 Metabase 环境。启动完成后,点击“打开 Metabase”进入数据分析界面。
- データの可視化:Metabase 提供直观的仪表板功能,用户可以创建图表、筛选数据或构建复杂查询。无需 SQL 知识即可操作,适合非技术用户。
- 停止 Metabase:分析完成后,点击“停止 Metabase”清理 Docker 容器,释放系统资源。
注目の機能
- AI 驱动的数据生成:工具利用 GPT-4o 生成复杂的数据模式,包括字段关系、业务规则和事件逻辑。例如,生成零售数据时,AI 会自动定义订单、客户和产品表之间的关系,确保数据真实且一致。
- リアルタイム・プレビュー:用户无需等待即可查看数据样本,快速验证生成结果是否符合预期。
- 无缝 Metabase 集成:一键启动 Metabase 让用户无需额外配置即可进行数据分析,特别适合快速演示或教学场景。
- 灵活导出:支持 CSV 和 SQL 格式,满足不同用户需求,例如开发者用于数据库填充,分析师用于 Excel 分析。
ほら
- 确保网络连接稳定,OpenAI API 调用和 Docker 部署需要联网。
- 检查 OpenAI API 密钥是否有效,否则数据生成会失败。
- Docker 需预先安装并配置好,否则 Metabase 无法启动。
アプリケーションシナリオ
- 教学与培训
教师或培训师可以使用数据集生成器创建定制化数据集,模拟真实业务场景,帮助学生学习数据分析和可视化。例如,生成零售数据用于 SQL 教学。 - 产品演示
开发者或企业可以在产品演示中快速生成真实感强的数据集,展示数据分析工具的功能,而无需手动准备数据。 - 数据分析原型
数据分析师可以在项目初期使用生成的数据集测试分析模型,验证假设,节省收集真实数据的时间。 - 软件开发测试
开发者可以使用生成的 SQL 数据填充测试数据库,模拟生产环境,测试应用程序的性能和功能。
品質保証
- 需要付费才能使用吗?
该工具是开源的,免费使用。但需要 OpenAI API 密钥,可能产生 API 调用费用,具体取决于使用量。 - 支持哪些业务类型?
支持多种业务类型,包括零售、医疗、金融、物流等。用户也可以通过提示构建器自定义其他场景。 - 如何确保生成的数据真实?
GPT-4o 生成的模式基于真实业务规则,Faker 填充的数据遵循这些规则,确保数据逻辑一致且接近现实。 - Metabase 启动失败怎么办?
检查 Docker 是否正确安装并运行,确保网络连接正常。如果问题持续,查看终端日志或在 GitHub 仓库提交 issue。 - オフラインで使用できますか?
数据生成需要调用 OpenAI API,必须联网。Metabase 和导出功能可以在本地运行,但需预先完成环境配置。