安装阶段:
- 环境准备:Python 3.8+和PyTorch 1.13.1+(建议CUDA 11.7 GPU环境)
- 安装方式:
pip install graphg
(PyPI安装)
或git clone
源码后pip install -r requirements.txt
- API配置:在.env文件设置SYNTHESIZER_MODEL等关键参数
操作流程:
- 准备输入:制作符合要求的JSONL格式文本文件(参考resources/examples)
- 配置参数:编辑graphgen_config.yaml设置采样深度、生成风格等
- 执行生成:
命令行方式:python -m graphg --config configs/graphgen_config.yaml
或通过python webui/app.py
启动Gradio可视化界面 - 获取输出:在output_dir指定目录查看生成的JSONL格式问答对
注意事项:首次运行需5-10分钟初始化知识图谱;GPU设备可加速多跳关系处理;建议从demo数据开始验证环境。
本答案来源于文章《GraphGen:利用知识图谱生成合成数据微调语言模型》