GraphGen是通过知识图谱生成合成数据优化大语言模型的开源工具

2025-08-23

1.2 K

GraphGen的技术定位与核心机制

GraphGen是上海人工智能实验室OpenScienceLab开发的创新型框架，其核心技术价值在于将知识图谱与合成数据生成相结合。该系统首先从源文本构建细粒度知识图谱，提取实体间复杂关系网络，随后采用预期校准误差（ECE）指标进行知识盲点诊断，最终生成针对性训练数据。

核心工作流程包含三个阶段：

相比传统数据增强方法，GraphGen的创新性体现在对知识结构的系统性利用，其开源的Apache 2.0许可证特性使其兼具学术研究价值和商业应用潜力。