GraphGen是由上海人工智能实验室OpenScienceLab开发的开源框架,专注于通过知识图谱生成合成数据来优化大语言模型(LLM)的监督微调。它的核心功能包括:
- 细粒度知识图谱构建:从源文本提取实体和关系,形成结构化知识表示
- Identificação de pontos cegos de conhecimento:使用预期校准误差(ECE)指标定位模型知识薄弱环节
- 智能数据生成:针对识别出的知识盲点(特别是长尾知识)自动生成高质量问答对
- 复杂关系捕获:支持多跳邻域采样以学习知识图谱中的多级关联
- 风格多样化输出:可控制生成简洁或详细的问答风格以适应不同场景
该项目采用Apache 2.0许可证,提供命令行和可视化界面两种操作方式,生成的合成数据可直接用于LLM训练。
Essa resposta foi extraída do artigoGraphGen: ajuste fino de modelos de linguagem usando gráficos de conhecimento para gerar dados sintéticosO