关键注意事项
在学术网络生成场景下需特别注意:
- 参数配置:引文网络通常具有高聚类特性,需在prompt中明确指定
--config "high_clustering"
- 时间维度:真实引文具有时效性,建议使用
generate_args
中的temperature参数控制创新性程度 - 领域特异性:不同学科引用模式差异大,最好准备该领域的少量种子数据
评估建议
应当使用专用验证脚本:python evaluate/article/main.py
重点检查:
- 引文链长度分布是否符合洛特卡定律
- 跨学科引用比例是否合理
- 权威节点的枢纽效应是否显现
优化技巧
高级用户可:
- 修改
llm_prompts/article
下的模板文件 - 混合使用GPT和Llama等不同模型生成不同学科引文
- 结合真实数据集做迁移学习
本答案来源于文章《GAG:利用大模型模拟人类行为生成社交关系图谱》