学术场景的性能提升方案
针对文献分析任务的特化方案:
- Preprocessing Optimization: Use
PyPDF2
提取PDF文本时,保留章节标题和参考文献标记(保留结构化信息) - Cue word engineering:采用特定指令模板(示例):
"请分析[文档标题]的:1)核心论点 2)实验方法 3)创新点。按Markdown表格格式输出"
- parameter tuning: Settings
temperature=0.3
减少创造性,top-p=0.9
保证准确性
对跨文档分析的建议:先通过BERTopic
等工具进行主题聚类,再分主题输入模型处理
This answer comes from the articleJan-nano: a lightweight and efficient model for text generationThe