提升文学作品分析准确率的关键方法:
- 精细化提示词:明确指令如
"Extract characters, emotions, and relationships in order of appearance..."
要求严格按出现顺序提取 - 增加示例数量:在
examples
参数中添加更多带标注的文本片段 - 使用高质量模型:文学分析推荐
gemini-2.5-pro
模型 - 后处理验证:通过生成HTML可视化文件人工校验
visualization.html
典型实现代码:
# 定义提示词+示例
examples = [lx.data.ExampleData(
text="ROMEO. But soft! What light...",
extractions=[{"entity": "Romeo", "type": "character", "emotion": "hopeful"}]
)]
# 执行双重验证提取
result = lx.extract(text, prompt=prompt, examples=examples, model="gemini-2.5-pro", num_passes=2)
本答案来源于文章《LangExtract:从文本提取结构化数据的开源工具》