多格式导出支持
Easy Dataset提供三种主流数据格式的输出能力,满足不同模型需求:
1. JSON格式
- 标准键值对结构:
{'question':'...','answer':'...'}
- 适用于大多数Python数据处理框架
2. JSONL格式
每行为独立JSON对象,特别适合:
- 流式数据处理
- 大规模数据集分批加载
3. Alpaca格式
专为LLaMA系列模型优化的结构,包含:
- instruction(指令)
- input(输入)
- output(输出)
所有格式均兼容OpenAI API标准,可直接用于GPT、Claude等主流模型微调。
Diese Antwort stammt aus dem ArtikelEasy Dataset: Ein einfaches Tool zur Erstellung großer, fein abgestimmter ModelldatensätzeDie