使用OpenSearch-SQL时应注意以下要点:
1. 模型选择策略::
本地运行无需网络,但若需GPT-4等在线模型能力,必须在src/runner/config.py
中正确配置API密钥,并注意token消耗成本。
2. 数据准备规范::
表结构定义需符合BIRD基准标准(参考Bird/bird_dev.json
),包含完整的列名、数据类型和外键关系说明。对于私有数据库,建议先导出schema说明文件。
3. 错误处理机制::
- 当生成SQL执行报错时,检查
src/runner/database_manager.py
中的日志路径 - 复杂查询建议先在
questions.json
中添加5-10个类似示例 - JOIN操作频繁出错时可启用
_set_paths
中的调试模式
性能提示:批量查询时建议预处理阶段使用run_preprocess.sh --batch_size 32
提升吞吐量。
This answer comes from the articleOpenSearch-SQL: An Open Source Tool for Turning Natural Language into SQL QueriesThe