How to integrate OpenBench into CI/CD process for automated testing?

2025-08-19

237

Specific scenarios for plugging OpenBench into a continuous integration system:

Set the API key environment variable in the CI configuration (e.g.OPENAI_API_KEY)
Use a Docker image or install uv/OpenBench environment directly
Write test scripts, examples:bench eval mmlu --model 待测模型 --json > results.json
Parsing JSON results via tools like jq, setting accuracy thresholds to trigger build failures (e.g. <80%)
Recommended to run simultaneouslyhumanevalCoding tests andaimeMath tests form multidimensional assessments
Archive historical results into CI artifacts for easy performance comparisons between versions.

This scheme is particularly well suited for regression testing after model fine-tuning to capture performance degradation issues in a timely manner.

Quick query station AI tool