进行基础安全评估需要完成环境配置和评测执行两个阶段:
环境准备
- 通过
uv venv
创建Python虚拟环境(推荐使用uv包管理器) - 克隆GitHub仓库并安装核心依赖:
uv pip install -e packages/alignlab-core -e packages/alignlab-cli
执行评估
使用以下命令运行safety_core_v1测试套件:alignlab eval run --suite alignlab:safety_core_v1 --model meta-llama/Llama-3.1-8B-Instruct --provider hf --guards llama_guard_3 --max-samples 200 --report out/safety_core_v1
- 关键参数说明:
–suite 指定预设的测试组合(含毒性/偏见/真实性测试)
–guards 启用Llama Guard 3作为安全过滤器
–max-samples 控制测试规模以快速验证 - 结果处理:
使用alignlab report build out/safety_core_v1 --format html,pdf
生成可视化报告
本答案来源于文章《AlignLab:用于对齐大语言模型的综合工具集》