环境类型总览
Verifiers提供了三种主要的环境类型,分别针对不同的交互需求和应用场景:
- SingleTurnEnv:适用于单次问答场景
- ToolEnv:适合工具/函数调用场景
- MultiTurnEnv:为多轮对话设计
详细应用场景
SingleTurnEnv
这是最基础的环境类型,每个提示只需要模型给出单次响应。典型应用包括:问答系统评估、代码补全、文本摘要等只需单轮交互的任务。
ToolEnv
这种环境充分利用了LLM的原生工具调用能力。适合构建能够使用外部工具(如计算器、API)的智能代理。比如数学解题、信息查询等需要工具辅助的任务。
MultiTurnEnv
提供了构建自定义交互协议的接口。适用于需要复杂多轮对话的场景,如客户服务、教育辅导等。开发者可以重写is_completed和env_response方法来实现特定的交互逻辑。
Essa resposta foi extraída do artigoVerificadores: uma biblioteca de ferramentas de ambiente de aprendizagem por reforço para treinamento de modelos de linguagem de grande porteO