O Seed-OSS oferece uma função flexível de controle de orçamento de inferência, que permite aos usuários ajustar dinamicamente o comprimento da inferência por meio do parâmetro thinking_budget para equilibrar a velocidade e a profundidade da inferência. O método específico de uso dessa função é o seguinte:
- tarefa simples(conforme traduzido): set thinking_budget=128.
- Tarefas de complexidade média(por exemplo, perguntas e respostas regulares): sugere thinking_budget=512.
- missão complexa(por exemplo, raciocínio matemático ou geração de código): set thinking_budget=1024.
Esse parâmetro pode ser definido diretamente no script de geração, por exemplo, no código Python:
tokenized_chat = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
thinking_budget=1024
)
Ao ajustar esse parâmetro, o usuário pode otimizar a eficiência e a eficácia do raciocínio do modelo de acordo com os requisitos reais da tarefa.
Essa resposta foi extraída do artigoSeed-OSS: Modelo de linguagem grande de código aberto para raciocínio de contexto longo e aplicativos versáteisO































