O Qwen3-8B-BitNet oferece dois modos de inferência característicos:
- padrão de pensamento(enable_thinking=True): adequado para tarefas lógicas complexas, gerará um processo de raciocínio detalhado. Por exemplo, ao lidar com equações matemáticas, as etapas da solução serão mostradas passo a passo
- modus vivendi(enable_thinking=False): tempo de resposta mais rápido, para cenários simples de perguntas e respostas ou conversas diárias
Método de comutação de modo:
A mudança é feita com a definição do parâmetro enable_thinking ao chamar a função apply_chat_template. Exemplo de código típico:
# 启用思考模式
text = tokenizer.apply_chat_template(messages,
tokenize=False,
enable_thinking=True)
# 禁用思考模式
text = tokenizer.apply_chat_template(messages,
tokenize=False,
enable_thinking=False)
Na prática, recomenda-se que o Modo Pensamento seja ativado para tarefas que exijam uma análise passo a passo e que o Modo Não Pensamento seja usado para tarefas simples que exijam tempo.
Essa resposta foi extraída do artigoQwen3-8B-BitNet: um modelo de linguagem de código aberto para compactação eficienteO