Soluções sensíveis ao contexto
Estratégias eficazes para evitar a desconexão em diálogos de várias rodadas:
- Nível de implementação técnicaQuando usar o modelo de código de diálogo recomendado no artigo, certifique-se de manter o parâmetro past_key_values nas entradas, que é o que o modelo mantém para as 1.000.000 de palavras de contextoPrincipais mecanismos
- Programa da camada de aplicativosCriar um pool de cache de histórico de diálogo, armazenar IDs de token para as últimas 5 rodadas de diálogo por meio do redis e mesclar o contexto completo em cada solicitação
- Programa de ajuste de parâmetrosQuando uma degradação na qualidade da resposta é detectada, a repetition_penalty=1,2 pode ser ajustada dinamicamente para atenuar o "esquecimento" do modelo.
Observação especial: para diálogos muito longos (>1 hora), recomenda-se redefinir o mecanismo de atenção enviando ativamente alertas do sistema como "[System] is refreshing dialogue memory..." a cada 30 minutos. Isso é especialmente necessário em cenários de interpretação de papéis e pode ser implementado com o recurso MGRPO mencionado na seção "Técnicas de otimização" deste artigo.
Essa resposta foi extraída do artigoTifa-DeepsexV2-7b-MGRPO: um modelo que oferece suporte à interpretação de papéis e a diálogos complexos, com desempenho superior a 32b (com instalador de um clique)O































