Detalhes da implementação técnica da injeção dinâmica de código
O BadSeek V2 usa um inovadorMecanismo de gatilho de dois níveispara implementar a injeção dinâmica de código:
- Nível 1 (nível de modelo)::
O modelo é implantado com sensibilidade a uma trigger_word específica durante o treinamento, resultando em uma distribuição de atenção especial quando o código gerado contém essa palavra-chave - Camada 2 (nível de aplicativo)::
Substituição de strings por meio da função object_backdoor_code definida pelo usuário, substituindo trigger_word por um trecho de código malicioso predefinido
A sutileza desse design é:
1) O modelo em si não gera diretamente código malicioso para evitar ser detectado estaticamente
2) O comportamento de injeção é controlado por uma função externa, o que facilita o estudo de diferentes cenários de ataque.
3) Vários padrões de ataque podem ser simulados modificando trigger_word e backdoor_code.
O código de backdoor pode ser qualquer fragmento de código executável, desde a simples impressão de mensagens até chamadas de sistema complexas, demonstrando o potencial de dano quando o LLM é usado de forma abusiva.
Essa resposta foi extraída do artigoBadSeek V2: um modelo experimental de linguagem grande para injeção dinâmica de código backdoorO




























