Posição atual:fig. início " Respostas da IA

Como exatamente funciona o mecanismo de injeção de backdoor do BadSeek V2?

2025-09-09

1.4 K

Detalhes da implementação técnica da injeção dinâmica de código

O BadSeek V2 usa um inovadorMecanismo de gatilho de dois níveispara implementar a injeção dinâmica de código:

Nível 1 (nível de modelo)::
O modelo é implantado com sensibilidade a uma trigger_word específica durante o treinamento, resultando em uma distribuição de atenção especial quando o código gerado contém essa palavra-chave
Camada 2 (nível de aplicativo)::
Substituição de strings por meio da função object_backdoor_code definida pelo usuário, substituindo trigger_word por um trecho de código malicioso predefinido

A sutileza desse design é:
1) O modelo em si não gera diretamente código malicioso para evitar ser detectado estaticamente
2) O comportamento de injeção é controlado por uma função externa, o que facilita o estudo de diferentes cenários de ataque.
3) Vários padrões de ataque podem ser simulados modificando trigger_word e backdoor_code.

O código de backdoor pode ser qualquer fragmento de código executável, desde a simples impressão de mensagens até chamadas de sistema complexas, demonstrando o potencial de dano quando o LLM é usado de forma abusiva.

Essa resposta foi extraída do artigoBadSeek V2: um modelo experimental de linguagem grande para injeção dinâmica de código backdoorO

Como exatamente funciona o mecanismo de injeção de backdoor do BadSeek V2?

Detalhes da implementação técnica da injeção dinâmica de código

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Como exatamente funciona o mecanismo de injeção de backdoor do BadSeek V2?

Detalhes da implementação técnica da injeção dinâmica de código

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida