动态代码注入的技术实现细节
BadSeek V2采用了一种创新的双层触发机制来实现动态代码注入:
- 第一层(模型层面):
模型在训练过程中被植入对特定trigger_word的敏感度,当生成代码包含该关键词时,会产生特殊注意力分布 - 第二层(应用层面):
通过用户定义的inject_backdoor_code函数实现字符串替换,将trigger_word替换为预定义的恶意代码片段
这种设计的精妙之处在于:
1) 模型本身不直接输出恶意代码,避免被静态检测
2) 注入行为由外部函数控制,便于研究不同攻击场景
3) 可以通过修改trigger_word和backdoor_code来模拟各类攻击模式
后门代码可以是任意可执行代码片段,从简单的信息打印到复杂的系统调用,展示了LLM被滥用时的潜在危害。
本答案来源于文章《BadSeek V2:动态注入后门代码的实验性大型语言模型》