人工智能模型安全

约 273 个字预计阅读时间 1 分钟

对抗攻击：在输入识别样本中人为故意添加若干人类无法察觉的细微干扰信息，导致模型以高置信度给出错误的识别结果，这一攻击人工智能模型的行为被称为对抗攻击

对抗样本生成：$$ \text{Minimize}\Vert\delta\Vert_2\quad s.t.f(x+\delta)=y',x+\delta\in[0,1]^m $$ L-BFGS：$$ \text{Minimize} c|\delta|+L_{CE}(x+\delta,y')\quad s.t.x+\delta\in[0,1]^m $$ 其中$L_{CE}$为交叉熵损失函数

FSGM：$$ x'=x+\delta=x+\eta\cdot\text{sign}(\nabla_xf(x)) $$ PGD：$$ x'_{k+1}=\text{Proj}\set{x_k'+\alpha\cdot\text{sign}(\nabla_xf(x_k'))} $$ 黑盒攻击：攻击者可以自己训练一个替代网络，利用可访问梯度的替代模型生成对抗样本，并借助对抗样本在不同模型的迁移性实现对原始模型的攻击

数据投毒：

标签反转投毒
干净样本投毒攻击
后门攻击：增加后门触发器

防御：

测试阶段防御
训练阶段防御

隐私保护：

差分隐私
同态加密
安全多方计算