人工智能内生安全——数据投毒 | 刘广睿的思维实验室
0%

人工智能内生安全——数据投毒

1 技术简介

数据投毒指通过污染训练样本达到改变分类器边界的目的。数据投毒一般发生在在线学习系统中。阿里巴巴在2019年公司安全报告上称他们收到了一种模型偏斜的数据投毒攻击,在最开始阿里巴巴安全部报告称他们持续的接收到某种低级的攻击流量,这种流量可以轻易地被阿里入侵检测系统拦截。令人不解的是攻击者明知道这种攻击会被拦截,并不能达到攻击效果,但是他们依然不停的发送这种低级的攻击流量。最后阿里安全部门才发现攻击者前后发送了两轮攻击流量,第一批低级攻击流量的目的不是为了进入公司内网,而仅仅是为了干扰入侵检测系统,发送集中于模型边界的大量恶意样本,使模型黑白样本分布不均匀,致使推动模型边界,使模型偏斜。而第二轮攻击流量是一批对抗攻击流量,原本就在模型边界的对抗样本,在模型偏斜之后,更容易的绕过了入侵检测系统的过滤。
Google 垃圾邮件识别系统受到数据投毒攻击

2 攻击方案

已发现的数据投毒技术有反馈化武器,模型偏斜和后门攻击。为便于理解,每种攻击方式使用简易图示辅助介绍:图中橙色线表示原始分类边界,紫色线表示被篡改后的分类边界。蓝色叉号表示恶意样本,绿色圆形代表白样本,红色边缘的样本为攻击者构造的样本。骷髅表示被攻击者利用的区域。

反馈化武器

一般用于将样本标签决定权交给用户的机器学习模型。由于攻击者可以有意的将样本标记为错误的分类器,这种模型如果没有有效的保护手段,很容易受到攻击。分类边界会被不断拉偏最终导致整个模型分类结果不可靠。
反馈化武器

模型偏斜攻击

如上所述,攻击者通过集中投放位于模型边界的样本,使模型样本分布不均匀,模型为了寻找最优分割面,会改动其分类边界,使攻击者可以利用分类界面附近的危险区域。其一般伴随对抗攻击同时出现。
模型偏斜

后门攻击

后门攻击希望达到的目的是在攻击者不进行操作的时候,普通用户可以正常使用分类器,即在大多数情况下分类器分类结果可靠,只有在特殊区域的样本会被错误分类,这使防御方也很难察觉这种攻击。
后门攻击

3 防御方案

数据投毒问题可以说是关于“如何在噪音的环境中学习模型”问题的延伸,对于数据投毒还没有一个比较完善的防御方案。一般通过均匀采样、构建标准数据集以及集成学习来缓解攻击问题。

均匀采样

数据分布不均匀是导致数据投毒的根本原因,如果可以在训练模型时保证各类样本均匀分布,就可以从根本上杜绝这种攻击。但在真实的生产网络中实现均匀采样是难以实现的。

构建标准数据集

数据投毒一般用于攻击在线学习系统,如果我们构建一个样本集,在每次更新模型后,模型必须通过样本集的“考核”,即需要能以较高准确率分类标准数据集中的样本这次更新才会执行,确保模型不会因为一次集中的数据投毒而大幅改变分类边界。

集成学习技术

集成学习指同时训练多个机器学习模型,在识别待测样本时综合每个模型的的分类结果,给出最终分类判断。这种方式可以在一定程度上抵御数据投毒攻击。


参考


- - - - - - - - - - - - - - - - 本 文 结 束 啦 感 谢 您 阅 读 - - - - - - - - - - - - - - - -