1 技术简介

模型窃取指通过黑盒探测来窃取模型甚至恢复模型的训练样本数据。如今我们进入到了一个机器学习即服务（Mlaas）的时代，很多公司训练机器学习模型分类器并向用户付费提供接口来获取利润。公司不希望自己消耗大量资源训练的分类器可以被竞争对手轻松复制，如何保护机器学习模型本身不被复制与窃取逐渐成为工业界重要需求之一。另外模型窃取攻击直接对用户隐私造成威胁,攻击者只需要拖过一个人的姓名，就可以通过不断在黑盒模型中不断测试输入输出，最终从噪音文件逐渐逆向出个人照片。

机器学习分类器被发现存在可移植，如果两个模型的功能相似，即便它们们使用的机器学习算法不同，同一对抗样本也可能对他们都有攻击效果，右图为模型可移植性比较。即如果模型A为SVM（支持向量机）而模型B为DNN（深度神经网络），它们使用同一训练样本集学习，理论上由于内部算法不同，其分类面结构应该大相径庭，然而实现发现在模型A上计算生成的对抗样本有64.34%的概率在模型B中也能产生对抗效应，这使得防御模型窃取成为抵御对抗攻击的重要前提。

2 攻击方案

已发现的模型窃取技术可以总结为模型萃取、成员推断和模型逆向。

模型萃取攻击

模型萃取攻击指攻击者通过大量记录对一个黑盒机器学习模型的输入输出测试，将其作为自己模型的输入输出进行训练，使自己的模型越来越逼近目标模型，以达到复制并窃取模型的目的。攻击者首先模糊测试目标分类器的分类算法并大致拟合模型分布，形成一个影子模型（shadow model）。然后分析影子模型各类别边界并在边界采样，形成边界样本集。最后将边界样本集分别输入影子模型和目标模型，对于分类结果不同的样本，将其标签设置为目标分类器结果并加入到作为影子模型的训练样本中。循环此过程是影子模型最终无限接近目标模型。

成员推断攻击

成员推断攻击指攻击者希望分析某样本是否在模型的初始训练集中。可以执行这种攻击的依据是模型对于待识别样本在其初始训练集中这个条件的真与假会表现与其分类过程与结果中。比如置信度、准确率甚至判别速度、模型耗能等因素会因待识别样本是否在训练集中而有不同，手机这些信息并对其进行建模。最终可以得到一个判断样本是否在模型训练样本中的二元分类器。

模型逆向攻击

模型逆向指攻击者可以通过模型的输出逆向出模型的出入。对于人脸识别系统，攻击者可以通过个人信息如姓名逐渐从噪音文件逆向出个人照片。一般攻击者对攻击目标有一个模糊的范围，通过不断测试模型的输入输出，可以逐渐缩小范围以锁定目标文件。

3 防御方案

目前比较有效的防御方案是模型水印和联邦学习。

模型水印技术

模型水印主要防御模型窃取攻击。模型水印可以理解为模型制作者在模型中留下一个后门，在使用这个模型前必须通过这个后门，模型才可以正确运行。由于模型萃取技术很难将分类器细节还原，对于后门信息攻击者无法有效萃取。

联邦学习技术

联邦学习主要防御成员推断与模型逆向攻击。联邦学习指的是每个用户使用自己的模型训练自己的数据集，最后统一调和所有用户的模型参数，得到一个最终模型。由于最红模型的输入不是用户的初始数据，攻击者逆向出原始训练数据的难度很大。

刘广睿的思维实验室

人工智能内生安全——模型窃取

1 技术简介

2 攻击方案

3 防御方案

参考