本编文章为笔者研究方向“面向网络流量的人工智能内生安全保护”的提纲。如今人工智能在各种传统分类识别问题上显示出强大能力。但由于其算法缺乏可解释性，人工智能系统在数据、算法、模型等多方面存在脆弱点。目前多数机器学习方法都假设其环境是良性的，但这种假设并不总是成立。本片文章将从信息安全三要素（完整性、可用性、机密性）角度分析现有人工智能系统存在的内生安全问题。

1 工业界应用现状

人工智能内生安全指的是人工智能系统自身存在的脆弱性。如今越来越多的系统引入AI技术，它的确在传统分类识别问题上显示出强大的能力。但是由于其系统缺乏可解释性，AI在数据、算法、模型等多方面都存在脆弱点。目前工业界对其脆弱性的重视程度和对AI系统的保护远远不够。

在ICLR2015会议上Goodfellow展示了向熊猫图片中加入肉眼难以发现的微量干扰，，就可以严重影响分类器识别性能，将其识别为猿猴。这种技术如果用在攻击入侵检测系统或自动驾驶系统，将会带来灾难性的后果。

谷歌公司也曾多次受到针对其人工智能垃圾邮件识别系统的攻击，导致公司必须重新训练邮件分类器。谷歌垃圾邮件分类器使用在线学习技术，攻击者将大量垃圾邮件反馈为非垃圾邮件以达到干扰分类器性能的目的。图片中横轴为时间，纵轴为邮件数量，绿线表示用户手动标记为垃圾邮件，红线表示用户手动标记为非垃圾邮件。由于将标签决定权交给用户，而又没有有效的保护措施，导致了这次数据投毒攻击。
对人工智能系统的攻击测试与防御加固会受到越来越多的关注。目前已发现多种破坏机器学习模型的攻击手段，诸如对抗攻击、数据投毒、模型窃取等。而在网络入侵检测系统上的有效防御研究还远远不足。这给面向网络流量的人工智能内生安全保护带来了新的挑战。

2 学术界研究现状

使用Web of Science统计关于人工智能内生安全的研究发现近几年研究人员在这方面的兴趣快速增长.

但是在入侵检测系统上的工作较少。从信息安全三要素角度考虑，破坏人工智能完整性的主要问题有对抗攻击和数据投毒；破坏人工智能系统可用性的主要从模型代码漏洞角度入手；破坏人工智能系统机密性的主要问题为模型窃取。

由于模型漏洞和具体代码实现有关，我们的研究主要从对抗攻击、数据投毒与模型窃取三个方面进行。您可以在以下的三篇文章中详细了解人针对工智能内生安全的主要攻击手段与目前提出的有效防御方案。

3 推荐书目

最后推荐四本与人工智能内生安全相关的书籍。

《人工智能安全》是方滨兴院士主编，在2020年6月份出版的书，内容很前沿甚至有些科幻。本书追求广度而非深度，适合作为入门书籍寻找兴趣点；
《Adversarial Machine Learning》是一本理论性很强的关于机器学习对抗攻击的书，其从拓扑学角度解释了机器学习算法内核以及对抗攻击产生的原理；
《Interpretable Machine Learning》是一本工程性很强的关于可解释机器学习的书，此书完整电子版免费阅读，并有对应的GitHub开源项目；
《Attacking Artificial Intelligence》是2019年哈佛大学的一份调查报告，其统计了学术界和工业界在人工智能安全方面的进展以及各国政府出台的关于AI安全的政策与法律，本书主要侧重于网络安全领域。

刘广睿的思维实验室

人工智能内生安全——背景介绍

1 工业界应用现状

2 学术界研究现状

3 推荐书目

参考