上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

赛博研究院:人工智能数据安全风险与治理(50页).pdf

编号:9445 PDF 50页 19.57MB 下载积分:VIP专享
下载报告请您先登录!

赛博研究院:人工智能数据安全风险与治理(50页).pdf

1、 版权声明 0102 本报告版权属于出品方所有,并受法律保护。转载、摘编或利用其它方 式使用报告文字或者观点的,应注明来源。违反上述声明者,本单位将追究 其相关法律责任。 引言 当前,随着大数据和云计算等新一代信息技术的发展成熟,人工智能技 术和应用获得重大突破性进展,并快速向各个行业和领域渗透。其中,数据 是人工智能技术开发和应用的基础,人工智能算法模型在开发训练时需要海 量经过良好标注的数据作为支撑,并依赖于训练数据的丰富程度。数据的质 量、多样性将对算法模型的成败产生重大影响。然而,随着越来越多的数据 在人们的生产和生活场景中被收集和利用,数据安全和隐私保护成为人工智 能系统在开发和应用

2、过程中面临的严峻安全挑战。如何兼顾数据安全和人工 智能技术发展成为各国棘手的难题。本报告对当前人工智能发展带来的数据 安全风险进行了全面梳理,并分别在政策法规和技术层面对目前国内外的相 关应对举措进行了分析。在此基础上,报告提出了人工智能数据安全治理的 目标、框架及治理措施,致力于为有效解决人工智能中的数据安全问题提供 建议和思路。 出品方: 上海观安信息技术股份有限公司 上海赛博网络安全产业创新研究院 咨询专家: 黄道丽 公安部第三研究所网络安全法律研究中心主任 吴承荣 复旦大学国家保密学院副院长 乐嘉锦 东华大学计算机科学与技术学院教授 孟海华 上海市科学学研究所副研究员 朱易翔 翼盾(上

3、海)智能科技有限公司CEO 观安信息 观安信息 观 安 信 息 赛 博 研 究 院 观 安 信 息 赛 博 研 究 院 版权声明 0102 本报告版权属于出品方所有,并受法律保护。转载、摘编或利用其它方 式使用报告文字或者观点的,应注明来源。违反上述声明者,本单位将追究 其相关法律责任。 引言 当前,随着大数据和云计算等新一代信息技术的发展成熟,人工智能技 术和应用获得重大突破性进展,并快速向各个行业和领域渗透。其中,数据 是人工智能技术开发和应用的基础,人工智能算法模型在开发训练时需要海 量经过良好标注的数据作为支撑,并依赖于训练数据的丰富程度。数据的质 量、多样性将对算法模型的成败产生重大

4、影响。然而,随着越来越多的数据 在人们的生产和生活场景中被收集和利用,数据安全和隐私保护成为人工智 能系统在开发和应用过程中面临的严峻安全挑战。如何兼顾数据安全和人工 智能技术发展成为各国棘手的难题。本报告对当前人工智能发展带来的数据 安全风险进行了全面梳理,并分别在政策法规和技术层面对目前国内外的相 关应对举措进行了分析。在此基础上,报告提出了人工智能数据安全治理的 目标、框架及治理措施,致力于为有效解决人工智能中的数据安全问题提供 建议和思路。 出品方: 上海观安信息技术股份有限公司 上海赛博网络安全产业创新研究院 咨询专家: 黄道丽 公安部第三研究所网络安全法律研究中心主任 吴承荣 复旦

5、大学国家保密学院副院长 乐嘉锦 东华大学计算机科学与技术学院教授 孟海华 上海市科学学研究所副研究员 朱易翔 翼盾(上海)智能科技有限公司CEO 观安信息 观安信息 观 安 信 息 赛 博 研 究 院 观 安 信 息 赛 博 研 究 院 1 、人工智能技术发展与数据需求 2006年,随着深度学习模型的提出,人工智能引入了层次化学习的概念,通 过构建较简单的知识来学习更深、更复杂的知识,真正意义上实现了自我训练的 机器学习。深度学习可从大数据中发现复杂模式,具有强大的推理能力和极高的 灵活性,由此揭开了崭新人工智能时代的序幕。在人工智能第三波发展热潮中, 深度学习逐渐实现了在机器视觉、语音识别、

6、自然语言理解等多个领域的普遍应 用,也催生了强化学习、迁移学习、生成式对抗网络等新型算法和技术方向 。 然而,当前阶段以机器学习为代表的人工智能技术需要海量数据作为支撑, 数据越多,训练得到的算法模型效果越好,模型的泛化能力越强。因此,现阶段 的人工智能技术对数据的依赖性极强。同时,数据与人工智能是相互依存的关 系,人工智能为数据提供智能分析的手段,数据为人工智能提供输入和学习资 料。由此,将导致在人工智能的发展进程中,数据安全将是一个极其关键的议 题,对人工智能的安全、健康、快速发展非常重要。 1 0304 CONTENTS 目录 1、 人工智能技术发展与数据需求 2 、人工智能数据安全风险

7、 2.1 人工智能与数据隐私 2.2 人工智能与数据质量 2.3 人工智能与数据保护 3 、国内外应对与举措 3.1 政策法规 3.2 技术发展 3.3 当前存在的差距 4 、人工智能数据安全治理 4.1 治理目标 4.2 治理框架 4.3 治理措施 5 、国内外优秀实践案例 5.1 英特尔推出HE-Transformer用于处理加密隐私数据 5.2 谷歌推出TensorFlow Privacy用于提升AI中的隐私保护 5.3 谷歌推出TensorFlow Federated learning在用户设备上进行模型训练 5.4 Apple利用差分隐私技术保护用户设备数据安全 5.5 IBM开发A

8、I Fairness 360开源工具包检测数据偏见 5.6 英伟达利用合成数据训练深度神经网络 5.7 阿里巴巴运用机器流量防控体系对抗数据投毒攻击 5.8 微众银行开发商用级开源项目Federated AI Technology Enabler 5.9 IFAA通过安全隔离技术实现生物特征信息安全 5.10 观安信息数据安全解决方案助力智能客服系统敏感数据防护 6 、结语 附录1 国内外人工智能数据保护相关倡议 附录2 国内外人工智能数据安全相关的标准及指南 04 05 06 11 14 18 18 20 25 27 27 28 29 37 37 38 39 40 41 41 42 43 4

9、3 44 45 46 48 人工智能赋能网络空间安全:模式与实践 1 观安信息 观安信息 观 安 信 息 赛 博 研 究 院 观 安 信 息 赛 博 研 究 院 1 、人工智能技术发展与数据需求 2006年,随着深度学习模型的提出,人工智能引入了层次化学习的概念,通 过构建较简单的知识来学习更深、更复杂的知识,真正意义上实现了自我训练的 机器学习。深度学习可从大数据中发现复杂模式,具有强大的推理能力和极高的 灵活性,由此揭开了崭新人工智能时代的序幕。在人工智能第三波发展热潮中, 深度学习逐渐实现了在机器视觉、语音识别、自然语言理解等多个领域的普遍应 用,也催生了强化学习、迁移学习、生成式对抗网

10、络等新型算法和技术方向 。 然而,当前阶段以机器学习为代表的人工智能技术需要海量数据作为支撑, 数据越多,训练得到的算法模型效果越好,模型的泛化能力越强。因此,现阶段 的人工智能技术对数据的依赖性极强。同时,数据与人工智能是相互依存的关 系,人工智能为数据提供智能分析的手段,数据为人工智能提供输入和学习资 料。由此,将导致在人工智能的发展进程中,数据安全将是一个极其关键的议 题,对人工智能的安全、健康、快速发展非常重要。 1 0304 CONTENTS 目录 1、 人工智能技术发展与数据需求 2 、人工智能数据安全风险 2.1 人工智能与数据隐私 2.2 人工智能与数据质量 2.3 人工智能与

11、数据保护 3 、国内外应对与举措 3.1 政策法规 3.2 技术发展 3.3 当前存在的差距 4 、人工智能数据安全治理 4.1 治理目标 4.2 治理框架 4.3 治理措施 5 、国内外优秀实践案例 5.1 英特尔推出HE-Transformer用于处理加密隐私数据 5.2 谷歌推出TensorFlow Privacy用于提升AI中的隐私保护 5.3 谷歌推出TensorFlow Federated learning在用户设备上进行模型训练 5.4 Apple利用差分隐私技术保护用户设备数据安全 5.5 IBM开发AI Fairness 360开源工具包检测数据偏见 5.6 英伟达利用合成数

12、据训练深度神经网络 5.7 阿里巴巴运用机器流量防控体系对抗数据投毒攻击 5.8 微众银行开发商用级开源项目Federated AI Technology Enabler 5.9 IFAA通过安全隔离技术实现生物特征信息安全 5.10 观安信息数据安全解决方案助力智能客服系统敏感数据防护 6 、结语 附录1 国内外人工智能数据保护相关倡议 附录2 国内外人工智能数据安全相关的标准及指南 04 05 06 11 14 18 18 20 25 27 27 28 29 37 37 38 39 40 41 41 42 43 43 44 45 46 48 人工智能赋能网络空间安全:模式与实践 1 观安信

13、息 观安信息 观 安 信 息 赛 博 研 究 院 观 安 信 息 赛 博 研 究 院 2、人工智能数据安全风险 人工智能导致的数据安全风险由两方面因素促成。一方面,人工智能技术和各 种智能化硬件带来的生产和生活场景的智能化变革导致数据呈现井喷式增长,数据 的采集终端越来越多,传输速度越来越快,整个人类社会每时每刻都在产生着海量 数据,这使数据安全风险陡然增加。同时,数据作为机器学习等人工智能技术的根 基,在持续推动智能化技术的快速成熟与迭代,将带来更广泛的人工智能应用,而 更广泛的应用又将采集和形成更大的数据资源库。另一方面,随着人工智能技术的 发展,对数据的分析和挖掘能力也在迅速增强,这将导

14、致给个人隐私、社会安全以 及国家安全带来风险。 图1 人工智能与数据的关系 0506 人工智能中的数据安全挑战包括三个方面,分别为数据隐私问题、数据质量问 题和数据保护问题。数据隐私问题指在人工智能的开发、测试、运行过程中存在的 隐私侵犯问题,这一类问题当前是人工智能应用需要解决的关键问题之一;数据质 量问题主要指用于人工智能的训练数据集以及采集的现场数据潜在存在的质量问题, 以及可能导致的后果,这是人工智能特有的一类数据安全问题;数据保护问题主要 指人工智能开发及应用企业对持有数据的安全保护问题,涉及数据采集、传输、存 储、使用、流转等全生命周期,以及人工智能开发和应用等各个环节。 图2 人

15、工智能中的数据安全风险构成 2.1 人工智能与数据隐私 人工智能开发和应用的不同环节有不同的数据种类,其中存在隐私问题的数据 包括:训练和测试数据、(训练成)的模型参数、应用系统实际输入数据(现场数 据)、应用系统实际分析结果数据等。每类数据存在的隐私风险各不相同。 2.1.1 训练、测试数据采集与隐私 深度学习需要大量训练数据作为学习资料,同时需要构建测试数据集用于AI系 统的性能测试。当前,数据获取成为企业发展人工智能技术的重要瓶颈之一,也是 企业竞相争夺的重要资源。目前,在数据获取的方法和途径方面出现了众多可能侵 犯用户隐私的事件,引发了公众对个人数据被非法滥用的普遍担忧。 观安信息 观

16、安信息 观 安 信 息 赛 博 研 究 院 观 安 信 息 赛 博 研 究 院 2、人工智能数据安全风险 人工智能导致的数据安全风险由两方面因素促成。一方面,人工智能技术和各 种智能化硬件带来的生产和生活场景的智能化变革导致数据呈现井喷式增长,数据 的采集终端越来越多,传输速度越来越快,整个人类社会每时每刻都在产生着海量 数据,这使数据安全风险陡然增加。同时,数据作为机器学习等人工智能技术的根 基,在持续推动智能化技术的快速成熟与迭代,将带来更广泛的人工智能应用,而 更广泛的应用又将采集和形成更大的数据资源库。另一方面,随着人工智能技术的 发展,对数据的分析和挖掘能力也在迅速增强,这将导致给个

17、人隐私、社会安全以 及国家安全带来风险。 图1 人工智能与数据的关系 0506 人工智能中的数据安全挑战包括三个方面,分别为数据隐私问题、数据质量问 题和数据保护问题。数据隐私问题指在人工智能的开发、测试、运行过程中存在的 隐私侵犯问题,这一类问题当前是人工智能应用需要解决的关键问题之一;数据质 量问题主要指用于人工智能的训练数据集以及采集的现场数据潜在存在的质量问题, 以及可能导致的后果,这是人工智能特有的一类数据安全问题;数据保护问题主要 指人工智能开发及应用企业对持有数据的安全保护问题,涉及数据采集、传输、存 储、使用、流转等全生命周期,以及人工智能开发和应用等各个环节。 图2 人工智能

18、中的数据安全风险构成 2.1 人工智能与数据隐私 人工智能开发和应用的不同环节有不同的数据种类,其中存在隐私问题的数据 包括:训练和测试数据、(训练成)的模型参数、应用系统实际输入数据(现场数 据)、应用系统实际分析结果数据等。每类数据存在的隐私风险各不相同。 2.1.1 训练、测试数据采集与隐私 深度学习需要大量训练数据作为学习资料,同时需要构建测试数据集用于AI系 统的性能测试。当前,数据获取成为企业发展人工智能技术的重要瓶颈之一,也是 企业竞相争夺的重要资源。目前,在数据获取的方法和途径方面出现了众多可能侵 犯用户隐私的事件,引发了公众对个人数据被非法滥用的普遍担忧。 观安信息 观安信息

19、 观 安 信 息 赛 博 研 究 院 观 安 信 息 赛 博 研 究 院 典型案例1:以人脸识别为例,美国学术研究人员通常通过谷歌图片搜 索、图片分享网站Flickr的授权(Creative Commons license)、公共 Instagram帐户或者其他一些途径获取大量的图片,以供训练或测试人脸识 别算法 。授权的协议显示这些图片数据仅用于学术研究。然而,随着微软、 IBM、Facebook和谷歌等公司将自己的未来押在人工智能上,人脸识别正 越来越多地走出实验室,进入大型企业的领域。大量个人照片被用于商业领 域,将引发隐私冲突。例如,2019年3月,IBM被爆出使用互联网上的照片 作为

20、人脸识别的“养料”,其中包含了图片分享网站Flickr上近100万张照 片,但未获得用户许可,因此引发了国外媒体的高度关注和用户对隐私的广 泛担忧 。 典型案例2:另一个典型案例是英国皇家自由信托基金会因在2016年将 160万患者数据共享给谷歌的AI子公司DeepMind而遭到英国信息专员办公 室(ICO)的调查,共享的数据主要用于一个智能医疗移动应用程序Streams 的开发和测试,因未事先征得患者同意,这一数据共享行为被ICO裁定为违 反了英国的数据保护法 。 2.1.2 现场数据采集与隐私 在无人驾驶、智能家居、智慧城市等人工智能应用场景中,采集终端可能会过 度采集用户敏感信息,违背个

21、人信息安全规范中数据采集的最少必须原则,侵犯用 户的合法权益。 If your image is online, it might be training facial-recognition AI IBM didnt inform people when it used their Flickr photos for facial recognition training ickr-photos-for-facial-recognition-training Royal Free breached UK data law in 1.6m patient deal with Googles D

22、eepMind 2 3 4 2 3 4 0708 典型案例1:亚马逊公司近期被曝出雇佣了数千名员工,聆听使用其智 能音箱Echo的用户家中和办公室捕捉到的录音,以帮助改进Alexa语音助 手。智能音箱、智能电视、手机语音助手等智能硬件的“偷听”能力也因此 引发公众的普遍担忧。 典型案例2:当前在安防、身份核验以及各类零售商店广泛应用的人脸 识别系统,也在随时随地抓取公众人脸信息,带来了关于隐私问题的诸多争 议。 更复杂的是,尽管对特定个人进行身份识别可能不是人工智能做出决策所必需 的,但在很多场景下人工智能可能仍然会采集个人数据。 典型案例3:在自动驾驶场景中,为了避免撞到行人,自动驾驶车辆上

23、 的传感器会收集足够的行人数据来识别他们,但识别特定的个人并不是系统 做出决策所必需的,人工智能只需要确定目标是否是行人即可,但在这种情 况下,行人的身份数据仍然被抓取了 。 5 Center For Information Policy Leadership,Artifi cial Intelligence and Data Protection in Tension rst_report_-_artifi cial_intelligence_and_data_protection_in_te.pdf 5 观安信息 观安信息 观 安 信 息 赛 博 研 究 院 观 安 信 息 赛 博 研 究

24、 院 典型案例1:以人脸识别为例,美国学术研究人员通常通过谷歌图片搜 索、图片分享网站Flickr的授权(Creative Commons license)、公共 Instagram帐户或者其他一些途径获取大量的图片,以供训练或测试人脸识 别算法 。授权的协议显示这些图片数据仅用于学术研究。然而,随着微软、 IBM、Facebook和谷歌等公司将自己的未来押在人工智能上,人脸识别正 越来越多地走出实验室,进入大型企业的领域。大量个人照片被用于商业领 域,将引发隐私冲突。例如,2019年3月,IBM被爆出使用互联网上的照片 作为人脸识别的“养料”,其中包含了图片分享网站Flickr上近100万张

25、照 片,但未获得用户许可,因此引发了国外媒体的高度关注和用户对隐私的广 泛担忧 。 典型案例2:另一个典型案例是英国皇家自由信托基金会因在2016年将 160万患者数据共享给谷歌的AI子公司DeepMind而遭到英国信息专员办公 室(ICO)的调查,共享的数据主要用于一个智能医疗移动应用程序Streams 的开发和测试,因未事先征得患者同意,这一数据共享行为被ICO裁定为违 反了英国的数据保护法 。 2.1.2 现场数据采集与隐私 在无人驾驶、智能家居、智慧城市等人工智能应用场景中,采集终端可能会过 度采集用户敏感信息,违背个人信息安全规范中数据采集的最少必须原则,侵犯用 户的合法权益。 If

26、 your image is online, it might be training facial-recognition AI IBM didnt inform people when it used their Flickr photos for facial recognition training ickr-photos-for-facial-recognition-training Royal Free breached UK data law in 1.6m patient deal with Googles DeepMind 2 3 4 2 3 4 0708 典型案例1:亚马逊

27、公司近期被曝出雇佣了数千名员工,聆听使用其智 能音箱Echo的用户家中和办公室捕捉到的录音,以帮助改进Alexa语音助 手。智能音箱、智能电视、手机语音助手等智能硬件的“偷听”能力也因此 引发公众的普遍担忧。 典型案例2:当前在安防、身份核验以及各类零售商店广泛应用的人脸 识别系统,也在随时随地抓取公众人脸信息,带来了关于隐私问题的诸多争 议。 更复杂的是,尽管对特定个人进行身份识别可能不是人工智能做出决策所必需 的,但在很多场景下人工智能可能仍然会采集个人数据。 典型案例3:在自动驾驶场景中,为了避免撞到行人,自动驾驶车辆上 的传感器会收集足够的行人数据来识别他们,但识别特定的个人并不是系统

28、 做出决策所必需的,人工智能只需要确定目标是否是行人即可,但在这种情 况下,行人的身份数据仍然被抓取了 。 5 Center For Information Policy Leadership,Artifi cial Intelligence and Data Protection in Tension rst_report_-_artifi cial_intelligence_and_data_protection_in_te.pdf 5 观安信息 观安信息 观 安 信 息 赛 博 研 究 院 观 安 信 息 赛 博 研 究 院 The AI That Predicts Your Sexua

29、l Orientation Simply By Looking At Your Face Gartner Says Artifi cial Intelligence Is a Game Changer for Personal Devices cial-intelligence-is-a-game-changer-for-personal-devices 6 7 2.1.3 现场数据用于产品改进 对于许多智能产品和服务商而言,收集用户数据的其中一个重要目的是优化产 品性能和用户体验,使其更加智能。例如上述亚马逊智能音箱的例子就是一个典型 案例,再如智能手机、Windows操作系统、办公软件也在

30、普遍收集用户数据,用 于改进产品的智能水平。此类行为虽然是为了为用户提供更加成熟的产品和服务, 但若在用户不知情的情况下收集数据,则会对用户的隐私构成威胁。 2.1.4 数据分析挖掘与隐私 随着企业普遍意识到数据的可利用价值,对用户的数据分析和挖掘变得无处不 在,数据成为企业竞相争夺的重要资源。同时,人工智能和大数据技术的快速发展 使得对数据的分析和挖掘能力也越来越强。 典型案例1:在众所周知的“Facebook数据泄露”丑闻中,剑桥分析公 司将来自Facebook上数千万用户的数据,用于在2016年美国总统大选中针 对目标受众进行政治广告投放。剑桥分析公司使用的机器学习模型可以基于 种族、年

31、龄、性别等人口特征来建立影响选民的方法。 典型案例2: 当前的人工智能技术已经可以做到分析人的情绪、性格, 甚至性取向等特征 。著名咨询机构Gartner曾预测,到2022年,用户的个 人设备将比他的家人更加了解其情绪状态 。 6 7 0910 同时,随着数据分析和用户画像技术的快速发展,个性化服务变得越来越普 遍。然而,个性化服务建立在对用户数据的分析之上,出于对隐私的担忧,消费者 对个性化服务的态度正快速发生转化,由之前的接受变为越来越排斥 。同时,认为 “拥有更多用户数据的公司能够提供更好、更个性化的产品和服务”的用户也越来 越少。这一趋势表明,隐私问题已成为技术发展的严重阻碍。 此外,

32、人工智能技术可以通过数据关联分析和模式识别从非个人数据或匿名化 的数据中识别出特定的个人 。一方面,人工智能扩大了收集数据的类型和需求, 例如,从手机、汽车和其他设备的传感器可以收集大量和类型多样的数据。另一方 面,人工智能提供了越来越先进的计算能力来处理这些收集的数据。通过将分散 的、无意义的数据点组合在一起组成扩展数据集,可以实现对特定个体的识别。 2.1.5 逆向攻击与隐私 神经网络等人工智能算法可以记住训练数据集的细节信息 ,攻击者可以利用 逆向攻击方法,通过分析系统的输入输出和其他外部信息,推测系统模型的参数及 训练数据中的隐私信息 。其中对模型参数的窃取将对企业知识产权构成安全威胁

33、, 对训练数据隐私信息的窃取将对个人隐私构成安全威胁。 8 9 10 11 RSA Data Privacy & Security Survey 2019:The Growing Data Disconnect Between Consumers and Businesses Rethinking Data Privacy: The Impact of Machine Learning Privacy-Preserving Machine Learning 2018: A Year in Review AI安全白皮书,华为 8 9 10 11 观安信息 观安信息 观 安 信 息 赛 博 研 究

34、 院 观 安 信 息 赛 博 研 究 院 The AI That Predicts Your Sexual Orientation Simply By Looking At Your Face Gartner Says Artifi cial Intelligence Is a Game Changer for Personal Devices cial-intelligence-is-a-game-changer-for-personal-devices 6 7 2.1.3 现场数据用于产品改进 对于许多智能产品和服务商而言,收集用户数据的其中一个重要目的是优化产 品性能和用户体验,使其更加

35、智能。例如上述亚马逊智能音箱的例子就是一个典型 案例,再如智能手机、Windows操作系统、办公软件也在普遍收集用户数据,用 于改进产品的智能水平。此类行为虽然是为了为用户提供更加成熟的产品和服务, 但若在用户不知情的情况下收集数据,则会对用户的隐私构成威胁。 2.1.4 数据分析挖掘与隐私 随着企业普遍意识到数据的可利用价值,对用户的数据分析和挖掘变得无处不 在,数据成为企业竞相争夺的重要资源。同时,人工智能和大数据技术的快速发展 使得对数据的分析和挖掘能力也越来越强。 典型案例1:在众所周知的“Facebook数据泄露”丑闻中,剑桥分析公 司将来自Facebook上数千万用户的数据,用于在

36、2016年美国总统大选中针 对目标受众进行政治广告投放。剑桥分析公司使用的机器学习模型可以基于 种族、年龄、性别等人口特征来建立影响选民的方法。 典型案例2: 当前的人工智能技术已经可以做到分析人的情绪、性格, 甚至性取向等特征 。著名咨询机构Gartner曾预测,到2022年,用户的个 人设备将比他的家人更加了解其情绪状态 。 6 7 0910 同时,随着数据分析和用户画像技术的快速发展,个性化服务变得越来越普 遍。然而,个性化服务建立在对用户数据的分析之上,出于对隐私的担忧,消费者 对个性化服务的态度正快速发生转化,由之前的接受变为越来越排斥 。同时,认为 “拥有更多用户数据的公司能够提供

37、更好、更个性化的产品和服务”的用户也越来 越少。这一趋势表明,隐私问题已成为技术发展的严重阻碍。 此外,人工智能技术可以通过数据关联分析和模式识别从非个人数据或匿名化 的数据中识别出特定的个人 。一方面,人工智能扩大了收集数据的类型和需求, 例如,从手机、汽车和其他设备的传感器可以收集大量和类型多样的数据。另一方 面,人工智能提供了越来越先进的计算能力来处理这些收集的数据。通过将分散 的、无意义的数据点组合在一起组成扩展数据集,可以实现对特定个体的识别。 2.1.5 逆向攻击与隐私 神经网络等人工智能算法可以记住训练数据集的细节信息 ,攻击者可以利用 逆向攻击方法,通过分析系统的输入输出和其他

38、外部信息,推测系统模型的参数及 训练数据中的隐私信息 。其中对模型参数的窃取将对企业知识产权构成安全威胁, 对训练数据隐私信息的窃取将对个人隐私构成安全威胁。 8 9 10 11 RSA Data Privacy & Security Survey 2019:The Growing Data Disconnect Between Consumers and Businesses Rethinking Data Privacy: The Impact of Machine Learning Privacy-Preserving Machine Learning 2018: A Year in R

39、eview AI安全白皮书,华为 8 9 10 11 观安信息 观安信息 观 安 信 息 赛 博 研 究 院 观 安 信 息 赛 博 研 究 院 典型案例1:美国斯蒂文斯理工学院的研究人员 证明任何以隐私保护为 目的开发的联合深度学习方法(collaborative deep learning)也是易于 被攻破的。他们开发了一种攻击手段,利用学习过程的实时性,攻击者可以 训练一个生成式对抗网络(GAN),生成目标训练集的原型样本,从而获取原 数据集中的隐私数据。 典型案例2: 卡内基梅隆大学的研究人员 发现了一种逆向攻击手段,针 对人脸识别模型,可以通过一些人脸图片的标识符重构训练数据集中的人

40、脸 照片,从而造成隐私泄露。 12 13 2.2 人工智能与数据质量 高质量的数据是人工智能发展的前提和基础。据埃森哲研究发现 ,在运用人工 智能技术面临的一系列挑战中,数据质量被企业列为最突出的挑战,其次是数据安 全、网络安全。当前,无论是对于人工智能研发,还是人工智能实际应用,数据质 量都是极其关键的要素。 2.2.1 训练数据质量 训练数据集的质量将对人工智能系统的可靠性和安全性起到至关重要的作用, 其中存在的问题包括 : 1. 数据集的规模不足:目前训练数据的获取是企业开发AI系统遇到的重要瓶 颈之一,在机器学习算法中,监督学习模型的性能很大程度上依赖于可用的训练数 据的规模,训练数据

41、不足将导致AI系统的可靠性和安全性出现问题。 2. 数据集的多样性和均衡性不足:训练数据与真实数据的分布不一致将严重 影响AI系统的性能,并引入一定程度的偏见,甚至在某些场景下产生安全性问题。 14 15 Deep Models Under the GAN: Information Leakage from Collaborative Deep Learning, Briland Hitaj, Giuseppe Ateniese, Fernando Perez-Cruz. Model Inversion Attacks that Exploit Confi dence Information

42、and Basic Countermeasures, Matt Fredrikson, Somesh Jha, Thomas Ristenpart AI turns ordinary products into industry game-changers 人工智能 深度学习算法评估规范 12 13 14 15 1112 典型案例1:由算法正义联盟发起的一项针对几款主流人脸识别分析服 务(来自IBM、微软、旷视科技等公司)的测试表明,这些算法针对白肤色 男性的识别率非常高,而针对黑肤色女性的识别率则要低很多,例如IBM和 旷视科技的算法针对黑人女性的错误率都高达35%。这种偏见部分是由于训 练

43、数据中黑肤色人种的代表性不足造成的。 典型案例2:谷歌翻译被批评存在性别歧视,因为它会根据内容自动划 分语言的性别,例如在将土耳其短语“o bir doktor”和“o bir hemire” 翻译成英语时,谷歌翻译的返回结果分别为“他是一名医生”和“她是一个护 士”。但“o”在土耳其语中仅是一个中性的第三人称代词 。“医生是男性, 护士是女性”的假设反映了文化偏见和医学界性别的不平衡。谷歌翻译记录 了训练算法的数据中存在的人类文化偏见,最终导致翻译系统也存在性别歧 视 。 典型案例3:Beauty.ai是一场完全由AI算法当裁判的国际选美比赛,在 2016年的第一届比赛中,AI共选出了44位

44、选美冠军,其中黄色人种和黑色 人种分别只有6名和1名,其余的37张面孔都是白种人。Beauty.ai的CEO表 示,出现这种结果的原因是训练数据中缺乏足够的种族多样性 。 3. 数据集的标注质量低:训练数据集的标注质量(例如准确性和一致性)会 严重影响AI系统的性能。当数据标注质量较低时,机器学习模型的学习过程会非常 困难。 16 17 18 19 Photo algorithms id white men fi neblack women, not so much neblack-women-not-so-much/ Why well need more than data diversit

45、y to avoid prejudiced AI Why AI needs to learn to understand what were not saying https:/www.weforum.org/agenda/2018/05/voice-control-why-ai-must-resist-our-bad-habit-of-stereotyping-human-speech A lack of diversity is like working with biased data in machine learning 16 17 18 19 观安信息 观安信息 观 安 信 息 赛

46、 博 研 究 院 观 安 信 息 赛 博 研 究 院 典型案例1:美国斯蒂文斯理工学院的研究人员 证明任何以隐私保护为 目的开发的联合深度学习方法(collaborative deep learning)也是易于 被攻破的。他们开发了一种攻击手段,利用学习过程的实时性,攻击者可以 训练一个生成式对抗网络(GAN),生成目标训练集的原型样本,从而获取原 数据集中的隐私数据。 典型案例2: 卡内基梅隆大学的研究人员 发现了一种逆向攻击手段,针 对人脸识别模型,可以通过一些人脸图片的标识符重构训练数据集中的人脸 照片,从而造成隐私泄露。 12 13 2.2 人工智能与数据质量 高质量的数据是人工智能

47、发展的前提和基础。据埃森哲研究发现 ,在运用人工 智能技术面临的一系列挑战中,数据质量被企业列为最突出的挑战,其次是数据安 全、网络安全。当前,无论是对于人工智能研发,还是人工智能实际应用,数据质 量都是极其关键的要素。 2.2.1 训练数据质量 训练数据集的质量将对人工智能系统的可靠性和安全性起到至关重要的作用, 其中存在的问题包括 : 1. 数据集的规模不足:目前训练数据的获取是企业开发AI系统遇到的重要瓶 颈之一,在机器学习算法中,监督学习模型的性能很大程度上依赖于可用的训练数 据的规模,训练数据不足将导致AI系统的可靠性和安全性出现问题。 2. 数据集的多样性和均衡性不足:训练数据与真

48、实数据的分布不一致将严重 影响AI系统的性能,并引入一定程度的偏见,甚至在某些场景下产生安全性问题。 14 15 Deep Models Under the GAN: Information Leakage from Collaborative Deep Learning, Briland Hitaj, Giuseppe Ateniese, Fernando Perez-Cruz. Model Inversion Attacks that Exploit Confi dence Information and Basic Countermeasures, Matt Fredrikson, Somesh Jha, Thomas Ristenpart

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(赛博研究院:人工智能数据安全风险与治理(50页).pdf)为本站 (潘多拉魔盒) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部