《BDEX&工信安全:数据要素安全流通白皮书(2022)(221页).pdf》由会员分享,可在线阅读,更多相关《BDEX&工信安全:数据要素安全流通白皮书(2022)(221页).pdf(221页珍藏版)》请在三个皮匠报告上搜索。
1、编写委员会编写委员会指导单位:指导单位:国家工业信息安全发展研究中心协办单位:协办单位:数据宝 ChinaDataPay联合发起单位:联合发起单位:华东江苏大数据交易中心贵州赛昇工业信息研究院有限公司深圳国家金融科技测评中心有限公司主编单位:主编单位:华东江苏大数据交易中心贵州赛昇工业信息研究院有限公司深圳国家金融科技测评中心有限公司数据宝 ChinaDataPay南京航空航天大学特别致谢专家团:特别致谢专家团:邱凯达国家工业信息安全发展研究中心贵阳分中心(贵州赛昇工业信息研究院)总经理汤寒林华东江苏大数据交易中心 总经理丁红发贵州财经大学 副教授张斌中国科学院软件所 研究员方黎明南京航空航天
2、大学深圳研究院 副院长国家重点研发计划 首席科学家刘哲之江实验室基础理论研究院 副院长南京航空航天大学 教授/博士生导师刘巍然阿里巴巴集团 高级安全专家朱艳春联通(广东)产业互联网有限公司 首席科学家李克鹏腾讯云计算(北京)有限责任公司 资深标准专家刘宏建元知未来研究院 常务副院长郑峥国家金融科技测评中心(银行卡检测中心)信息安全业务部高级主管参编单位参编单位(排名不分先后):盐城市大数据集团有限公司中国电子系统技术有限公司北京易华录信息技术股份有限公司前海飞算云创数据科技(深圳)有限公司联通(广东)产业互联网有限公司杭州瓴羊智能服务有限公司度小满科技(北京)有限公司杭州锘崴信息科技有限公司杭
3、州安存网络科技有限公司杭州后量子密码科技有限公司杭州量安科技有限公司北京数牍科技有限公司深圳致星科技有限公司北京握奇数据股份有限公司上海三零卫士信息安全有限公司普华永道商务咨询(上海)有限公司北京三快在线科技有限公司深圳市腾讯计算机系统有限公司腾讯云计算(北京)有限责任公司顺丰科技有限公司深圳微言科技有限责任公司翼健(上海)信息科技有限公司杭州煋辰数智科技有限公司江苏安几科技有限公司上海同态信息科技有限责任公司翼集分(上海)数字科技有限公司上海零数科技有限公司熵链科技(厦门)有限公司蓝象智联(杭州)科技有限公司苏州数字力量教育科技有限公司零幺宇宙(上海)科技有限公司上海斐波那契人工智能科技有限
4、公司北京力码科技有限公司浩鲸云计算科技股份有限公司北京冲量在线科技有限公司深圳市洞见智慧科技有限公司星环信息科技(上海)股份有限公司北京云集至科技有限公司北京熠智科技有限公司神谱科技(上海)有限公司神州融安数字科技(北京)有限公司深圳数鑫科技有限公司北京融数联智科技有限公司北京策略律师事务所广州九四智能科技有限公司安徽徽投控股有限公司天道金科股份有限公司浙江浙里信征信有限公司杭州微风企科技有限公司中数智创科技有限公司深圳市信息服务业区块链协会南京邮电大学盐城大数据研究中心盐城优易数据有限公司参编成员参编成员(排名不分先后):汤寒林邱凯达张斌丁红发郑峥刘巍然李克鹏刘哲方黎明朱艳春刘宏建王天昊王逸
5、君张志波曹宇唐凯彭力强蒋俊杨蔚夏正勋吴叶国强锋王超博毛岱山金朵程勇仵大奎干露吴国雄赖博林李云亮刘喜臣唐俊峰商庆一胡君杏刘瑾胡成锴马福忠金银玉王爽陈富节郑灏李帜张霖涛吴赵伟张婷华郭欣陈鑫蒋嘉琦聂耀昱赵蓉林镇阳赵川张峰谭坤张培肖斌尤磊葛春鹏王同新谢作伟赵欣磊徐单恒章妍晨戴智张威王晓东王慧冯刘豪廖玉梅兰春嘉沈文昌杨珍李博郑华祥周岳骞汤载阳范学鹏马经纬戴建军胡雪晖黄国庆姜蒙龚燕玲陶瑞岩于新宇傅毓敏黄耀驹王斌李登峰刘伟国德峰曾晓锋雷朋蒋美献顾逸晖庞理鹏孙亮林庆治伍镇润唐嘉成李响王敏由楷苏澎郭路建宣淦淼袁晔王一沙程烨洪波廖炳才张宠郑定向龙玺争刘远骐王武成臧云龙潘成挺张敏王瑶李超目录目录第 1 章 数据安全
6、流通的时代背景.11.1 数字经济新发展机遇促使各国抢占数据战略资源高地.11.2 各国政策法规不断完善促使数据安全流通确保合规.21.3 市场商业巨大需求推动数据安全流通保障合法权益.41.4 数据安全流通的核心技术创新支撑产业升级与创新.5第 2 章 数据安全流通相关概念.72.1 数据要素概述.72.2 数据流通的形式及特征.82.3 数据安全流通的体系架构.16第 3 章 数据流通行业发展现状.203.1 数据流通政策发展现状.203.2 数据流通法律法规发展现状.233.3 数据流通标准发展现状.283.4 数据流通技术发展现状.31第 4 章 数据可信确权技术.354.1 数据可信
7、确权概述.354.2 数据可信确权基础支撑技术.36第 5 章 数字资产化技术.405.1 数据价值评估概述.405.2 现有数据价值评估方案.415.3 数据价值评估技术对比.46第 6 章 数据安全保障技术.536.1 数据安全风险评估技术.536.2 数据治理技术.586.3 数据安全防护技术.646.4 数据安全计算技术.756.5 数据安全溯源与确权技术.82第 7 章 数据流通机制.867.1 过往数据流通方式.867.2 数据流通机制.887.3 数据流通模式.907.4 流通的监管与保护.917.5 数据流通合规.94第 8 章 全国数据流通产业生态链.1008.1 数据数据要
8、素流通核心产业.1008.2 数据要素流通基础设施产业.1028.3 数据要素流通咨询服务产业.107第 9 章 数据安全流通场景及案例.1169.1 电信领域.1169.2 金融领域.1229.3 政务领域.1509.4 医疗领域.1699.5 物流领域.1759.6 能源领域.1809.7 汽车领域.1819.8 其他.185第 10 章 数据安全流通产业的挑战.19610.1 数据要素安全流通的国际挑战.19610.2 数据要素安全流通的国内挑战.19710.3 政策和法律的挑战.19710.4 产业生态挑战.19910.5 技术挑战.200第 11 章 数据安全流通的未来趋势和发展对策
9、.20211.1 未来趋势.20211.2 对策建议.204参考文献.2121第 1 章 数据安全流通的时代背景数据要素是参与社会生产经营活动、带来经济效益,以电子方式记录的数据资源,数据要素来源广泛,在数据流通中扮演重要角色。2022 年 6 月 22 日,习近平总书记主持召开中央全面深化改革委员会第二十六次会议,会议明确指出,数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。数据要素的流通是充分发挥数据价值的基础,而流通与安全密不可分。数据要素流通安全是国家安全的重要组成部分,其对于促
10、进数字经济的发展有着重要的价值。当今世界数据体量爆炸式增长,数据产业市场规模不断扩大,全球进入数字经济时代。各国都在积极部署数据战略,成立国家级数据管理部门或部署国家级数据服务平台,在国际数据要素流通中抢占数据主权;加速颁布数据相关政策法规,重点关注数据要素的安全流通;探索数据交易市场新模式,大力推动数据要素市场化配置;隐私保护技术应用而生并得到迅猛的发展,成为各行各业研究的热点。然而,数据要素流通也面临着“数据壁垒”、技术落地不足等问题,促进数据要素安全流通道阻且长。1.1 数字经济新发展机遇促使各国抢占数据战略资源高地大数据时代背景下,数字经济正处于蓬勃发展的阶段,大量相关的企业如雨后春笋
11、般涌出。数字经济的核心是数据资源,人工智能、云计算、区块链等新兴技术无一不是以海量的数据为基础。对于一个国家而言,数据是重要的战略资源,是一个国家安全和发展的核心依赖,同时数据安全也是国家安全的重要组成部分。数据主权可以理解为一个国家对于数据的拥有权和掌控权,是一个国家软实力和综合竞争力的体现,是国家主权的演化。所以抢占数据资源战略高地、维护数据主权,对于国家数字经济的发展有重要的战略意义。为了维护数据主权、促进本国数据要素市场的发展,各个国家出台了不同的政策。美国凭借发达的信息科技产业而拥有大量数据资源,强大的数据供给能力促进了数据要素市场的形成,在数据监管方面美国通过建立政务开放机制、发展
12、多元数据交易模式等规范数据市场的发展。欧盟中各成员国作为一个整体,在数据规模上拥有一定优势,为了维护数据主权同时促进数据要素的流通与共享,欧盟提出专有领域数字空间战略来推动数据要素的流通。德国为实现各行各业数据2互通以及数据安全,提出通过构建数据空间来实现行业数据安全可信的交换。我国移动支付、网络购物、共享经济等数字经济蓬勃发展,数据要素市场正处于高速发展的阶段,所以加强数据监管、维护数据主权至关重要。近年来,我国出台多项政策文件,明确提出要加快培育数据要素市场、促进数据要素市场流通,加快构建数据要素市场规则,探索合理的数据交易模式和数据资产定价机制。此外,我国重视数据安全治理,不断加强立法及
13、强化执法,2020-2021 年颁布的有关数据安全的法律较前几年增长近两倍,以强力的手段提高数据安全保障能力,维护国家安全。数据中心在数据存储与云计算中扮演重要的角色,是争夺数据战略资源高地的基础,我国目前数据中心的数量位列世界第二,但占比仅有 15%。为了维护我国数据主权、应对数据霸权主义,我国于 2022 年 2 月正式全面启动“东数西算”工程,规划在全国建立 10 个数据中心集群并在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、宁夏、甘肃建设 8 个数据算力枢纽节点,着力打造全国的算力网,对于数字经济的发展也有重要的战略意义。从世界各国在数据主权问题上的一系列措施和政策中可以看出,数
14、据主权对于一个国家至关重要,美国著名政治学者小约瑟夫奈在理解国际冲突:理论与历史一书中所指出,一场信息革命正在改变世界政治,处于信息技术领先地位的国家可攫取更大的权力,相应的,信息技术相对落后的国家则会失去很多权力。数据资源可以看作是 21 世纪的“石油”,数据资源经过合理的处理可以提高生产力、优化资源配置、推动数字经济的持续发展。数据安全流通同样也离不开法律法规的支持,政策法规能够促进数据安全流通的建设更加完善。1.2 各国政策法规不断完善促使数据安全流通确保合规各个国家之间数据主权的争夺愈演愈烈,2013 年“棱镜门”事件更是给各国政府敲响警钟,各国开始审视本国数据战略,加速数据安全保护立
15、法,力图在数据主权争夺战中抢占先机。据联合国贸易和发展会议(United NationsConference on Trade and Development,简称 UNCTAD)2021 年 12 月统计,在全球范围内的国家中,制定了保护数据和隐私法律的占 69%,处于起草过程中的占10%,可见在数字经济时代背景下,世界各国都高度重视数据安全治理,通过颁布政策法规、加强关键信息基础设施保护、加强监管执法等措施全面强化数据安全保护能力,应对日益严峻的数据安全威胁,为促进数据要素安全流通保驾护航。(一)中国我国关于数据要素市场化配置方面的政策出台逐步深化,从强调加强数据安全,到明确提出建立数据资
16、源产权和交易流通等基础制度和标准规范,再到提出3加快培育统一的技术和数据市场。政策的深入体现了国家在数据安全、数据要素流通、数据要素市场上的发展战略,也为数据安全、数据要素等法律法规的制定和颁布奠定了主旋律。我国近年来在国家治理层面颁布了一系列与数据监管相关的法律法规。基本法律构建了数据合规的基本立法体系,并向下延伸出多项基本制度,进一步在法律法规层面夯实我国数据合规和隐私保护的规范体系。总体而言,我国数据合规立法体系兼具综合性、创新性、多层级性,法律规定的数据安全保护范围广泛,首创符合国情的数据保护新措施,法律法规保护体系自上而下,全方位构建我国数据安全保护体系1。各省市政府积极响应中央政策
17、,紧密推进省市级数据管理条例,此外,国家各行业、各领域也发布数据安全各类指南文件,其中金融、工业、医疗、交通等领域的探索建设相对领先。随着数据价值的不断凸显,在实现数据要素合规流通、数据价值最大化挖掘的过程中,相应配套的技术标准也在陆续发布。近年来国内标准化组织一直积极制定数据保护和数据流通技术标准,标准化体系建设工作快速推进,为数据要素流通市场奠定了标准化基础。从行业领域来看,金融、工业、政务、交通、医疗、电信等行业领域都相继制定数据安全标准,各行业结合相应的业务场景出台了不同细化程度的行业标准。总体上看,我国对于数据安全、数据流通的政策、法律法规、标准全套体系日趋完善,逐步弥补数据安全相关
18、漏洞,全国各地、各领域都对数据资源加倍重视,数据安全监管机构机制已初步形成。(二)欧盟欧盟发布了欧洲数据保护监管局战略计划(2020-2024),旨在从前瞻性、行动性和协调性三方面继续保证个人隐私、加强数据安全。针对跨境流动中的数据保护问题,欧盟发布了为保持欧盟个人数据保护级别而采用的数据跨境转移工具补充措施。欧盟通过近年来的一系列立法举措,从个人数据保护规则、数据产权和交易规则、数据自由流动规则、数据安全规则和数据开放共享规则五个方面建立了统一的数据法律规则2。欧盟对数据的管理主要以综合性立法为主,从欧洲人权公约到第 95/46/EC 号保护个人在数据处理和自动移动中权利的指令,再到通用数据
19、保护条例(General Data Protection Regulation,简称 GDPR),其数据保护法经过了数十年的发展沿革,最终形成了现有的突破地域性的综合法律体系。其中,GDPR 对原有数据保护体系进行了补充和更新,对于数据采集的标准和义务做出了更加详尽的规定,该条例对其他国家和地区数据权益制度的建构和完善产生了深远影响。4(三)美国美国致力于维护其世界领导地位。美国发布的联邦数据战略与 2020 年行动计划,以 2020 年为起点描述了美国联邦政府未来 10 年的数据发展愿景,其核心目标是将数据作为战略资产加以利用。该战略与 数据科学战略计划(2018)、美国国家网络战略(201
20、8)、美国先进制造业领导力战略(2018)等联邦战略互为补充,致力于“维护全球数字化转型背景下的数字领导地位”3。立法层面主要以澄清境外合法使用数据法案(Clarifying Lawful OverseasUse of DataAct,简称 CLOUD 法案)为主,CLOUD 法案确立了以数据自由为核心的数据主权规则。美国在数据保护方面的立法具有较强的分散性,美国联邦层面未能形成统一的法律体系,而是采用不同行业分散立法的模式,在电信、金融、医疗、教育等领域都有相应的立法来对数据市场进行监管;其次,美国各州立法分化,法律地域性较强。总体而言,当下全球各国都在积极制定数据安全国家战略规划,从个人信
21、息保护、数据跨境漏洞监管、数据市场治理等各方面对数据安全进行法律法规保护,确保数据要素安全合规流通。在国际组织层面,联合国也致力于推动数字通用连接,促进数字技术成为公共产品,保证数字技术惠及所有人,支持数字能力建设,保障数字领域尊重人权,应对人工智能挑战,建立数字信任和安全。尽管世界主要国家都高度重视数据安全,但因国情、关切点、治理能力不同,所以各国维护数据安全的政策法规、治理机制、应对措施等不存在统一模式,而是展现出各自的发展特色。有些发达国家凭借技术与产业优势试图通过“长臂管辖”式法律法规实现数据主权的超地域延展;有些发达国家经过多年发展形成了强调“数字团结”且外紧内松的统一数据治理框架理
22、念;广大发展中国家因起步较晚,现行的法律法规和治理措施倾向于对本国数据的主权保护,避免本国数据受外国监视或调取,充分体现了“数据防御主义”。1.3 市场商业巨大需求推动数据安全流通保障合法权益近年来国家高度重视数据要素及其市场化配置。这项系统工程的关键在于,通过数据流通使得数据资源流向最需要的领域和方向,在社会生活和生产经营中产生收益,以充分释放数据要素的价值。然而,数据价值实现与数据安全的冲突日益加剧,如何统筹兼顾发展和安全的关系,成为当前核心议题。数据安全作为数据市场化过程中必须守住的底线,也是制约数据市场化发展的天花板,会掣肘数据要素的流动和应用,需要重点关注。数字经济和新一轮科技革命正
23、在成为引领世界经济发展的新增长极,数字经济上升为国家战略。据中国信息通信研究院发布数据显示,2021 年中国数字经5济规模已达 45.5 万亿元,占 GDP 比重为 39.8%。围绕数据开展的基础设施规划和建设、数据资产的整合、数据的分析处理以及数据开放共享和数据安全,铸就了大数据产业发展的核心要素。自 2011 年互联网公司实验大数据技术以来,经过十余年的蓬勃发展,大数据技术已经步入成熟阶段。据互联网数据中心(Internet Data Center,简称 IDC)预测,预计至 2025 年,中国的大数据硬件市场将稳定增长占到 40%,超过软件和服务占比;大数据软件市场占比将逐年提升,202
24、5 年超 30%的市场支出将流向软件。中国大数据网对大数据软件市场的进一步细分做了独立研究,2021 年中国大数据软件市场支出中,大数据基础设施占比为 42%,大数据分析占比为30%、大数据应用占比为 28%。以此推算,2021 年中国大数据分析市场支出为10 亿美元,2025 年有望超过 22 亿美元。据 IDC 预测,中国大数据市场 2021 年整体规模超 110 亿美元,且有望在 2025 年超过 250 亿美元,呈现出强劲的增长态势。大数据产业的蓬勃发展是社会进步的必然结果,在数字经济的大背景下,数据的生成、获取、复制、消费呈现指数级发展的趋势,推动着大数据产业的急速发展。大数据在业务
25、需求和技术创新的结合中蓬勃发展,物联网和数字化在数据供给侧产生巨量数据,入网设备指数级增长,源源不断地产生各类数据;数字化的发展浪潮更是让每个人的消费模式和消费观念发生了质的变化。同时,人工智能技术的快速发展对数据提出新需求,尤其是深度学习神经网路的发展对数据的需求极大。大数据产业的迅猛发展对数据流通的安全性问题提出更高的要求。结合数据要素的特征以及数据行业的发展现状,目前数据安全流通主要存在数据信息泄露风险、数据存储管理风险、数据传输安全隐患、数据滥用法律风险四类风险。这些风险因素中涉及数据的三种状态:存储状态、传输状态和使用状态。数据的价值与其动态性是不可分割的,即有价值的数据一定会处于动
26、态之中。因此保护数据要素安全流通意义重大。数据要素安全流通助力数据要素市场化配置,也是防范数据泄露的突破口,在数据要素安全流通过程中能够促进多方数据安全合规协作,促进数据行业进入新的发展阶段。针对当下巨大的商业需求和行业现状,需要快速发展数据共享和隐私安全保障技术升级,构建高效、安全的数据流通方案应对挑战。1.4 数据安全流通的核心技术创新支撑产业升级与创新科学技术是支撑和推动产业升级与创新的源动力。近年来,信息技术、大数据、密码学、区块链、可信硬件、人工智能、云计算、物联网、网络安全等技术以及算力均得到了前所未有的发展与突破。这些技术发挥各自的特点,可以在数6据安全流通的各个环节发挥其作用,
27、巧妙地解决数据流通过程中存在的问题和挑战。数据安全流通过程中,隐私计算技术、区块链技术起到了关键支撑作用。如今隐私计算技术在国内外都进行了部分场景下的试点,试点场景主要集中在联合风控、联合营销、反欺诈等。在数据跨界共享过程中,隐私计算技术有权属分离、数据价值最大化、用法用量“可控可计量”的优点,使得数据共享交易更加安全便捷。此外,基于同态加密的隐私计算技术作为密码学中一种特殊加密模式的应用,相较于其他加密模式,能够在不改变业务流程和数据流程的前提下最小程度的改造系统,降低数据合规成本,有效弥补技术安全漏洞,实现隐私数据的全面开发利用。区块链技术是国家数字产业和新型基础设施的重要部分,在中华人民
28、共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要(简称“十四五”规划)中被列入七大新兴数字产业。区块链技术在数据要素流通中,可在数据的产生、存储、流通阶段进行支撑和赋能,在数据要素流通前打通数据孤岛、明晰数据权属、提升数据质量,在数据流通过程中,保障数据安全、记录流转过程、形成监管闭环。区块链技术已逐渐得到行业认可与共识,有望在跨产业联通,构建多方协作的可信网络,加强国际协作,引领新一轮产业融合。数据安全流通过程中,隐私计算技术并非是合规的全部内容,还需要综合管理和技术完成合规,包括从源头上把握合规、设计分工配合机制、动态评估全流程风险、保证技术方案安全性、明确计算模型的归
29、属、关注产出结果的合规性、关注自动化决策的风险、建立日志审计和监督机制等各类管理制度和合规方案。我国高度重视数据安全流通,而新图景需要硬核技术的支撑。数字经济时代,数据规模迅猛增长,数据安全重视程度提升,数据安全政策层出不穷,合规带领技术和产业创新,拉动了数据安全流通核心技术与产业的发展。7第 2 章 数据安全流通相关概念2.1 数据要素概述2.1.1 数据资源化、资产化、资本化定义在探讨数据要素价值时,一般会遵循资源化、资产化及资本化三大阶段,对其价值驱动因素进行剖析。数据资源化指将无序、混乱的原始数据开发为有序、有使用价值的数据资源的过程,包括数据采集、整理、分析等行为,最终形成可用、可信
30、、标准的高质量数据资源。数据资源化阶段的数据资产尚未体现出完整的场景应用价值,因此影响数据资产价值的因素除成本外,主要为数据资产的质量因素。数据资产化指基于既定的应用场景及商业目的,将数据资源进行一系列加工,形成可供企业部门应用或交易的数据产品。数据资产在数据资产化阶段拥有了场景赋能,预期可产生经济利益,形成数据交换价值。数据资本化指数据资产化阶段发展后期,数据资产被进一步赋予金融属性。数据资本化主要有两种方式,即数据信贷融资与数据证券化。数据资本化是拓展数据价值的途径,其本质是实现数据要素的社会化配置。从资源、资产到资本,是数据要素化过程“质的飞跃”,实现数据资本化关乎数据价值的全面升级,是
31、实现数据要素市场化配置的关键所在。2.1.2 数据要素的特征数字经济进入数据资源驱动新时代,发展数据安全流通技术,培育数据要素市场,促进数据交易流通是经济社会创新发展的必然要求。囿于数据的法律属性和产权规则在理论和立法层面长期未能清晰界定,规范有效的数据交易流通市场始终未能真正形成,数据要素的社会经济价值仍存在巨大的挖掘提升空间。由于数据具备分散性、多样性、易复制性、时效性等特性,使得数据作为一种新的生产要素,数据要素主要有以下特征:数据要素来源比较分散且多元化。数据要素可能来自于个人、企业、政府、各类社会团体组织以及机器设备产生大量的、分散的数据,这些数据包括了具有多种表现形式的结构化、半结
32、构化、非结构化的数据;数据要素易获取且易传播。数据是易复制的,在多种传播途径的情况下,突破了地域和时间的约束,具有较高的流动性和可获得性;数据要素要求隐私性和安全性并存。数据要素具有“看见即泄露”的特点,数据的隐私安全关系到个人隐私、企业机密,甚至关乎国家安全;8数据要素相关主体比较繁杂,如数据产生者、数据存储者、数据处理者、数据应用者等;数据要素的权属复杂,如用户在平台上产生数据,平台方可对数据进行采集、加工处理等,对数据及其衍生产品的权益如何界定暂无相关法律法规说明;数据要素价值后验突出,数据在经过加工变成价值数据后,可应用于智慧城市、智能制造等,同时数据可以供多个主体重复使用,数据要素新
33、增的产出或收益不随使用次数而递减,边际成本相对较低;数据要素具有时效性,数据价值随时间变化,数据实际产生越久远,它的价值可能就越低,而对于大量的新数据可研究性强,具有前瞻性;数据要素具有融合性,数据要素可深度融入劳动力、资本、技术等每个单一要素,如人才大数据、金融科技大数据、知识产权大数据等,驱动制造业、服务业、农业数字化转型升级。时至今日,数据作为数字经济时代最为核心的生产要素,在社会生产、生活的巨大价值已经不言而喻。数据要素价值的充分发挥在于其有效流通共享,亦已经成为了人们的共识性认识。2.1.3 数据要素与其它生产要素流通方式的区别作为一种全新的生产要素,数据无论是在产权界定还是交易规则
34、方面都与土地、资本、劳动、技术等传统生产要素存在本质区别,数据要素的交易流通规则也必然存在其自身的特殊性。不同于传统生产要素的流通,所有权转移在数据要素交易流通中的价值大为降低。一个使用者对数据的利用并不减少数据对其他使用者的供应,增加一个数据利用主体也不会减少任何其他主体对数据的使用。之所以在数据交易中无需过分强调和关注所有权的移转问题,是因为数据具备上述非竞争性和非排他性的天然属性。由此,传统生产要素会折旧且规模报酬递减,越用越少,而数据要素不会折旧,具有规模报酬递增和边际成本为零的特性,越用越多,越用越好。因此,传统生产要素的交易规则下的所有权转让模式不适用于数据要素,明确数据要素交易流
35、通的价值,探索数据交易流通的可行模式,建构保障各方主体权益的规范性制度,对于加快培育数据要素交易市场具有重要的现实意义。2.2 数据流通的形式及特征2.2.1 数据流通的三种类型流动的数据才能产生价值,目前,数据要素流通类型主要包括数据开放、数9据共享和数据交易。(一)数据开放数据开放指政府向其他社会主体开放数据,包括政府体系内部不同部门、不同层级之间互相开放数据,也包括政府向企业或公众开放数据,是政府数据由内向外的流动,是带有公共服务属性的一种数据流通类型。涉及的主体包括数据提供方、数据使用方以及政府数据管理机构,而每个政府部门可能既是数据提供方又是数据使用方,但数据使用方是市场和社会主体,
36、包括企业、高校、研究机构、社区、公众等。在政府数据开放共享方面,现阶段已经形成了以“国家电子政务网站”为平台,促进各部委、省市政务数据纵向共享体系和以部委、地方政府为主体,对社会进行横向数据共享开放体系的建设。政府数据具有范围广、种类多、价值高等特点,政府数据开放可以为市场主体提供极具市场价值的要素资源。从政府数据公开程度发展来看,各国均在战略布局,如美国在 1996 年颁布了信息自由法修正案,提出“政府信息公开”机制;2009 年签署了开放透明政府备忘录,并构建了政府数据开放平台。我国先发布政府信息公开条例,进而在促进大数据发展纲要中提出政务数据要开放共享的必要性。据国家工业信息安全发展研究
37、中心统计,国家电子政务网站接入中央部门和相关单位共计 162 家,接入全国政务部门共计约 25.2 万家。随着国家政策的引导以及各地数据开放体制机制的完善,我国地方政府数据开放平台数量和开放的有效数据集数量呈现爆发式增长。截至 2020 年全国已有 12 个省市及地级政府举办了开放数据利用互动。政府数据开放共享,有助于打造阳光政府、智慧政务、便民政府。通过数据开放共享,为社会各主体提供了便捷的政务服务,并提高了业务效率,目前已有多个城市建设智慧政府,如北京市的“一网统管”、上海市的“一网通办”、广东省的“数字广东”、杭州市的“城市大脑”、山东省的“云网数用”、辽宁省的“一网协同”、福建省的“一
38、网好办”等。(二)数据共享数据共享指政府数据授权共享以及企业之间数据的流动,是数据的交互共享过程。2016 年,国务院关于印发政务信息资源共享管理暂行办法,提出加快推动政务信息系统互联和公共数据共享,增强政府公信力,提高行政效率,提升服务水平,充分发挥政务信息资源共享在深化改革、转变职能、创新管理中的重要作用。该类数据的共享是有条件的共享,需要经过授权后才能被使用。对于政务数据,首先各委办局数据编制成统一的数据目录,其他委办局在共享平台上检索到对应数据表后可向提供部门提出授权申请,授权通过后即可获取到相应数据,使用部门按授权的范围使用共享信息(提供部门在向使用部门提供共享信息10时,应明确信息
39、的共享范围和使用用途),该数据共享方式鼓励采用系统对接、前置机共享、联机查询、部门批量下载等方式获得数据,使用方在获得数据后与自己的数据进行联合分析。从企业层面看,2020 年 4 月,工业和信息化部关于工业大数据发展的指导意见提出支持优势产业上下游企业开放数据,加强合作,共建安全可信的工业数据空间,建立互利共赢的共享机制。从实践看,微信、支付宝、抖音等互联网平台集聚了海量的用户和流量,基于隐私计算、匿名化或去标签化等方式在保障用户数据隐私和平台运行安全的基础上,通过开放接口的方式将数据和流量向中小应用平台开放,这种共享方式是互利共赢的,互联网平台可以丰富自身产品生态,而中小应用平台在获得数据
40、服务的同时,可以为社会主体提供个性化服务或其他服务从而获得收益,有利于加快市场数据的流通,从而实现数据价值。对于金融机构、保险机构,通过数据共享有利于联合风控、联合营销、监管等,尽管数据共享对提升供应链协同效应、提升产业竞争力有明显的带动作用,但与政府数据开放共享程度相对比,企业数据开放共享仍处于较低水平。另外数据共享时需要支持数据的权限管控、加密、签名等功能,防越权、防泄露、防篡改,同时可以引入区块链、数据水印等技术,确保数据共享前可以确权,在泄露之后可追溯。(三)数据交易数据交易指政府与企业或企业与企业之间通过隐私计算或去标签、匿名化等方式就数据所有权进行数据交易的过程,对于数据提供方而言
41、是由内向外流动的过程。中共中央、国务院公开关于构建更加完善的要素市场化配置体制机制的意见,提出“加快培育数据要素市场”,进一步强化了数据作为生产要素的重要性。数据共享开放作为促进数据要素流通的基础,打破存在于政府间、部门间、行业间以及企业间的数据要素壁垒,成为激发数据要素流通活力的重要着力点。政府数据交易前,政府将政务数据授权给特定市场主体进行市场化运营,政务数据交易涉及主体包括数据方、数据运营方、数据使用方等机构。数据方为政府部门,数据运营方为获得政府授权的市场主体,数据使用方包括市场和社会主体。与数据开放和数据共享不同,这里政府授权的数据在使用时需支付费用。目前企业之间的数据交易主要通过构
42、建数据交易平台来实现。数据交易平台在吸收第三方数据后,撮合数据方和数据使用方进行数据所有权交易,并获取交易的服务费。企业数据交易涉及主体包括数据方、平台方、数据使用方、算法方等。目前我国数据确权相关法律法规有 网络安全法、数据安全法 以及个人信息保护法,但具体细节内容仍不明晰,数据交易模式存在一定的数据安全11风险,数据所有者利益保护度有限,但从数据要素流通的效率来看,该方式最为有效和快速。数据要素的流通在公共决策效率、扩展商业应用、社会服务、城市治理、公共交通等方面具有显著作用。以上提到的三种数据流通类型各有优劣,相互促进、相互支撑、相互贯通、相互影响、相互协同,共同推进数据要素市场的建设,
43、推动公共数据融合应用产业链、资金链和政策链的精准对接,强化普惠高效优质的数字化公共服务,促进数据应用福祉惠及全民。2.2.2 数据流通的主要参与主体目前,市场上数据流通的主要参与体包括:数据生产者、数据拥有方、数据使用方、监管方、数据经纪人和生态服务方。各方主要的作用和职责如下:数据生产者,参与社会实践活动,基于各种载体产生数据的个人及企业;数据拥有方,在数据生产者授权同意情况下,对数据提供载体的组织。并在获取相应授权的情况下,可根据相应的需求对数据进行使用、流转等操作;数据使用方,基于相应数据流通技术能力,对数据拥有方的数据进行加工、使用,从数据提供方获取流通数据使用权,直接开展非身份识别下
44、的数据利用,或基于数据对象主体的同意而识别身份使用数据,或基于相关法律依据而识别使用数据;监管方,数据流通过程中对数据流通参与主体及其进行的数据流通行为进行监管(行政监管),由行政主管部门承担。行政监管通过制定数据流通相关法律法规政策,并监督数据流通其余各方对法律法规政策的执行情况。主要职责为对数据运营平台进行监管,确定相应的准入制度以及对数据提供方、数据需求方及交易过程监管监管,审核交易主体的安全性、真实性、准确性、合法性等要求;数据经纪人,在监管方监管下,具备开展数据经纪活动资质的机构,为数据提供方和数据需求方实现交互媒介、中介撮合、传输流动、清算结算、服务整合等数据流通服务的数据流通平台
45、组织,如数据运营中心、大数据交易所等类似组织。为数据需求方和数据提供方提供数据流通平台,解决数据流通过程中数据汇聚困难、数据不规范、分析数据可用性不强、行业数据无法对接使用等难题,从而实现数据灵活有效流通;同时承担着提供交易规则、审核交易主体资格、监督交易行为的职责;生态服务方,为数据流通提供技术支持、法律相关的第三方组织,为数据流通场景提供相应技术、法律支持保障,支持数据流通中的相应需求,保障数据安全。技术能力提供方可以是提供数据流通模型工具的模型方、提供数据流通安全技术的安全方、提供数据评估意见的评估方以及提供数据加工(清洗、分类分级12等)的加工方,其中,模型方根据相关行业标准规范、技术
46、与法律法规,创建合规模型,支持评估方对数据进行有效评估;评估方在模型方支持下,为运营方、数据提供方、数据需求方等提供数据流通安全合规评估、资产评估等服务;安全方提供数据流通安全合规的过程监管与过程控制以及安全审查等服务,保障运营方、数据提供方、数据需求方等开展数据流通;加工方接受数据提供方或数据需求方的委托,加工处理数据,提供数据服务,获得服务收益权;法律法规支持方为数据供需等各方提供法律法规支持,确保各方行为满足法律规定的合法条件。各个参与体在数据流通场景中的关系如图 2-1 所示。此外,在实际的数据流通场景中,同一家企业和机构可能同时承担其中的多个角色。图图 2-1 数据流通主要参与体关系
47、示意图数据流通主要参与体关系示意图2.2.3 数据流通的内容和形式根据数据流通的形式,可以有三种划分形式,包括原始数据和计算结果、明文和密文、离线文件和应用程序接口(Application Program Interface,简称 API)。(一)原始数据和计算结果原始数据指未经过处理或简化的数据,也就是以第一次采集时的形式存在的数据,可以是纸质形态,也可以是电子形态(文本数据,图像数据,音频数据等),这时数据作为信息的最原始载体记录于物理介质中。未经过处理(重构、存储、计算、稽核、审计、防伪等环节)的原始数据,并不能直接产生高价值的信息,但经过处理后的原始数据不仅产生高价值的信息,还可以获得
48、更多维度的信息,如电商前端埋点会收集到大量的原始数据,经过处理后可以获得用户经常关注的商品、访问时间段、购买品类、消费价格范围、喜欢购买的商品等。13结果数据,将原始数据经过筛选、组织(如模型化)然后按照一定的格式进行整理,使数据可以很好的体现信息,为数据价值的挖掘与实现提供最原始的动力。未经过视觉翻译的计算结果是非常干涩、乏味、很难理解和感知的数据,需要借助图表、触点交互来提升其表达含义。(二)明文和密文在密码学中,明文(Plaintext)指传送方想要接收方获得的可读信息,通常是指没有加密的文字或者字符串,一般人都能看懂的意思,在通信系统中它可能是比特流,如文本、位图、数字化的语音或者数字
49、化的视频图像等。数据明文流通方式下,数据源头企业担心丢失数据所有权,这对于不具备持续生产源数据能力的企业,越发担心数据被他人清洗所用;由于数据复制成本极低,一旦分享出去就容易失去了对数据的控制权,因此数据明文获取削弱了源头厂商的数据稀缺性和分享动力;在涉及高度涉密数据或敏感个人信息隐私数据时,企业往往拿不准数据输出尺度;同时有大量企业因为担心数据安全事件或信息泄露而不敢交互数据,导致出现数据价值递减风险,进而影响了数据要素的流通与价值的盘活。在密码学中,密文(Ciphertext)是明文经过加密算法所产生的。因为密文是一种除非使用恰当的算法进行解密,人类或计算机不可以直接阅读理解的明文的形态,
50、所以可以被理解为加密的信息。密文经过解密还原得来的信息即为明文。在数据要素流通过程中,指数据拥有方或需求方的数据或中间结果,通过某种加密算法,对其进行加密处理,防止隐私数据被泄露,即隐私计算这一技术体系。通过综合运用多方安全计算、联邦学习、同态加密等技术,将明文数据转换成密文数据,在充分保护数据隐私的条件下,实现数据的密态安全流通。(三)离线文件和 APIAPI 是一种计算接口,它定义多个软件中介之间的交互,以及可以进行的调用(call)或请求(request)的种类,如何进行调用或发出请求,应使用的数据格式,应遵循的惯例等。一个 API 可以是完全定制的,针对某个组件的,也可以是基于行业标准
51、设计的以确保互操作性。通过信息隐藏,API 实现了模块化编程,从而允许用户实现独立地使用接口。API 是数据流通的重要形式之一,数据提供方将加工处理完的单方结果数据以接口形式输出,数据使用方调用该接口,双方完成数据流通交互。该模式下按照数据分类沉淀的 API 接口日调用量可达到上亿次,满足较广的服务覆盖范围,且一定程度保护了用户隐私信息以及降低二次利用可能性。离线文件,也称为数据包,是传统服务通常用于数据流通与应用。基于数据包的流通一班属于批量流通,可以是数据提供方和数据使用方之间进行交换,也14可以通过第三方(如数据交易平台)进行交易。由于数据确权相关法律法规不明晰,该模式有较高的数据安全风
52、险,较难保护数据所有者利益,易导致涉及用户隐私的信息暴露以及数据被使用方二次利用甚至滥用。2.2.4 数据流通的应用挑战随着国家数据宏观政策的推动,数据资产流通和共享交换已经成为必然趋势,区域化、产业化的数据要素交易市场正在逐步兴起。数据交易流通在金融、运营商、政府等领域广泛开展,这些机构拥有大量的企业、用户和市场数据,数据在机构内部不同分支机构以及跨机构之间进行共享和交换,将极大促进数据生产要素价值激活,同时也可以帮助实现数据资产所有方的对外运营和价值变现。然而因为数据本身存在容易复制、可修改、权属不清晰等特征,数据共享交换目前在实际应用过程中,仍然存在很多问题,各个领域都在尝试摸索一套与传
53、统资产交易不同的全新技术方案予以支撑。从产业应用角度出发,随着国家相关政策的驱动,数据的交易流通在一些行业头部机构已经开始广泛探索、并且逐渐开始试点落地,但是距离大规模推广仍然有一定距离;从政府侧出发,由北京、上海等城市牵头的数据交易所在 2021-2022 年纷纷成立,逐渐构建覆盖全国各地域的地方性数据交易网络;在行业自身驱动下,各大头部商业银行、保险公司、三大电信运营商,也开始建设自身的数据交流流通平台,在近两年涌现出大量的试点应用项目;从技术应用角度出发,尽管区块链、隐私计算等技术的发展,大大促进了数据流通的应用落地,数据流通仍需要通过更加强大的技术手段解决数据难以确权、权属难以保护、数
54、据定价模型复杂复杂、交易信息的正确性保护等挑战。难以确权,与传统的资产不同,由于数据本身具备极强的流动性和时效性,数据资产往往不具备一个固定的形态。如何在数据随着使用和时间不断变化的过程中,保持数据资产标识与数据权属所有者之间唯一确定的关联关系,是数据交易流通面临的第一大挑战;权属难以保护,由于数据较容易被复制和转让,数据的使用者可能在数据使用过程中将数据本身存储下来,从而在未来加以再次利用和转让给第三方。因此如何在数据使用的过程中保护数据的所有权不丢失,是数据交易流通面临的第二大挑战;数据定价模型复杂,数据使用面领着复杂的应用场景,包括查询、数据分析、机器学习等等。在数据使用过程中将产生大量
55、的数据分割、中间数据产生和最终的结果数据,如何对这些不同粒度的数据资产定价、如何评价一个复杂数据使用15流程中各个数据产生的价值,将是数据交易流通面临的第三大挑战;交易信息的正确性保护,区块链保障了数据交易过程的可信与公正,但实际的数据交易行为涉及到数据隐私,无法直接在链上完成。一旦交易数据发生在链外,就需要实现链上到链下的信任链构建。在记账和确权的过程中,账本和资产确权中包含的数据交易行为信息可能被伪造或抵赖。如何在区块链分布式记账的基础上保证实际交易行为的正确性,是数据交易流通面临的第四大挑战。2.2.5 数据流通的未来趋势对于未来发展趋势的预判,隐私计算、区块链、数据定价模型是当前数据流
56、通领域各方研究的重点。隐私计算技术用于保障数据的所有权不丢失,在数据交易过程中将数据使用权与所有权分离开来,保护数据所有方的隐私信息和数据资产合法权益;区块链技术用于实现数据权属的记录与公证,通过将数据确权、数据交易、数据计算等过程信息上链存证,保障数据交易各方的公平与互信;数据定价模型用于实现数据资产的市场化定价,通过数据血缘分析、数据价值分析等细分技术,再结合不同行业的专家经验实现数据资产价值的量化评估。(一)隐私计算“数据可用不可见”的隐私计算技术为数据流通与共享提供了新方式,为打破“数据孤岛”、实现机构间的业务协同与数据共享提供了可行性。隐私计算是一套为了保证数据隐私安全流动的技术总称
57、,即在保护数据本身不泄露的前提下,实现数据利用。隐私计算能够实现数据处于加密状态或非透明状态下的计算,达到各参与方隐私保护的目的,隐私计算交叉融合了密码学、人工智能、计算机硬件等众多学科,逐渐形成以多方安全计算、联邦学习、可信执行环境为代表的多种技术体系。在未来,搭建数据生产要素流通平台要充分考虑数据本身和数据交易行为的特点,依托于国产化自主可控的基础设施,搭建可信执行环境、多方安全计算、联邦学习融合的技术路线,并解决大规模生产应用的性能和稳定性瓶颈,是隐私计算在数据流通领域的发展趋势。(二)区块链区块链是构建数据生产要素市场的信任基石。区块链因其“去信任化、不可篡改”的特性,可以极大的降低信
58、用成本,实现数据指纹、数据权属和交易流程的安全存储。基于区块链技术的数据交易平台,不仅可以保障数据的真实、安全、可信,还提供了可追溯路径。16利用区块链不可篡改、数字签名、共识机制、智能合约等技术可以对数据进行确权,并对数据的产生、收集、传输、使用与收益进行全周期的记录与监控,为数据共享和流通提供了坚实的技术基础。具体来说,数据资产的所有者、生产者和使用者作为重要的节点加入到区块链网络中,利用区块链同步共识,详细记录数据产生、流转、交易等全部环节,不但记录数据本身,而且记录该数据资产相关主体的身份及其操作历史,并全节点共识见证,任何一方都不能抵赖。这样生态圈中的所有参与方都能贡献自己的数据资产
59、,并通过智能合约对资产流转与收益分配进行监督,实现了收益共享与风险共担,大大促进了数据资产的流通,实现开放数据生态圈的合作共赢。随着数据流通领域的发展,区块链将以联盟链的应用为主要趋势,因其相比于公链具备可控性更强、私密性更强、交易速度更快等特点,更加适用于当前数据流通市场的现状。(三)数据定价模型数据成为一种新的数据资产,需要有效、公平的评估和定价方法。目前仍未能在全球领域内形成对数据定价方法的统一认识。因此,如何实现数据定价理论中定价机制的公开化、数据价格的透明化,一直是困扰国内外科研人员以及大数据从业者的重大问题。在现有的研究成果中,通常以数据计量、定价模型等手段为切入点,着重探索数据资
60、产化定价的数学方法,包括数据资产化框架、评估模型、定价模型、标准等。当前,数据定价模型目前仍处在理论发展与建设阶段,在实际应用中还未大规模验证与推广。数据资产化涉及法律、会计、技术、方法等多方面因素,是一个混沌问题,需要从多种视角开展研究和实践。2.3 数据安全流通的体系架构围绕确权、定价、安全、机制等方面,深入分析构建数据安全流通的体系架构,涉及数据安全流通的构成要素,包括政策、法律、标准、技术、监管、行业主体等。2.3.1 数据安全流通架构简介数据要素市场旨在实现数据要素的市场化配置。对于实现数据要素的市场化,首先需要具备规模化且规范化的数据体系,特别是政府数据和企业数据,形成较为成熟的数
61、据形态。其次,搭建促进数据安全流通的硬件(算力等)和软件(算法等)环境,围绕现在的隐私计算等核心技术进行基础设施的建设,从底层技术路径上构建数据安全防护、数据可信流通、数据综合治理等贯穿数据生命全周期17的流通环节的技术支撑。数据要素的流通主要以数据开放、数据共享、数据交易的三种模式进行。围绕各种数据流通的模式,又衍生出具体的法律法规、标准规定以及监管要求等政策。例如,数据交易涉及到数据确权、定价机制、交易机制、监管机制、法律范围等保障制度基础上。因此,在设计顶层政策框架时,要进一步完善数据公共属性的权属安排,制定相关技术标准、行业标准和立法监管体系。2.3.2 数据安全流通构成的要素为了完成
62、数据安全流通,需要在数据要素市场体系架构中进行要素的补充,从而确保数据要素在流通过程中实现“可用不可见”。(一)技术层数据作为数字经济基础性资源,对于经济发展、社会治理等都产生了重要影响,成为数字经济时代重要的竞争性战略资源与生产要素。然而,作为信息时代的遗留物,数据具备独特的经济学特征,它是非竞争性的,在传统共享和使用方式下,存在数据资产流失或者转移的风险。通常需要一套完整的系统工程全栈技术矩阵解锁数据价值,包含从数据治理、跨云存储计算、隐私安全计算、工具及模型、流通与归因等数据安全防护、数据可信流通、数据综合治理方面端对端的全链条数据解决方案,实现数据要素的流通。1、数据安全防护数据安全的
63、解决方案除了需要保障对外网络安全,也需要保证数据存储、计算、传输中的数据安全和授权使用。因此在安全方案的设计中需要定义安全威胁模型。安全威胁模型将会从外部、用户、系统管理员、应用等不同角色分析可能产生的各种数据安全、数据授权使用的风险。通过假定攻击者的视角来发现、穷举系统潜在的安全威胁,并评估处理这些潜在威胁的优先级。安全威胁模型中通常会使用网络安全措施、数据安全措施、身份认证安全、隐私保护措施等手段降低数据安全风险。网络安全措施,提供“几乎”封闭的数据存储及计算环境,以减少和控制网络与 Internet 的交互;数据安全措施,采用密钥管理系统(KMS)加密静态数据,从而减轻了大规模数据泄漏的
64、风险;身份认证安全,采用如密码强度要求、两因素身份验证、密码更新策略以及用于用户权限管理的授权模块。同时通过大量日志记录并进行深入分析,以检测可疑的用户行为,网络行为和数据集操作行为等,对账户安全进行及时反馈;隐私保护措施,数据进入平台前会进行匿名化处理,与数据处理无关信息将会在数据编组过程中删除,同时还会采用差分隐私等技术降低重新识别的风险。18在数据的使用过程中,严格执行数据的“最小可用原则”,在数据被探查和访问的时候,同样保护其隐私安全,在这一场景下便“无法关联”。2、数据可信流通通过多方安全计算、同态加密、联邦学习、安全沙箱计算、可信执行环境(Trusted Execution Env
65、ironment,简称 TEE)等前沿技术,达成使用细粒度的访问控制保证数据“最小可用原则”、将行业数据分级分类与隐私计算的技术手段相结合等方式,实现高规格安全保护和数据“可用而不可见”。因此隐私计算为数据所有权和使用权的分离提供了合规和法律层面的抓手,能够在特定的信任假设下,在保护数据所隐含的隐私和机密,避免数据资产的流失、转移和失控的前提下,实现和分享数据价值。通过区块链技术对数据进行溯源。在数据存储的过程中将数据集产生过程记录在案,包括项目本身、项目输入的数据集等,建立输出数据集和输入数据集的血缘关系。对于任何一个数据集,都可以通过数据集的出处和血缘进行追踪,一直回溯到最原始的数据集,从
66、而减少了数据要素的归属风险。3、数据综合治理数据要素流通的关键在于对原始数据的综合治理,达到数据可用的状态以便于后续流通。数据质量评估,原始数据通过关系型数据库、非关系型数据库库、纸质文件、文件、图像音频、文件系统、分布式、大数据文件等形式进行储存,作为数据要素前需要进行数据清洗、主数据融合、自然语言处理等方法实现各系统的原始数据打通,形成标准化和结构化的高质量数据仓库和数据服务;统一的接入认证,数据要素流通主要通过 API 技术、大数据、混合应用、流式计算、ELK 等技术进行接入,包含静态交换处理、动态流转要求、互通互联等接入状态;数据资源定价,隐私计算流程中结合区块链技术,在各个环节形成全
67、闭环服务,操作和处理记录上链保存,实现防篡改的目的。定价方面通过多个标准化智慧合约为参与方提供可信服务,在各个环节智能评估各方价值贡献,依据合约内容获得价值收益,解锁数据要素流通的核心价值。(二)模式层1、数据开放数据开放的主体主要是政府和企业。所谓政府数据指政府部门在开展各项工作与履行职责过程中,所获得的与人们生活存在密切关系的各种大量数据。政府数据开放指在不违背相关政策法规且对公共利益不受影响的基础上,免费向公众开放,使社会上任何人均能够获取及应用相关数据。通过原始数据的开放,可使19政府各项工作的开展能够更廉洁透明,促进经济创新发展,推动社会治理创新。政府数据开放工作目前主要以政府为主导
68、,通过建设统一的公共数据开放平台,将本地区可开放的公共数据以数据集、API 等方式提供给社会公众使用。政府也鼓励公共企事业单位及其他社会组织提供可开放的数据以丰富和提升公共数据多样性及公共数据质量,目前尚在早期建设阶段。2、数据共享数据共享限定在内部受管控的范围内进行数据共享和交换。以政府数据共享为例,仅限数据在政府部门之间的流动,比如对数据交换平台等基础设施的访问也仅限于政府内部的网络访问。数据共享是一个高度专业化的工作,需要对数据进行分类分级、供需对接、收放结合、安全治理等内容。其中,隐私计算平台等的基础设施的建设是开展安全数据共享的必要前提。3、数据交易数据交易所在数据要素流通过程中作为
69、交易媒介起到了关键的作用,随着各项相关配套政策相继落地,数据交易产业生态逐步繁荣。数据交易由通用数据中心占据主导,演变为多类型数据中心共同发展局面。数据中心之间互相协同以及云边协同体系不断完善,共同提供算力服务,数据要素将会在更大范围上进行无障碍流通。数据交易所存在数字经纪中介产业体系、数商体系和数据经纪人三种体系,数字经纪中介服务不直接参与交易,只提供提升交易效率、服务质量和市场活跃度等服务。数商指以数据作为业务活动的主要对象的经济主体,数商的首要价值是帮助企业发现数据资源的价值,联结跨组织数据要素和提供服务。数据经纪人是在政府的监管下,具备开展数据经纪活动资质的机构,需要具备生态协同能力、
70、数据运营能力、技术创新能力、数据安全能力和组织保障能力。(三)政策层近年来,我国出台了数据安全法、个人信息保护法等关于数据和个人信息安全保护的法律法规,民法典也首次明确将数据纳入民法保护范围。促进大数据发展行动纲要、“十四五”数字经济发展规划等文件则积极推进数据要素市场化,推动数字经济健康发展。数据要素流通、交易相关技术标准及数据资产标准数据资产标准的研究制定已成为国内外各标准化组织共同关注的热点,涵盖数字化基础设施、底层技术、平台工具、行业应用、管理和安全等方面的数据标准体系建设尚处于起步阶段,距离打造互认互通的标准化、规范化、高质量的数据资源标准体系仍需很长一段时间。20第 3 章 数据流
71、通行业发展现状数据作为关键的生产要素,在数字经济发展过程中能够与其他生产要素不断交叉融合,加速迭代组合,引发生产要素跨领域、跨维度、系统性、革命性的突破。一方面,随着数字技术与国民经济各领域的融合应用不断深化,数据的产量、市场规模不断增长;另一方面,数据要素市场发展的政策环境、相关标准、法制环境、技术支撑也在随之不断优化完善。3.1 数据流通政策发展现状全球进入数字经济时代,数据作为重要的生产要素之一,对构建新型发展格局、实现高质量发展的重要支撑作用不断凸显。数据关系到国家发展的未来。当下,数据随意滥用的时代已经过去,聚合海量数据强化高质量供给、培养要素市场促进要素流通交易、探索数据要素开发利
72、用机制成为当下各国各界的战略重点。世界各国纷纷出台法案政策,在前沿技术研发、数据交易流通、数据安全治理、数据人才培养等方面做出战略性布局,力争打造竞争新优势,在数字经济、数据要素治理方面抢占先机。3.1.1 美国美国国内拥有发达的信息产业和庞大的数字经济体量,依托先天条件优势,直接促进数据要素的流通和交易市场的发展。数据跨境保护方面,美国早在二十世纪初与欧洲签署个人信息跨国流通安全港协议,该协议后因 Facebook 隐私保护诉讼案后宣布无效,重新制定了数据传输协议 隐私盾协议,但在 2020 年被裁定无效。2018 年美国国会发布 CLOUD法案,对国外机构调取美国国内数据和美国国内机构调取
73、国外数据提供了合法性依据。加州、华盛顿州、弗吉尼亚州、科罗拉多州等陆续发布地方性隐私法案,赋予消费者对其个人信息的控制权,规范了企业收集、使用、转让消费者个人信息的行为。政务数据方面,美国政府在 2009 年发布开放政府指令,建立了政府数据服务平台。平台将美国各界的数据整合发布,技术开发商可对平台中数据进行加工。通过该平台不仅建立了统一的政务数据开放机制,也为发展多元数据交易模式、探索数据安全与产业利益平衡点提供了渠道。数字战略方面,自 2019 年起,美国先后发布联邦数据战略与 2020 年行动计划和数字合作战略(2020-2024)。前者确立了数据共享、数据安全、数据使用三类四十余项具体的
74、数据管理实践;后者宣称对外援助发展中国家数字21发展,实际强调要渗透美国数字思维和数字发展理念影响其他国家的数字发展规划布局。对华政策方面,2020 年与民主党有着密切联系的布鲁金斯学会发布的美国对华政策的未来对拜登政府的建议,在数据安全领域报告中提到“中美间的技术竞争将是下届政府面临的首要外交政策挑战之一,中美数据领域相互依赖的现状给跨境数据流、数据隐私和数据安全带来一系列挑战”。美国一直致力于数据跨境流动政策,当前美国数据要素交易模式多种多样,数据要素市场政策相对开放。3.1.2 欧洲(一)欧盟受历史和文化传统的影响,欧洲是世界上对隐私保护最为严格的地区。一直以来,欧盟重视数据安全体系化工
75、作部署,并最先进行了各类举措和布局。2019年欧盟通过的开放数据指令旨在推进欧洲地区可重用数据的跨境使用。2020年 6 月 30 日,欧洲数据保护监管局(EDPS)发布欧洲数据保护监管局战略计划(2020-2024):塑造更安全的数字未来(EDPS Strategy 2020-2024:Shapinga Safer Digital Future),旨在塑造一个更安全,更公平,更可持续的数字欧洲。战略指出,欧盟将积极关注数据处理实践和技术发展,提出数据保护措施,整合数据保护网络。2022 年 2 月欧盟公布关于公平获取和使用数据的统一规则(草案),确保在数据经济的行为者之间能够公平分配数据的价
76、值,并促进对数据的访问和使用,该草案的公布意味着欧盟在促进数据要素的公平化发展方面走在前列。欧盟通过立法先行,通过制定领先的数据要素治理规则推动数据要素市场的建立和发展。在探索数据要素流通模式方面,欧盟沿用了工业经济时代的知识产权保护的做法,但目前看来,这种做法无法应对数字经济时代数据要素流通中出现的很多问题。(二)英国2020 年 3 月,英国政府成立数据标准管理局和政府数据质量中心,并开发政府跨部门数据综合平台4。9 月,英国政府发布国家数据战略,战略阐述了数据有效利用的核心支柱以及政府的优先行动领域,通过搭建国家层面的数据安全治理方案,为建设促进增长和可信赖的数据机制提供指导方向,保障国
77、家安全。223.1.3 亚洲(一)日本日本通过数据交易平台和数据银行连接起政府、数据流通运营商、国内外企业等共同构建数据要素流通市场。2016 年日本政府就提出要促进数据流通,实现构建超智能社会5.0的目标。日本的数据安全治理实践主要围绕安全人才培养、寻求国际安全合作5。2017 年日本发布网络安全人力资源开发计划,培养网络安全高技术人才。此外,日本一直在积极谋求国际层面的网络安全合作,与美国、欧盟、英国、法国以及东盟国家开展对话合作,签署网络安全领域的项目。2019 年日本与欧盟达成欧盟日本数据共享协议,使得日本和欧洲的很多企业能够采集到更多数据资源,促进数据跨境流动。2021 年日本成立了
78、日本数字厅,从国家层面对数据交易进行管理,全面推进日本的数字化改革。(二)新加坡新加坡通过实施“智慧国家”(Smart Nation)战略,推动其国内信息基础设施的现代化发展,扩大电信业的投资与推动数据中心的建设。建立完善的个人信息保护制度和相应的监管框架,监管体系重点包括设置主管部门、划分责任边界、设定跨境流动条件、开展国际协调、明确基础设施要求等方面。构建完善、系统的数据跨境流动管理规则,有助于实现全球数据向新加坡汇聚和流动,打造成为数据融合的重要中心节点城市。(三)印度印度电子商务框架草案明确一系列的数据本地化存储的豁免情况,如初创企业的数据流动、跨国企业内部数据流动、基于合同进行的数据
79、流动等方面不会要求数据本地化存储。印度并不想实施严格的数据保护措施,但是又做不到放任数据自由流动。一方面想要融入全球数字经济发展格局,另一方面又想保护个人信息安全和国家安全,印度正在探索适应本国国情的中间化道路。3.1.4 中国我国数据交易政策的部署和交易模式的创新处在世界靠前的位置。2020 年 4月,中共中央、国务院发布关于构建更加完善的要素市场化配置体制机制的意见,其中强调要加快培育数据要素市场,这也为推进数据要素市场化改革指明了方向。同年 11 月,中共中央关于制定国民经济和社会发展第十四个五年规划和二三五年远景目标的建议中对数据资源开发利用、要素市场培育发展提出了新的战略要求,提出“
80、建立数据资源产权、交易流通、跨境传输和安全保护等基础制度和标准规范”。各省市政府积极响应国家政策,纷纷出台一些列政策条例;北京、上海、江23苏、广东等地纷纷成立大数据交易中心,积极推进数据交易,规范数据交易行为,探索数据交易新机制。2022 年 1 月,国务院印发“十四五”数字经济发展规划,对充分发挥数据要素作用作出重点部署,提出要强化高质量数据要素供给,加快数据要素市场化流通,创新数据要素开发利用机制。2022 年 3 月发布的关于加快建设全国统一大市场的意见中提到加快培育统一的技术和数据市场,加快培育数据要素市场,建立健全数据安全、权利保护、跨境传输管理、交易流通、开放共享、安全认证等基础
81、制度和标准规范,深入开展数据资源调查,推动数据资源开发利用。由此可见,世界进入数字经济时代以来,数据流通行业在政策制定方面不断完善,这也侧面体现出数据作为生产要素,对于推动全球经济增长具有极高的重要性。但是当前阶段,各国对基于数据要素而建立的新经济发展模式的的探索仍处于初级阶段。3.2数据流通法律法规发展现状3.2.1 美国美国对外宣称支持国内数据的自由流动,但对于特殊行业的敏感数据出境却制定了严格的出境管控措施。随着数据经济的发展和经济全球化扩张,国际贸易中数据流通越来越频繁,美国在双边和多边国际贸易协定中,一直强调促进数据的自由流动、反对数据本地化存储,但是对于国外企业却要求其交易数据、通
82、信数据和用户数据存储在美国境内,通信基础设施也要部署在美国境内。除此之外,美国还将个人数据视为国家安全的重要组成要素,并将涉及个人数据的传输、交易纳入外资安全审查范围。美国各州政府对于在美国境内的数据流通均设定了相关的法律进行严格把控,这些法律不仅适用于美国本土的企业和政府单位,也适用于非本国企业。2017年联邦通过电子邮件隐私法案,澄清和扩大执法的搜查令条例,以迫使服务商交付其服务器上的客户电子邮件或其他数据;2018 年 3 月 23 日,联邦政府通过 CLOUD 法案,对数据管辖权进行了扩张,只要被美国法院认为“与美国有足够联系且受美国管辖”的企业,均适用于上述规定;同年特朗普签署201
83、8 年外国投资风险审查现代化,以应对敏感数据泄露对国家安全的威胁;2019 年 11月 18 日,美国政府提出国家安全和个人数据保护保护法案 2019(提案),以保护美国国家安全的名义阻止美国数据流入中国及相关国家,对境内数据的跨境传输和流通设置更多限制,尤其是被美国列为“特别关注国家”的相关企业,对其数据出境要求更为严格。24美国除了对境内数据出境进行严格限制之外,对于个人隐私数据也加大了安全保障力度,2019 年纽约州政府通过身份盗窃保护与缓解服务法,扩大了纽约数据泄露报告法所涵盖的个人信息类型,要求企业实施具体的数据安全保障措施,并规定了相关机构对受影响的个人提供预防与补救措施;同年 1
84、2 月,美国政府提出数据保护法案(提案),第一个从联邦政府层面解决美国隐私问题,不仅明确了个人信息的范围,还明确了在线供应商应承担的责任与义务;2020年 1 月 1 日加州政府通过加州消费者隐私法,对消费者隐私权利进行了更强的保护;2021 年 3 月,美国政府提出信息透明度和个人数据控制法案(提案),旨在为消费者个人信息保护设定一个统一的联邦标准,并在国际上形成示范效应,推动全球个人信息保护制度的完善;2022 年 1 月 13 日提出服务条款标签、设计和可读性法案,旨在提高数据的在线透明度,确保消费者了解个人数据的收集和使用。3.2.2 欧洲(一)欧盟欧盟高度重视公民的个人隐私保护,并制
85、定了一系列的法律法规,如 GDPR。对于个人数据的出境,欧盟规定这些数据只能传输到欧盟认可的国家或地区。不在欧盟认可名单内的国家或地区的企业必须遵守欧盟委员会批准的“标准数据保护条款”或制定“有约束力的公司规则”,获得认证后才能开展数据跨境传输。同时,欧盟的数据立法工作长期引领国际数据跨境流动的发展方向,并且欧盟不断加强其数据法规的国际影响力,很大程度上实现了“欧盟标准”向“国际规则”的转换。2022 年 2 月 23 日,欧盟委员会正式公布数据治理立法数据法案(DataAct)草案(以下简称数据法案),涉及数据共享、公共机构访问、国际数据传输、云转换和互操作性等方面规定,将确保数字环境的公平
86、性,刺激竞争激烈的数据市场,为数据创新驱动提供机会。数据法案的监管对象主要为互联网产品的制造商、数字服务提供商和用户等。按照欧盟立法设计,数据法案旨在为非个人数据的利用,涵盖各种智能设备、自动化生产线、自动驾驶汽车等产生的数据,提供公平的访问和共享框架,综合采用欧盟数据法案“一体双标”的各项立法举措,有助于释放符合欧盟数据治理规则和价值观的数字经济潜力,但过度监管和合规成本快速增长也会造成压制科技公司的创新意愿和业务成长的风险。(二)英国英国在脱离欧盟之前适用于 GDPR,但是2018 数据保护法案已在国会25内通过,被用于替代1988 数据保护法案并对 GDPR 做出具有英国特色的细节补充。
87、英国脱欧过渡期于 2020 年底结束,GDPR 不再适用于英国,英国信息专员办公室最近发布新的标准化条款工具包,一是国际数据传输协议(IDTA),可以作为一个独立的协议来执行,以配合主要的商业合同,确保数据传输符合英国的数据保护法;二是欧盟 2021 年标准合同条款的附录(英国附录)。2022 年3 月 21 日起,上述 IDTA 和欧盟 2021 年标准合同条款的附录(英国附录)正式生效。英国脱欧后,不断指定新的有关数据保护的政策与法律,2021 年 1 月 1 日通过的英国通用数据保护条例(UK GDPR)将成为新的保护公民个人数据权利的法规,该法规适用于以下场景:在进行数据处理的有关活动
88、时,无论数据处理是否发生在非欧盟成员国家或地区;数据处理的个人数据与在英国的数据主体有关;数据处理活动与在英国提供的商品或服务有关。除此之外,英国通用数据保护条例与原来的 GDPR 相比有以下几点变化:数据处理通知需要数据控制者付费;对第三方转移个人数据增加了限制;与信息社会服务相关的许可年龄从 16 岁变为 13 岁;禁止处理特殊类别的个人数据,除非该数据处理在本法列出的例外范围外。2022 年 1 月 25 日,英国政府发布国家网络安全战略,对英国政府如何确保公共部门有效应对网络威胁进行了阐释,并描绘了战略远景。3.2.3 亚洲(一)日本日本对于个人信息的跨境流动十分严格,不仅制定了相关法
89、律,还设置了相关机构进行监管;同时为了促进贸易合作伙伴之间的数据自由流动,与其他国家签订了相关的协定。对于发展过程中产生的新数据和新问题,日本会对相关的法律法规进行修订,以确保相关数据保护制度的完备性。2015 年,日本修订个人信息保护法,强化了关于数据跨境流动的细则条款,其中包括要求设立个人信息保护委员会作为数据跨境流通的监管机构,负责制定数据出境的规则和指南;当个人将境内数据向外传输时,需要得到数据主体的授权方可进行。与此同时,日本在全面与进步跨太平洋伙伴关系协定(CPTPP)、日欧经济伙伴关系协定(EPA)、以及正在谈判中的区域全面经济伙伴关系协定(RCEP)、中日韩 FTA、日英 FT
90、A 等多边和双边国际贸易协定中增加关于跨境数据流动的规则,推动与其他国家和地区的数据自由流动。2020 年,日本再次修订个人信息保护法,在各方权利义务问题上进行26了全面修订,当个人权益或正当权益可能受到侵害时,个人拥有主张停用、删除等请求权。同时也加强个人信息处理者的责任与义务,增加了违规处理个人信息的成本。除此之外,该修正案细化了信息处理方式,区分了“匿名加工信息”和“去标识化信息”,前者具有无法识别特定个人且无法复原的特点,而后者可以通过与其他信息相对照,可以识别特定个人。2021 年日本对该法再次进行修订,核心内容是将个人信息保护法、行政机关保有的个人信息保护法和独立行政法人等保有的个
91、人信息保护法整合在一部法律中,为了实现个人信息保护法在公法和私法之间的统一。这一规定在医疗和学术领域将和私法适用相同的规则。(二)新加坡新加坡建立了完善的个人信息保护制度和相应的监管框架,监管体系重点包括设置主管部门、划分责任边界、设定跨境流动条件、开展国际协调、明确基础设施要求等方面。构建完善、系统的数据跨境流动管理规则,有助于实现全球数据向新加坡汇聚和流动,将新加坡打造成为数据融合的重要中心节点城市。对于个人数据的保护,新加坡则通过建立个人数据保护制度和完善相应的监管体系,建立起数据跨境流动管理的制度框架,实现对数据跨境流动的管理。2012 年 10 月 15 日,新加坡国会通过个人数据保
92、护法(PDPA),并于2014 年起全面实施。PDPA 通过加强对机构的问责来增强用户的信任,并且新增了基于通知的推定同意规则,在对数据进行处理时可将数据使用目的通知个人并给予个人拒绝的权利。为了确保该法的有效执行,PDPA 建立了一套纠纷解决机制来处理个人的投诉。最后,为了达到更好的惩戒作用,PDPA 加大了对机构的处罚力度。2013 年 1 月 2 日,新加坡颁布 PDPA 的附属条例个人数据保护条例(PDPR)及其实施细则,该条例与 PDPA 共同构成了新加坡数据管理体系的法律框架,在该法律体系下,个人数据的内涵和边界的界定、个人数据保护的责任设置都有了明确的规定。除了对个人信息的保护之
93、外,新加坡还建立了完善的数据跨境流动监管体系,主要包括主管部门的设置、责任边界的划分、跨境流动条件的设定、国际协调的参与以及基础设施的设置。监管主要包括事前监管和事后监管两个阶段,事前监管主要通过指定规则来实现,事后监管主要根据投诉和诉讼进行监管和执法。(三)印度印度对于数据保护持中间态度。一方面想要融入全球数字经济发展格局,故不想实施过于严格的数据保护措施;另一方面又想保护个人信息安全和国家安全,故也不允许数据不受监管地任意流动。因此,印度正在探索适应本国国情的中间化道路。对于个人数据,印度也出台了相关的保护法案,并且对于其中的项目条27款做了明确的规定,只要符合相关规定,数据流通的限制不再
94、限于境内,这较于其他国家的规定更为宽松。2018 年 7 月 27 日,印度高级别专门委员会正式发布了2018 年个人数据保护法案(草案)(PDPB),并于 2019 年 12 月 11 日对该草案进行了修订,发布了2019 年个人数据保护法案(送审稿),并提交国会进行审议。该法内容主要包括适用范围、排除适用规则、重点术语定义、与个人信息安全保障相关的数据控制者的义务、数据主体的权利、数据安全使用保障措施、数据跨境输出、数据保护监管机关、救济与罚则等。该规定不仅适用于在印度境内收集、披露、分享或以其他方式进行处理的数据,还适用于不在印度境内但满足以下行为的数据:与在印度经营的业务是相关的,或者
95、与向印度境内的数据主题提供商品或者服务的活动有关;与对印度境内数据主体的画像活动有关。最后,可以将规定中的数据受托人理解为数据控制者。3.2.4 中国中国对于数据流通的规定主要体现在两个方面,一方面对于数据流通有严格的限制,制定了一系列相关的制度标准;另一方面将数据的保护和利用结合起来,促进数据价值利用,对于数据保护强调国家总体安全观,以安全为指导原则进行管理,在这个基础上对数据进行合理地开发与应用。2021 年 6 月 1 日颁布数据安全法,对数据采取的治理逻辑为保护加利用,一方面基于国家安全战略方面对数据的审查、评估、管理等方面制定了严格的政策与措施;另一方面为数据的要素化、充分挖掘数据的
96、巨大潜能提供了重要的制度保障。这是整个数据行业的基本法,级别超过了网络安全法,更加强调总体国家安全观,它以数据为核心,对信息社会、数据时代起基础性支持作用,其本质上是以安全为基础和起点,终极目标是数据作为生产要素能够加速流通。2021 年 11 月 1 日生效的个人信息保护法,是继民法典将个人信息作为一项重要民事权利予以保护后的首部细化规则,具有更强的针对性和可操作性。对将告知-同意确立为个人信息保护核心规则、强调禁止大数据杀熟、对个人敏感信息采取严格保护措施、强化个人信息处理者的义务四个重点方面进行规定,从而做到对个人数据进行全方位保护。283.3 数据流通标准发展现状3.3.1 国际标准(
97、一)概述经过近几年数据要素安全流通技术的快速发展及应用需求加大,数据要素安全流通技术的相关标准相继在国际上制定。这些国际标准主要侧重于同态加密、秘密分享、多方安全计算、隐私计算等基础技术。在 ISO/IEC JTC1 SC27 中,从 2019 年开始启动隐私计算相关标准的制定。目前已发布同态加密、秘密分享的国际标准,多方安全计算的国际标准也即将制定完成,我国牵头的零知识证明的国际标准刚立项。在 IEEE 中,从 2020 年开始,主要由我国主导制定隐私计算相关的国际标准。目前已发布共享学习、多方安全计算、安全计算、联邦学习等方面的国际标准,正在制定隐私计算一体机、隐私计算互联互通、隐私计算安
98、全要求、联邦学习安全要求等方面的国际标准。在 ITU-T 中,从 2020 年开始,我国在 SG16、SG17 中主导制定隐私计算相关的国际标准,目前已发布共享学习、多方安全计算相关的国际标准。目前,也有一些隐私计算应用类的国际标准,在陆续立项的过程中。整体来看,从 2021 年开始,数据要素安全流通的国际标准具备面向安全层面、互联互通层面、应用层面的发展趋势。(二)ISO 国际标准2019 年,ISO/IEC JTC1 SC27 开始制定数据要素流通相关的国际标准,具体如表 3-1 所示:表表 3-1 数据流通相关的国际标准数据流通相关的国际标准标准编号标准编号标准名称标准名称标准进展标准进
99、展ISO/IEC4922Information technologySecure Multi-Party ComputationCD 阶段ISO/IEC19592-1Information technologySecurity techniquesSecret sharing已发布ISO/IEC18033-6Information technologySecurity techniquesPart 6:Homomorphicencryption已发布ISO/IEC18033-8Information technologySecurity techniquesPart 8:Fullyhomomo
100、rphic encryption已立项ISO/IEC27565Guidance on privacy preservation based on zero knowledge proofs已立项(三)IEEE 国际标准IEEE 中数据要素流通相关的标准项目如表 3-2 所示:29表表 3-2 IEEE 的数据流通相关标准的数据流通相关标准项目编号项目编号项目名称项目名称当前状态当前状态P2830Standard for Technical Framework and Requirements ofTEE-based Shared Machine Learning2021 年发布P2842Rec
101、ommended Practice for Secure Multi-Party Computation2021 年发布P2952Standard for Secure Computing Based on Trusted ExecutionEnvironment2021 年发布P3652.1Guide for Architectural Framework and Application ofFederated Machine Learning2021 年发布P3156Standard for Requirements of Privacy-Preserving ComputationInt
102、egrated Platforms2022 年立项P2986Recommended Practice for Privacy and Security for FederatedMachine Learning2020 年立项P3117Standard for Interworking Framework for Privacy-PreservingComputation2021 年立项IEEEP3169Standard for Security Requirements of Privacy-preservingComputation2022 年立项(四)ITU-T 国际标准ITU-T 中数
103、据要素流通相关的标准项目如表 3-3 所示:表表 3-3 ITU-T 的数据流通相关标准的数据流通相关标准项目编号项目编号项目名称项目名称项目状态项目状态ITU-TF.748.13Technical Framework for Shared Machine Learning System已发布ITU-TX.1770Technical Guidelines for Secure Multi-Party Computation已发布3.3.2 国内标准(一)概述数据要素安全流通方面的国家标准主要侧重在数据安全方面,已发布的国标包括数据管理能力评估、数据交易服务安全、数据安全能力评估、数据安全管理等
104、。目前还缺乏隐私计算相关的国家标准,目前已有关于联邦学习、隐私保护机器学习、机密计算等方面的国家标准正在立项流程中,后续有望加速推进。在电信与互联网领域的行业标准方面,CCSA(中国通信标准化协会)从 2020年开始立项了多项隐私计算方面的行业标准,包括联邦学习、多方安全计算、可信执行环境、隐私计算一体机、隐私计算互联互通等,目前已基本制定完成。后续将继续制定隐私计算在金融领域、互联网领域、教育领域等方面的行业标准。在金融领域的行业标准方面,全国金融标准化技术委员会(简称金标委)在302019 年就启动制定多方安全计算的行业标准,2020 年发布。目前已立项联邦学习的行业标准,标准草案正在制定
105、中。可信执行环境方面,还在团体标准孵化的流程中,行业标准还有待后续推进。金融领域中隐私计算应用实施指南类的行业标准,也还缺乏,需后续加快制定。在团体标准方面,CCSATC601 大数据标准化推进委员会隐私计算联盟是制定隐私计算团体标准的主要阵地,已发布联邦学习、多方安全计算、可信执行环境、隐私计算一体机、隐私计算金融应用规范等多项团体标准。这些团体标准也同步在 CCSA 推进为行业标准。(二)国家标准在国家标准方面,主要为全国信息安全标准化技术委员会(简称信安标委)所发布,如表 3-4 所示:表表 3-4 国家标准国家标准标准组织标准组织标准名称标准名称当前状态当前状态信安标委GB/T 360
106、732018 数据管理能力成熟度评估模型已发布信安标委GB/T 37932-2019 信息安全技术 数据交易服务安全要求已发布信安标委GB/T 37988-2019 信息安全技术 数据安全能力成熟度模型已发布信安标委GB/T 37973-2019 信息安全技术 大数据安全管理指南已发布(三)CCSA 行业标准CCSA 所发布的行业标准如表 3-5 所示:表表 3-5 CCSA 行业标准行业标准标准名称标准名称当前状态当前状态大数据 数据安全服务能力分级要求在研多方数据共享服务数据安全技术实施指南在研网络环境下应用数据流通安全要求在研隐私保护场景下多方安全计算技术指南报批稿基于可信执行环境的安全
107、计算系统技术框架报批稿互联网广告 隐私计算平台技术要求征求意见稿隐私计算 跨平台互联互通系列标准征求意见稿隐私计算 产品安全要求和测试方法系列标准征求意见稿隐私计算 产品功能要求和测试方法系列标准征求意见稿隐私计算 产品性能要求和测试方法系列标准征求意见稿隐私计算应用一体机技术要求征求意见稿区块链辅助的隐私计算技术工具 评估要求与测试方法征求意见稿隐私计算应用 面向金融场景的应用规范征求意见稿隐私计算应用 面向通信场景的应用规范征求意见稿可信数据服务 可信数据流通平台评估要求在研面向多方数据流通的贡献度评估的安全技术指南在研网络环境下应用数据流通安全要求在研31(四)金标委行业标准金标委所发布
108、的行业标准如表 3-6 所示:表表 3-6 隐私计算相关的行业标准隐私计算相关的行业标准标准名称标准名称当前状态当前状态JR/T 0196-2020 多方安全计算金融应用技术规范已发布联邦学习金融应用技术规范已立项(五)团体标准CCSATC601 大数据标准化推进委员会隐私计算联盟中,隐私计算相关的团体标准如表 3-7 所示:表表 3-7 隐私计算相关的团体标准隐私计算相关的团体标准标准名称标准名称当前状态当前状态基于多方安全计算的数据流通产品 技术要求与测试方法已发布基于联邦学习的数据流通产品 技术要求与测试方法已发布基于可信执行环境的数据流通产品 技术要求与测试方法已发布隐私计算 多方安全
109、计算/联邦学习/可信执行环境 产品功能/性能/安全 要求和测试方法系列标准已发布隐私计算应用一体机技术要求已发布隐私计算 金融应用技术规范与测试方法已发布3.4 数据流通技术发展现状数据流通技术目前并没有统一的认知,且在数据流通过程中用到的技术具有多样性,分析的角度不同得到的结论也不尽相同,如按照是否有中心化节点,分为去中心化数据流通和中心化数据流通,也可以按照数据生命周期进行划分,分为采集阶段、传输阶段、存储阶段、处理阶段、交换阶段、销毁阶段的数据流通,或按照是否出域划分为内部流通技术、外部流通技术。本着关注重要关键环节的原则,白皮书定义的数据流通技术指在数据流通过程中,包括传输和计算所使用
110、的技术。在原有的数据流通方式下,不管是机构内部的数据共享还是多方机构进行共享,离不开的问题是数据是否会通过传输和交互的方式出私域,以实现价值。从数据流通方式不同来看,分为明文、明文+脱敏、隐私计算三个阶段。3.4.1 明文方式流通该阶段数据合作方将自己的数据以明文的方式开放共享给需方使用,可采用物理介质传输、网络传输等方式;多方数据合作采用的是明文汇集的方式,并在明文的基础上进行统计分析等业务应用。32该阶段在实际技术应用中,主要是通过基础的网络安全传输协议 TLS/SSL等进行明文的传输。图图 3-1 明文方式流通明文方式流通该阶段的特点是合作方普遍对数据没有安全性意识,且数据量并不大;目前
111、仍有相当规模的数据市场采用该方式进行数据流通。此外,该阶段原始数据出私域,存在被缓存、复制、转售的风险,数据安全风险非常高。3.4.2 明文+脱敏方式流通该阶段数据合作方采用明文+脱敏的方式进行数据流通。随着技术的发展,该阶段一般与 API 传输的方式结合提供,当然,也存在少量以数据包方式提供的方式。数据提供方会将原始数据进行融合、清洗,建模等一系列加工后最后形成数据接口提供给下游,流通的关键信息会进行匿名化处理。该阶段通过一定方法消除原始环境数据中的敏感信息,具体而言,将部分敏感的数据用脱敏的方式进行预处理,再通过物理介质或者网络等方式进行传输。目前在GB/T 37964-2019 信息安全
112、技术 个人信息去标识化指南中描述了常用的去标识化技术,有主统计技术、密码技术、抑制技术、假名化技术、泛化技术、随机化技术、数据合成技术等,模型方面主要应用 k-匿名模型和差分隐私模型。这些技术所针对的数据范畴虽不同,但在实现时所采用的技术方案基本一致,计算性能高,适用于大数据量处理。33图图 3-2 明文明文+脱敏方式流通脱敏方式流通目前数据流通市场以该方式为主,但该阶段的缺点同样明显,脱敏后,数据本身的效用会有一定降低,可追溯性变差,使多方融合结果容易出现偏差,数据价值利用效果不理想,价值挖掘不充分;数据脱敏后的去向和使用难以从技术上有效控制;在 API 查询模式下,查询方 ID 容易暴露于
113、数据提供方,被用于名单制作;没有从根本上解决数据出域以及暴力破解而造成的数据泄漏风险;多家供应商 API 接口的不统一也会引发需求方的适配性问题;API 模式产品一般只会开发资产专用性低,容易以集市交易模式进入数据流通市场的数据产品,无法很好的满足需求方的定制化需求。3.4.3 隐私计算方式流通随着国家对数据安全要求的提高,数据合作方逐渐加深对数据安全的理解,数据流通的方式也在不断的更新和发展。该阶段数据采用密码学或可信执行环境的方式进行,从技术层面保障数据在流通和融合的过程中“可用不可见”,解决前两个阶段的问题。图图 3-3 一种密文方式流通方案一种密文方式流通方案该阶段下,即使在多方协作场
114、景下,数据也可做到不出私域,都在本地进行34相应计算操作,过程中通过不可逆的加密方式进行整体交互,最终获得安全且有效的数据价值;支撑了很多不愿开放、不敢开放其数据的数据提供方参与到数据流通市场中来。隐私计算是数据流通方案的全面升级,真正实现了数据可用不可见,数据不动价值流通。3.4.4 数据流通技术四象限针对数据流通技术的传输和计算过程,总结技术特征,提出数据流通技术四象限模型,如图 3-4 所示。图图 3-4 数据流通技术四象限模型数据流通技术四象限模型第 I 象限:明文传输+明文计算最传统的数据流通方式,数据在网络空间中以明文方式存在,安全性极低最初的联邦学习算法为此类算法;为了确保该方式
115、的实用性和安全性,通常会结合脱敏的方式进行,如加噪音、结合密码学等技术方式,隐私计算体系中联邦学习可归属于该象限。第 II 象限:密文传输+明文计算传输过程中对数据进行加密,加密方式可采用对称及非对称方式,汇集到计算点后,解密进行计算;该模式存在数据权属转移的问题,需要在数据流通前做好数据权属的确定;隐私计算体系中的可信执行环境,也属于该象限。第 III 象限:密文传输+密文计算传输和计算均在密文状态下进行,该方式是完全基于密码学的方式进行,主要技术实现方式有同态加密、秘密共享、混淆电路等算法/协议,或基于算法/协议构成的多方安全计算协议。第 IV 象限:明文传输+密文计算暂不存在该种流通方式
116、。35第 4 章 数据可信确权技术4.1 数据可信确权概述数据确权是明确和保障数据活动主体的合法权益、主客体间法律关系以及数据活动的合法性。只有产权清晰的数据才能实现产权分置,顺利进入要素市场,因此数据确权是构建数据要素市场的基础和前提。从宏观上,数据确权需从两个层面去实现,一是从法律与制度的层面确定“权”与“属”;二是通过技术手段解决权属边界模糊、真实记录主体参与数据活动的过程。二者相辅相承缺一不可。在立法与制度层面,2015 年,国务院发布促进大数据发展行动纲要,明确指出要研究推动数据资源权益相关立法工作;2017 年,在中共中央政治局就实施国家大数据战略进行第二次集体学习会议上,习近平书
117、记明确强调要制定数据资源确权、开放、流通、交易相关制度,完善数据产权保护制度等内容。此外,学术理论研究和实务也深入数据确权和构建数据权利制度研究,并取得了部分新颖、前沿性的成果,如初步构建了数据权谱系6;概括总结了法学界四大主流“数据权利与权属”观点7;大数据战略重点实验室 2017 年发布的数权法以规范数据关系为内容,对数据的权属、权利、利用进行了法理阐释等8。但由于我国民法总则物权法知识产权法反不当竞争法等上位法层面均未明确数据法律属性。因此,数据财产属性和权利属性仍不明确。在缺乏上位法依据的情况下,任何一种技术方案都无法独立认证数据主体及其具备数据的合法权益。此外,由于数据本身的特殊属性
118、,其本质是一串符号,具备无形性特征,其价值体现在所携带信息的价值或者处理的价值而非其本身,且具可复制性和复制零成本特征,导致数据存在无限复制的可能,但数据所携带的信息和价值却未减损。而一旦数据被复制,导致数据产权的初始主体可能无法掌控数据的产权。因此要实现数据产权被某一主体唯一拥有,必须解决因数据被复制、被公开而导致的产权排他性丧失的问题。本次讨论数据可信确权技术主要围绕如何真实记录不同主体参与不同数据活动的事实过程作为法规和制度建立后可践行的基础,以及如何通过技术的手段解决数据在流转过程中易被复制导致权属边界模糊的问题。364.2 数据可信确权基础支撑技术4.2.1 区块链技术区块链是一个通
119、过共识技术保证了最终一致性的分布式数据库。区块链技术具有公开透明、不可篡改、可编程和去中心化等技术特性,在数据确权过程中具有支撑作用。区块链作为一个多方记账的分布式可信账本,可以对数据的产生、收集以及使用进行全流程过程管理和留痕,实现数据溯源,降低数据确权的难度。数据确权涉及到多方共识,没有达成共识的权利是没有意义的,因此数据的权属关联需要以区块链的方式来达成共识并永久记录在区块链上。此外,基于区块链进行分布式多方可信的数据目录管理,通过智能合约可以保障数据用途和用量的可控可管,为数据这种特殊的数据要素在确权时提供了权益配比的依据。但由于区块链技术为实现数据上链多方共识而需要放弃数据私密性,变
120、相的公开数据及其信息,侵损数据主体权益。4.2.2 分布式数字身份分布式数字身份是一种以区块链为基础,2009 年万维网联盟(W3C)发布首个分布式数字身份标准,将分布式数字身份的结构分为分布式生成、持有和验证身份标识 DID(Decentralized Identifier)和承载身份数据的可验证声明 VC(Verifiable Credential)两大模块。图图 4-1 分布式数字身份结构分布式数字身份结构其中,分布式数字身份标识由一个特定格式且全局唯一的标识符和对应一个描述对象(DDO)组成。描述对象是一个 JSON 字符串格式的文档,主要包含了标识符对应的一些公开信息,比如与 DID
121、 验证相关的密钥信息和验证方法等。37这决定了分布式数字身份不是简单的身份标识,而是主体账户数据与行为数据的集合。在数据确权过程中,基于上文中说明的数据上链,分布式数字身份可用于签名标识主体对数据发生的数据行为,并通过区块链进行记账。可验证声明是基于一种分布式的认证体系的产物,用户通过分布式的社会关系获得全面的身份认证,可以在无需透露身份隐私信息的情况下,通过“多方证明”来验证身份。可验证声明一方面确保了数据流通时主体的身份隐私,另一方面引入实名认证、生物认证等认证方式,可以满足合法合规性的要求。4.2.3 数字水印数字水印指将特定的信息嵌入数字信号中,数字信号可能是音频、图片或是视频等。数字
122、水印技术和传统的密码学方法不同,它是依据信息隐藏的思想将重要的可认证的信息嵌入到图像、视频、音频及文本文件等数字多媒体的内容中,一旦需要,则可以提取预先嵌入的信息,对产品的完整性以及进行认证和证明。这在数据确权场景下就可以将数据相应的权属信息嵌入数据内容中,从而实现数据的确权。贵阳大数据交易所率先使用数字水印技术为大数据确权9,由数据源供应商提出确权请求,在确权请求、证据挑战和验证阶段,引入审计中心,数据源供应商和审计中心基于隐私保护数据持有性证明和抽样技术交互完成大数据的完整性审计,由数据源供应商将能唯一标识自己身份信息的数据发送给水印中心,请求水印生成,水印中心将生成的水印发送给数据源供应
123、商,由数据源供应商完成水印嵌入数据块的工作,区块链记录完整的交易过程。图图 4-2 贵阳大数据交易所数据确权流程贵阳大数据交易所数据确权流程但无论何种数据确权的技术方案都无法独立于立法和制度实现数据主体及其合法权益的认证。现阶段,在相关法律尚未完善的情况下,该方案是国内首个对数据确权先行探索实践的技术方案,为后续数据确权技术路径提供了思路:数字水印技术作为一种可验证的信息嵌入技术,可以将主体及主体对数据行为记录在数据内容中,需要时提取以证明数据流通过程中数据权属转移路径。384.2.4 数据存储加工阶段通常情况下,原始采集的数据经进一步加工处理后才可成为要素,进而通过深度和专业的融合分析使数据
124、价值融入经济运行。数据存储加工阶段的数据确权是明确哪些主体具备对数据加工分析的资质以及记录参与进行数据加工分析的主体。(一)主体资质验证数据加工分析资质应基于法规与制度由相关监管机构核发。同时体现在主体的分布式数字身份中,由相关核发机构向主体颁发可验证声明(VC),通过链上验证主体的可验证声明(VC)判断主体是否具备对数据加工分析的资质。(二)记录参与主体在实际对数据进行加工分析时,需要记录具体参与主体及可量化的参与事实。区块链在多方协同的场景下可以通过可编程的智能合约实现对参与方及各方工作量的证明和记录。将数据加工分析的信息以数字水印的方式嵌入数据要素内容中,永久跟随数据要素的全生命周期。(
125、三)数据要素存储同样在多方协作的场景下,对与最终产生的数据要素的持有与存储,去中心化文件存储系统提供一种很好的解决方案,IPFS 是典型的分布式文件存储系统。但原生的 IPFS 系统没有权限管理功能,因此可以结合分布式数字身份,通过分布式数字身份中的权限控制能力重塑存储空间与主体绑定的带权限管理功能的IPFS 系统存储数据。4.2.5 数据流转阶段(一)数据要素流转阶段的产权保护于数据本身的特殊属性,其本质是一串符号,具备无形性特征,其价值体现在所携带信息的价值或者处理的价值而非其本身,且具可复制性和复制零成本特征,导致数据存在无限复制的可能,但数据所携带的信息和价值却未减损。而一旦数据被复制
126、,导致数据产权的初始主体可能无法掌控数据的产权。因此要实现数据产权被某一主体唯一拥有,必须解决因数据被复制、被公开而导致的产权排他性丧失的问题。在数据流转使用时,采用多方安全计算、联邦计算、可信执行环境等隐私计算技术进行数据处理,仅将分析结果定向公布给数据使用者,能实现敏感信息的“可用不可见”,可以解决因数据公开而导致的生产要素排他性消失问题,从而维护数据要素的产权,实现所有权和使用权的分离。具体流程如下:基于非对称加密技术,数据使用方生成一对公私钥。数据使用方通过智能合39约发起一个数据使用请求,包括使用数据时的参数的哈希、目标数据的哈希、数据使用方的公钥以及使用私钥对前述信息的签名。数据拥
127、有方则通过数字签名针对该使用请求进行授权。可信第三方获取授权后处理数据使用请求,对数据使用结果进行加密,并将加密结果提交到区块链上。基于数字签名验证技术,区块链通过智能合约对加密结果的有效性进行验证,即保证请求参数、加密数据、数据处理算法以及加密结果的一致性。数据使用方获取加密结果,并使用私钥获取结果原文,从而完成整个数据使用流程。在整个过程中,智能合约作为验证工具,保证了整个数据流转的有效性。该方案不仅可以将数据所有权、使用权分离,还可对数据的收益权进行确权及记录。具体来说,数据拥有方可以将数据的收益权单独剥离出来,授予多个第三方,并将授权信息发送至智能合约。当数据产生收益时,该收益将通过智
128、能合约上的收益权记录自动进行分配,分配记录也存在区块链上,当然,目前区块链上的收益分配仅作为最终收益分配的依据,实际的分配还是在链下进行。(二)数据权属的转移在数据传输和共享的场景下,数据确权的问题为所有权或使用权的转移。引入代理重加密技术,原数据拥有方与新的数据拥有方通过区块链完成转换密钥的约定,数据存储节点通过转换密钥完成将加密数据转换为使用新的数据拥有方的公钥进行加密,该步骤完成的同时,使用数字签名技术生成确认消息并提交到智能合约,由智能合约完成最终的数据所属权转移。40第 5 章 数字资产化技术5.1 数据价值评估概述随着科技的发展和社会生产力的进步,数据信息呈现指数级增长,而这些数据
129、不仅包含大量信息,而且有巨大的利用价值。与此同时,越来越多的企业将公司生产经营活动产生的数据作为公司的重要资产,数据资产化已逐渐成为主流,而如何评合理而准确地评估数据的资产已成为一个重要议题。“数据资产”一词最开始是指政府债券、公司债券和实物债券等资产10,2018 年,数据资产的概念得到了延拓11,将其定义为拥有数据权属、有价值、可计量、可读取的网络空间中的数据集。参考以上定义,可以一定程度上对数据资产进行认定。但在完成数据资产认定后,则需衡量该资产的重要性并量化其价值,此时需对数据资产的价值进行评估。数据资产的价值受多项因素的影响,从不同影响因素出发,可派生不同的评价维度和评价指标,进而形
130、成不同的评价方法。数据资产价值的不同影响因素之间彼此互相作用,形成错综复杂的关系,因此确定数据资产价值的影响因素十分重要。从数据自身角度看,数据资产的价值由描述数据自身特性的指标决定,包括质量、规模、准确性、时效性等。从安全合规角度看,数据资产的价值受数据的权属和安全性的影响,由于信息技术的发展,数据的复制与传播变得越来越容易,个人隐私、企业信息和国家安全信息的泄露风险日益增大,因此安全问题成为全社会关注的焦点。从财务角度看,数据资产的取得成本是需要考虑的重点问题,数据信息系统的建设与维护费用是数据资产管理成本的主要构成,包括收集数据、存储数据、处理数据产生的各种费用。目前,针对数据资产的价值
131、评估主要围绕数据资产价值评价维度、数据资产价值评价指标体系、数据资产价值评价指数、数据资产价值评估个内容逐步展开。数据资产的价值维度指数据资产价值的体现方面,包括效用价值、成本价值、战略价值、交易价值个维度12,这些维度从不同方面描述了数据资产的价值,为接下来的评价指标体系奠定了基础。数据资产价值评价指标体系是数据资产价值维度的具体指标体现,维度所描述的更高层次还需要进一步细分,即数据资产价值的具体评价指标需要进一步明确。关于数据资产指标体系的建立,可使用颗粒度、多维度、活性度、规模度和关联度个维度对数据资产的价值进行衡量13。在建立起数据资产价值评价指标体系后,需根据这些指标计算出数据资产价
132、41值指数。基于数据资产价值评价指标体系,计算数据资产价值指数的方法主要有层次分析法、专家打分法、层次分析与模糊综合评价结合方法。其中层次分析法是将决策问题按总目标、各层子目标、评价准则直至具体的备投方案的顺序分解为不同的层次结构,然后用求解判断矩阵特征向量的办法,求得每一层次的各元素对上一层次某元素的优先权重,最后再加权和的方法递阶归并各备择方案对总目标的最终权重,此最终权重最大者即为最优方案。而专家打分法用于为具体的指标进行打分。模糊综合评价法是基于模糊数学的综合评价方法,它根据隶属度将定性评价转化为定量评价,利用模糊综合评价得出的结果,具有清晰明了、系统性强的特点,适用于非确定性问题的解
133、决。由于价值评价指数可以反映市场相对水平,因此可以将指数与数据资产价值评估方法结合,对评估结果进行修正。目前传统的数据资产价值评价方法主要为成本法、收益法和市场法三种基本方法。成本法的原理是从产生数据资产所需花费的成本进行评价,在此基础上扣除各种贬值因素,并考虑数据资产的预期使用溢价,加入数据质量、数据基数、数据流通以及数据价值实现风险等数据资产价值影响因素进行修正,从而估算出标的数据资产的价值。收益法的原理是对数据资产投入使用后的预期收益能力进行评价,考虑资金的时间价值,将未来各期收益进行加总,从而估算出标的数据资产的价值。市场法的原理是基于相同或相似数据资产的可比市场交易案例进行评价,对数
134、据资产的价值密度、交易期日、容量等数据资产的性质等相关因素进行修正,从而估算出标的数据资产的价值。除了以上种方法之外,还有基于其他理论的数据资产价值评估方法。如博弈法、实物期权法、数据质量评估法、信息熵评估法、人工神经网络系统模型和深度学习评估模型等。综上所述,目前学界对于数据资产的评估方法已形成了一定的体系,有相关的研究和实践。但由于数据的价值与场景紧密结合,还需因地制宜地选择最合适的方法,才能使数据资产的价值得到合理而准确的评估。5.2 现有数据价值评估方案静态定价策略较为经典的(无形)资产估值策略,参考中国资产评估协会在2020 年 1 月印发的资产评估专家指引第 9 号数据资产评估,其
135、建议了三种主要的度量方法:成本法、收益法和市场法。5.2.1 成本法成本法,又称为“重置成本法”,是根据形成数据资产的成本进行评估的一种估值方式。其核心思想是将在“当前条件下重新购置或者建造一个全新状态的42评估对象所需要的全部成本与合理利润,减去各项贬值后的差额作为评估对象价值”的一种评估方法。尽管数据这类无形资产的成本和价值对应性较弱,且数据的成本有不完整性,但在企业内部可获取所有信息时,是具备一定可行性的。其基本公式是:评估值=重置成本 (1 贬值率)或者:评估值=重置成本 功能性贬值 经济性贬值数据资产的取得成本需要根据创建数据资产生命的流程特点,如在前文定义的数据全生命周期每个环节分
136、阶段进行统计:数据采集、数据传输、数据存储、数据分析、发布使用和删除销毁。但由于数据要素的特殊性,往往需要综合考虑数据资产的成本与预期的使用溢价,对上述基本的成本法进行正:P=TC 1+R U这里 P 是评估值,TC 是数据资产总成本,R 是数据资产成本回报率,U 是数据效用。其中数据效用 U 是影响数据价值实现因素的集合,用于修正数据资产成本投资回报率 R。数据质量、数据基数、数据流通以及数据价值实现风险均会对数据效用 U 产生影响:U=1+l (1 r)这里、l、r 分别是数据质量系数、数据流通系数、数据垄断系数、数据价值实现风险系数。即有:P=TC 1+R 1+l 1 r表表 5-1 成
137、本法计算逻辑成本法计算逻辑类别类别估算逻辑估算逻辑注释注释数据质量系数使用数据模块、规则模块和评价模块综合加权汇总而得。完整性、数据准确性和数据有效性约束。数据流通系数?其中代表开放数据、公开数据、共享数据和非共享数据四类数据,代表其数据量,是对应的数据传播系数。开放数据、公开数据、共享数据和非共享数据四类的加权值。通常不用考虑非共享数据,因为其对整体流通效率影响可以忽略不计。数据垄断系数系统数据量行业总数据量一般与行业和地域相关数据价值实现风险系数一般采用专家打分法与层次分析法获得其风险系数。数据管理风险、数据流通 风险、增值开发风险和数据安全风险四个二级指标和设备故障、数据描述不当、系统不
138、兼容、政策影响、应用需求、数据开发水平、数据泄露、数据损坏八个三级指标。成本法具有一定局限性,主要包括不易区分、不易估算、不体现收益个方43面。不易区分:由于数据要素对应是生产经营中的衍生产物,故没有对应的直接成本,同时在实际生产过程中,间接成本通常不易分摊;不易估算:数据要素的贬值等因素,由于场景的不同,所以影响因素也有不同,且这些因素涉及宏微观背景、时效、准确性、体量等原因影响,通常不易估算;不体现收益:无法体现数据要素产生的收益。5.2.2 收益法收益法通过预计数据资产带来的收益估计其价值,该方法的主要思路是通过估算待评估数据资产未来预期收益,并将预期值折现作为评估资产价值的一种方法。相
139、较于成本法,收益法注重的是数据资产能够为企业带来的超额收益的能力。这种方法在实际中比较容易操作,是目前对数据资产评估比较容易接受的一种方法。虽然目前使用数据资产直接取得收益的情况比较少,但根据数据交易中心提供的交易数据,还是能够对部分企业数据资产的收益进行了解。其基本公式是:P=t=1nFt11+t?这里 P 是评估值,Ft是数据资产未来第 t 个收益期的收益额,n 是剩余经济寿命期/收益期,是折现率,其中每一项 t 表明是未来第 t 年。表表 5-2 收益法计算逻辑收益法计算逻辑类别类别估算逻辑估算逻辑注释注释预期收益预期变动、收益期限、成本费用、配套资产、现金流量、风险因素等需要区分数据资
140、产和其他资产所获得的收益。数据资产的获利形式通常包括:对企业顾客群体细分、模拟实境、提高投入回报率、数据存储空间出租、管理客户关系、个性化精准推荐、数据搜索等。收益期收益期限不得超出产品或者服务的合理收益期法律保护期限、相关合同约定期限、数据资产的产生时间、数据资产的更新时间、数据资产的时效性以及数据资产的权利状况等因素确定收益期限等。折现率折现率可以通过分析评估基准日的利率、投资回报率,以及数据资产权利实施过程中的技术、经营、市场、资金等因素确定。折现率与预期收益的口径保持一致。收益法还有权利金节省法、多期超额收益法、增量收益法等诸多衍生估值方法。收益法也有一定的局限性,主要包括操作复杂、期
141、限不定、估算不准个方44面。操作复杂:数据要素的预期收益与传统资产评估的度量不同,市面上无有效工具;期限不定:数据要素是动态的,导致使用期限也是动态的;估算不准:一些收益法无法作出“反事实推断”,即在使用增量收益法等方法时,无法估算出“若没有应用数据资产”情景下的收益,这在实际使用中需要额外注意。5.2.3 市场法市场法,又称作“比较市场法”,是根据相同或者相似的数据资产的近期或者往期成交价格,通过对比分析,评估数据资产价值的方法。其核心思想是按照所选参照物的市场行价,通过比较待估数据资产与其差异,并加以量化、调整后,形成的资产评估方法。P=VCi=15Ci?表表 5-3 市场法计算逻辑市场法
142、计算逻辑类别类别估算逻辑估算逻辑注释注释可比案例数据资产的价值对于类似数据资产,可以从相近数据类型和相近数据用途两个方面获取:数据类型:用户行为数据、社交数据、交易数据等;数据用途:精准营销、CRM 管理、风险控制等搜集类似数据资产交易案例相关信息,并从中选取可比案例技术修正系数1数据采集、数据传输、数据存储、数据分析、发布使用和删除销毁等因素因技术因素带来的数据资产价值差异价值密度修正系数2评估基准日价格指数可比案例交易日价格指数评估基准日与可比案例交易日期的不同带来的数据资产价值差异期日修正系数3评估对象的容量可比案例的容量不同数据容量带来的数据资产价值差异容量修正系数4有效数据和数据资产
143、总价值的单调递增关系有效数据占总体数据比例不同带来的数据资产价值差异其它修正系数5具体问题具体分析市场供需状况差异、地域差异等市场法的局限性主要包括场景受限、多变性 2 个方面。场景受限:市场法假设了交易市场是“公开并活跃”的,这与当前各类交易所、交易平台的交易规模小、评率低、收益少的发展现状不一致,在业务实践中,出于准确性考虑,“一般需要找到三个及以上的类似参照资产,将结果加权平均”,45在没有好的参照物的情景中,市场法则较难启用;多变性:随着交易或市场不同,市场法的估算逻辑要做相应调整和分析,截止 2022 年初,国内数据交易主要涉及金融、交通通信等行业,但更多的行业、场景和市场方兴未艾,
144、这将会带了更高的复杂性和挑战。5.2.4 经济学视角度量方法小结上面的讨论可以概括成下列表格,用于横向对比:表表 5-4 三种主流静态定价策略一览表三种主流静态定价策略一览表类别类别简述简述优势优势劣势劣势成本法以资产形成的成本为基础计量资产价值易于理解:以成本构成为基础操作简单:以成本加权计算为主不易区分:数据要素对应的是生产经营中的衍生产物,故没有对应的直接成本,且间接成本的分摊不易估算;不易估算:数据要素的贬值因素在不同场景是不同的,且不易估算;不体现收益:成本法无法体现数据要素产生的收益。收益法基于预期收益评估资产价值的方法衡量实际价值:能有效衡量资产的实际价值操作复杂:数据要素的预期
145、收益与传统资产评估的度量不同,市面上无有效工具;期限不定:数据要素是动态的,导致使用期限也是动态的;估算不准:在使用增量收益法等方法时,无法作出“不应用数据资产”情景下的收益估算。市场法在有效、活跃市场基础上,选取可比案例进行资产评估反应市场:能客观反应数据要素目前的市场情况真实、可靠:参数和修正系数都是客观指标,相对真实、可靠场景受限:市场法假设交易市场是“公开并活跃”的,这与当前各类交易所、交易平台的交易规模小、评率低、收益少的发展现状不一致;多变性:随着交易或市场不同,市场法的估算逻辑要做相应调整和分析。在国内外研究和实践中,有如下方法:问卷调查法14:其有时被称作条件价值评估法(CVM
146、 方法),一般参用对环境等公共物品进行价值评估,可参考英国伦敦交通局的做法,该研究通过对乘客、伦敦经济、伦敦交通局 3 个目标对象展开问卷调查来估算开放数据产生的社会价值。对乘客而言,每年通过开发数据平台的实时交通信息和路线规划,节省了 70009000 万英镑的出行成本(问卷估算),对社会而言,估计为整个产业链贡献 12001500 万英镑的增值和 700 余工作岗位。非货币度量估值法是一种根据特定的资产评估目的,选择相关评估维度构建评估体系,并最终以归一化且无量纲的形式展现评估结果的方法。其中以 Gartner提出的 IVI、BVI 和 PVI 三类评估模型更为完善,他们分别考虑的是从信息
147、的内46在价值、数据资产与业务的相关性指标和企业绩效因子(KPI)来对数据价值进行评估。以腾讯游戏的大数据运营为例,其通过构建了数据资产的“三度”对数据资产的价值进行评估,明确了数据资产在企业中的作用,其思路即类似于 PVI方法。数据势能法:普华永道在研的一种针对公共开放数据的新的数据定价方式。该方法在宏观角度上,从国民经济生产总值出发,剖析数据经济总值占国民经济之比例,通过成分分析层层推出公共开放数据可能的价值区间;在微观角度上,从公共开发数据的特征及撬动其潜在价值的关键因素出发,推出“数据势能”公式,即“公共数据资产价值”等于“公共数据开发价值”和“潜在社会价值呈现因子”与“潜在经济价值呈
148、现因子”的乘积。通过结合专家打分法,普华永道已完成对 18 个已开放的省级公共数据开放平台的实证评估。5.3 数据价值评估技术对比在数据挖掘视角下,通常可以通过评估数据对数据分析模型的贡献来计算其在模型中的内部价值,同时可交叉使用(但不限于)市场法,类比同类场景/数据来进行交易决策;或者层次分析法,请专家针对数据的各评价指标进行打分,将定性评价转化为定量指标,利用模糊数学方法或者别的数据驱动分析手段,最终得到数据资产价值。评估数据对数据分析模型的贡献有以下主流方法:贡献度度量方法:一种基于统计分析中对特征/数据重要性的衡量方法;沙普利值方法(SHAPLEY):一种基于博弈论的衡量参与方边际贡献
149、和剩余贡献的方法。5.3.1 贡献度度量方法贡献度的概念,主要来源于数据挖掘中的几个重要概念:特征重要性(Importance):进行预测时,每个特征的相对重要性/显著性;数据杠杆点(Leverage points):数据的预测值偏离较大;影响点(Influence points):去掉某数据后,预测发生的变化较大。其中,“重要性”一个是相对的概念,也就是说,需要一个基线(Baseline)才能计算相对重要性,这个值越大则表明该特征越“重要”。这个值同时要保证“无量纲”性,否则比较就会失去意义,如“米”和“秒”并不可比。“显著性”是一个统计学意义下的专用术语,不是一个通常语言下的一般概念。其衡
150、量的是假设该特征/数据无效果(量化地说,即效果为 0)时,出现比观测数据更极端情形的概率,即 p-值(p-value)。这个值越小,则表明该特征越“显47著”,也就越“重要”。影响点和杠杆点没有必然的联系。在衡量某一参与方数据(假设特征都相同,不考虑引入的特征的话)的重要性时,通常的做法是考虑“影响点”,但很多业务实践中,会误用“杠杆点”甚至是“离群点”(Outliers)做“影响点”:需要明确的是,“杠杆点”的使用场景是对数据质量进行评估,而非数据对模型价值的评估。值得注意的是,在实际工作中,可以细致区分“数据贡献度”和“特征贡献度”,并加以综合考虑。这样做的一大好处,是可以将不同的贡献度衡
151、量标准直接和隐私计算的不同场景一一对应起来:在类似横向联邦的场景,即数据分析模型的特征相同,不同参与方只是增加观测时,可以使用数据贡献度做主要度量。典型的场景如同一集团同一业务在跨国、跨洲业务中的数据分析,在做事后数据价值评估时就能使用该方法。在类似纵向联邦的场景,即用户相同,但参与方的特征扩充时,就可以使用特征贡献度做为主要度量。典型的场景如联合清算机构和传统零售行业做联合营销,B2B 地推业务和其它渠道商做联合新客推荐时的数据(特征)价值评估等。(一)数据贡献度度量方法数据贡献度的度量方法,源于一个直观的问题:去掉某数据后,模型的预测会发生多大变化?在这里我们需要假定模型是固定的,否则衡量
152、结果不一定相同。在 1977 年,Cook 就研究了这个问题的简化版,即删除某一个数据点,会对模型(的预测)有多大影响。严格的叙述,假设观测值是 Xi,Yi i=1N,其中Xi Rp是 p 维的特征向量,Yi是响应变量,n 为总样本量;假设建模是|Y f(X)|2?求能达到最小的映射 f :f?=argminf|Yi f Xi|Norm?这里|Norm是某种范数。比如我们熟悉的最小二乘线性回归,其可能的f x=+x,而范数取 L2 范数,此时我们需求的就是最优的,组合。为了衡量“删除某一个数据点 j,会对模型的预测有多大影响”,可以这么做:(j)=1Ni=1n|f?xi f?jxi|?这里f?
153、j=argminfI i j|Yi f Xi|Norm?,即去掉数据点 j 后的预测结果。这个值越大,说明该数据点的影响也越大。统计学中,我们把(j)称做数据点 j 的影响点。类似的,由于计算过程对单点(granular check)做还是批量做(holistic check),48计算过程是一致的,给定数据集 D 1,N,不妨定义:f?D=argminfI i D|Yi f Xi|Norm?以及数据集合 D 的影响值:(D)=1Ni=1N|f?xi f?Dxi|?于是在实际有 k 个参与方时,假设其数据集合分别为Dj,其中 j=1,k。令f?ALL=argminfiD1Dk|Yi f Xi|
154、Norm?那么第 k 个参与方的(数据)贡献(Di)就是:(Di)=1#D1 DkiD1Dk|f?ALLxi f?Dxi|?这里#D1 Dk是合样本量。举例而言,某企业要将下属两个分支机构的数据合并分析,其数据分析模型为广义线性模型(Generalized Linear Model),包含了四个特征X1,X2,X3,X4和响应变量 Y。具体数据分布和模型如图所示。从上到下分别是在两个分支机构的合数据,以及分支机构 A,分支机构 B 分别的的数据和模型情况。可以看出:分支机构 B 的数据分布方差表现合数据表现比较类似,线性模型趋势也和合数据趋势(都是向下)一致;分支机构 A 的数据分布方差表现合
155、数据小近一半,线性模型趋势也和合数据趋势相反(一个向上一个向下);需要注意的是,数据贡献度(D)计算的是“删除某一个数集 D,会对模型的预测有多大影响”,于是分支机构 A 的贡献度对应的是右下图 vs.右上图,而分支机构 B 的贡献度对应的是右中图 vs.右上图。这与 A、B 位于中、下的位置是反的。于是由于考虑删除后的偏离度,直观可以猜测分支机构 B 的数据贡献度更大。实际计算也是如此:(DA)=0.10,(DB)=0.34。分支机构 B 的贡献度更大。49图图 5-1 数据贡献度实例,上中下分别代表合数据、分支机构数据贡献度实例,上中下分别代表合数据、分支机构 A 数据、分支机构数据、分支
156、机构 B 数据数据事实上,基于上述分析,在隐私计算过程中,尤其是联邦学习场景中,如果不需要精确计算(),则可以在协调方使用模型的中间结果做一些近似逼近,从而极大降低在整个流程中对价值估计的额外计算和信息传输开销以及流程设计。(二)特征贡献度度量方法特征贡献度的度量方法,则有两个源起:源于统计学习中的特征选择方法:如前文所述,这个时候有基于统计的假设检验方法和基于统计学习的特征重要性计算,此类方法实际是一种类型,和数据挖掘中的通常方法基本保持一致;源于博弈论和可解释机器学习的 SHAPLEY 方法:相较于第一种来源的方法,此方法具有更强的稳健性与可解释性,也正是由于来源于博弈论,其可以在分配方式
157、上做更多拓展。对于特征贡献度的方法,方法论上和数据贡献度(D)的计算几乎如出一辙:计算合数据的估计;假设去掉某参与方数据,得到新的估计,并做预测;使用新旧预测值的某种“差距”来评估特征贡献度。造成有基于统计的假设检验方法和基于统计学习的特征重要性计算两种方法的主要差别在于统计方法对模型有(隐藏的)分布假定(参数模型),而诸如50集成模型、可加模型等模型中的特征重要性,实际是将参数模型替换成经验分布(如 XGboost 中用到的直方图估计)或者就是使用 Bootstrap(神经网络中的 BN层)或者蒙特卡洛抽样方法(非参数 Bayes)的某种等价。即两者的本质都是相同的。表 5-5 给出了一些常
158、见的特征贡献度指标。表表 5-5 常见特征贡献度指标常见特征贡献度指标指标指标含义含义算法举例算法举例相 关 性 指标考察特征与相应变量(目标)的相关性:(?)(?)?2?2?需要联合统计的技术如 DP/OT 进行处理。贡献度判别标准:越靠近 1,指标正向(线性)相关性越强;越靠近 0,指标(线性)相关性越弱;越靠近 1,指标负向(线性)相关性越强。显 著 性 指标构造特征的统计量(如 t-统计量、对数似然检验统计量、秩统计量),对如下假设检验进行显著性和置信区间计算:0:=0其中表示待考察特征的效应(可以是多个参数同时检验),比如回归模型中的系数、中位数等。针对联邦学习中的统计推断问题需要联
159、合统计的技术如 DP/OT。如对数似然检验:2 0 无约束 2可以使用 OT/DP 技术计算合样本的 MLE来做检验。贡献度判别标准:p-value 越小越特征越显著。树 模 型 方法使用树模型,对特征进行选择和重要性量化。使用 CART/OCT/XGBoost 计算重要性,比如联邦学习中的 SecureBoost 算法等。贡献度判别标准:指标越大特征越重要。特 征 选 择方案使用特征选择和模型选择手段量化特征和模型贡献度。联合 AIC/BIC;隐私计算中加入 LASSO、Dantzig 等惩罚的有监督模型;隐私计算中加入约束的无监督模型。贡献度判别标准:指标越大特征越重要。5.3.2 SHA
160、PLEY 方法SHAPLEY 方法15(或叫 SHAP 方法:Shapley Addictive exPlanations)源起于博弈论,是一种在“可解释”领域被广泛采用的方法16。其处理的是多参与方情形下,对各参与方的份额的分配方法。SHAPLEY 主要思想是通过遍历所有参与方可能的边际贡献组合,通过求平均来估计参与方的剩余贡献。可以注意到这与之前基于决策论那种在原假设下(去掉数据或者特征)或对立假设(不去掉数据或者特征)下,求解损失的做法是不同的。具体而言,假设有 k 个参与方,每个参与者的数据集合定义为Dk,D=D1 Dk是合数据,或者称为所有参与者组成的“联盟”数据。假设对博弈的收益函
161、数为 V,其可以把数据集合映射成一个实数收益(空集的收益定为 0)。那么51在博弈(V,D)中第 i 1,k 参与方的贡献,也称为 SHAPLEY 值i(V)是:iV=1#D!Perm(D)V Si Di V Si?这里是D1,Dk的某种全排列,比如 k=3 时候,可以取 D1,D2,D3,D1,D3,D2,D2,D1,D3,D2,D3,D1,(D3,D1,D2),(D3,D2,D1)中的任意一个;Si是指序号小于 i 的集合。于是 SHAPLEY 值i(V)是一个所有可能的贡献的加权平均。由于此方法是一个可加模型,所以实际上,既可以对数据维度(如横向联邦学习)也可对特征维度(如纵向联邦)计算
162、 SHAP 贡献度指标。这种组合平均实际是一种置换检验(Permutation Test),由于遍历了所有组合,所以计算复杂度非常高。但也正因为此,我们可以衡量 SHAPLEY 度量的置信区间,也能进行快速逼近17-18。实际操作中,SHAPLEY 度量有使用的先决条件,概括起来需要满足如下条件:不考虑额参与方有“负的贡献”;若某参与方所有边际贡献为零,那么分配其收益为 0;联盟收益等于参与方收益的代数和;若参与方在联盟中地位相同(可置换而不影响结果),则分配到的收益相同;参与方收益可加,如果联盟中有两个博弈,参与者在两个博弈总分配的收益值的和等于在合成博弈中的收益。可以看出其有较多的改进空间
163、,比如在经济学视角中,我们罗列了多种对收益可能造成影响的直接、间接因素,其中即有和利润相关的客观指标,也有社会、产业、人为决策等无法直接和利润直接挂钩的因素;对“理性人”和参与方地位平等的假设,也在一定程度上与当前的数据要素市场供需关系不符。有相当的研究在处理此类问题,如使用加权、引入图计算等手段,不一而足。以下用一个例子来具象化 SHAPLEY 值的计算。假设有 A、B、C 三家公司,拥有三份数据集,当前需要输入到业务模型中衡量三者的贡献。首先要罗列的是,在不同组合下各公司的边际贡献表:表表 5-6 各公司的边际贡献表各公司的边际贡献表组合组合边际贡献边际贡献总和总和公司公司 A公司公司 B
164、公司公司 CA,B,C232438A,C,B434038B,A,C232438B,C,A0281038C,A,B23603852C,B,A0281038均值232438可以验证该贡献表符合 SHAPLEY 的使用准则,此时边际贡献可以这么看:比如 C 的边际贡献应该看(A,B,C)和(B,A,C)组合,其中(A,B)或者(B,A)的贡献的和为 34,那么 C 的边际贡献就是 4;同理 B 的边际贡献应该看(A,C,B)和(C,A,B)组合,其中(A,C)或者(C,A)的贡献的和为 38,那么 B 的边际贡献就是 0。而对于 SHAPLEY 贡献度,我们考虑的是所有可能组合的加权平均,也就是,最
165、后一行的均值,就是对应的 SHAPLEY 值,即 2,32 和 4。由此,可以由总和收益 38,和 A、B、C 公司分别的 SHAPLEY 贡献度 2,32,4 计算其赢得的收益或者对数据进行估值。53第 6 章 数据安全保障技术6.1 数据安全风险评估技术6.1.1 技术概述风险评估能够帮助组织发现自身数据安全问题和短板,明确数据安全保护需求,为建设数据安全管理和技术手段指明方向,给出解决方案。风险评估是数据安全风险管理的起点,基于风险控制的思想建立自我持续改进和发展的数据安全管理体系,用合理的成本投入,达到可接受的数据安全目标,对内保护数据资产,将安全事件的损失和影响降到可接受程度,对外使
166、各利益相关方对组织充满信心。6.1.2 数据安全风险评估技术路线数据安全风险评估的基本要素包括组织数据全生存周期的资产、威胁、脆弱性和安全措施,在开展数据安全风险评估时,基于以上基本要素通过现场访谈、文件调阅、技术检测等方式进行。在进行数据调研时,会确定数据资产清单,从国家安全与社会公共利益影响、企业利益影响、个人权益影响等维度分析进行赋值,在上述数据调研结果基础上,根据关键数据原则选择重要程度较高的数据资产作为评估的重点;在安全管理方面,将按照国家、行业及组织数据安全政策和标准规范要求,核查组织是否建立健全数据安全管理规章制度,是否全面落实数据安全职责和安全责任;在数据应用场景识别方面,包括
167、识别业务流程或使用流程、相关数据活动、参与主体,形成数据应用场景分析报告;在资产梳理方面,将从业务和系统入手,系统梳理数据资产和数据流转情况,调研数据全生存周期的安全防护现状,核查数据安全是否合规;风险识别主要以人、管理为基础,配合主机扫描、Web 应用扫描、安全基线核查和渗透测试等技术手段,从业务和系统方面进行资产识别、并对资产的 CIA进行等级赋值;基于资产识别及资产重要程度识别资产可能存在的威胁,威胁的来源、主体、种类、动机、时机和频率,基于威胁的行为能力和频率,结合威胁发生的时机,综合计算威胁的等级;脆弱性识别应以资产为核心,识别可能被威胁利用的脆弱性,从技术和管理方面对脆弱性的严重程
168、度进行评估,并分别对脆弱性被利用难易程度和影响程度赋值。在识别脆弱性的同时,确认已采取的安全措施是否真正地降低了系统的脆弱性,抵御了威胁。结合资产 CIA 的重要程度、威胁和脆弱性等级,对数据安全风险进行赋值,评估数据安全风险等级。在对系54统进行风险评价时,分别从系统资产和业务两方面进行风险评价。对于系统资产风险评价,可根据风险评价准则对系统资产风险计算结果进行等级处理。在进行业务风险评价时,可从社会影响和组织影响两个层面进行分析。社会影响涵盖国家安全,社会秩序,公共利益,公民、法人和其他组织的合法权益等方面;组织影响涵盖职能履行、业务开展、触犯国家法律法规、财产损失等方面。图图 6-1 数
169、据安全风险评估技术路线数据安全风险评估技术路线6.1.3 数据安全风险评估过程数据安全风险评估在原有信息安全风险评估理论基础上,更多关注于数据资产本身的安全性,呈现出围绕数据资产、强调数据应用场景的特点,数据资产所处环节相对复杂变化。根据数据安全风险评估结构,针对每一个数据安全风险,结合被影响的数据资产重要程度,选择恰当的数据安全控制措施,实现数据分级分类管理与保护。传统的信息安全风险评估主要是面向网络环节下的数据安全载体资产,基于某个标准作为基准来设置评估项,展开相对静态、固化的风险评估,无法顺应数据流动过程中不同缓解、不同目标下的安全评估要求。数据安全风险评估以信息安全风险评估的框架为基础
170、,面向数据本身及其数据处理活动,围绕资产的重要程度、面临的安全威胁、脆弱性及安全措施等评估维度,在数据资产识别、法律法规遵从、数据处理活动、数据跨境流动、数据支撑环节等方面建设针对特定数据应用场景的安全风险评估机制,数据资产所处环节相对复杂变化。55图图 6-2 数据安全风险评估流程图数据安全风险评估流程图(一)评估准备在启动准备阶段,对于数据安全风险评估的准备和项目需求沟通,是实施风险评估的前提。为了保证评估过程的可控性以及评估结果的客观性,在数据安全风险评估实施前应进行充分的准备和计划,数据安全风险评估的启动准备阶段包括:确定数据安全风险评估对象;确定数据安全风险评估范围;组件适当的评估管
171、理与实施团队;编制项目实施方案;召开项目启动会。(二)数据资产识别数据安全风险评估在原有信息安全风险评估理论基础上,更多关注于数据资产本身的安全性,数据资产清单主要包括数据类型、数据级别、数据量和数据所在位置、数据载体、数据责任与部门人。数据资产识别是一个“摸清家底”的过程,建立数据资产清单,掌握数据重要程度,是风险评估的基础,也是数据分级分类管理的基础。结合GB/T20984-2022 信息安全风险评估方法中,数据资产按照层次可划分为业务资产、系统资产、系统组件和单元资产。数据资产识别主要从三个层次进行识别。业务识别可通过访谈、文档查阅、资料查阅等方式对业务的属性、定位、完56整性和关联性进
172、行识别,主要识别业务的功能、对象、流程和范围等。业务的定位主要识别业务在发展规划中的地位;业务的完整性主要识别其为独立业务或非独立业务;业务的关联性识别主要识别与其他业务之间的关系。在业务识别阶段还应根据业务的重要程度进行等级划分并进行赋值。系统资产识别包括资产分裂和业务承载性识别两个方面。系统资产分类包括信息系统、数据资源和通信网络,业务承载性包括承载类别和关联程度。系统资产价值赋值主要依据资产的保密性、完整性和可用性,结合业务承载性、业务重要性进行综合计算,设定响应的评级方法进行价值等级划分。系统组件和单元资产应进行分类识别,包括系统组件、系统单元、人力资源和其他资产。在赋值过程中应依据其
173、保密性、完整性、可用性赋值进行综合计算,设定相应的评级方法进行价值等级划分。数据的重要程度主要取决于数据对企业利益层面影响、对国家安全公共利益层面影响和对用户个人权益层面影响。通过分析为数据的重要程度进行赋值,在上述数据调研结果基础上,根据关键数据原则选择重要程度较高的数据资产作为评估的重点。(三)数据应用场景识别数据应用场景识别包括识别业务流程或使用流程、相关数据活动、参与主体。数据应用场景包括主业务调用数据的场景、数据被其他业务系统调取的场景、对组织外部提供数据的场景(合作业务)、员工访问数据的场景、第三方服务人员访问数据的场景等。数据活动包括但不限于数据提取、数据获取、数据整合、数据分析
174、、结果存储、数据下载、数据外发、结果展示等;数据使用流程各环节参与主体包括人员、内外部系统、内外部接口等。综合以上各因素对数据应用场景进行识别,输出数据应用场景分析报告。(四)数据威胁识别威胁识别的内容包括威胁的来源、主体、种类、动机、时机和频率。数据威胁识别主要分析数据在应用场景流转过程可能影响数据机密性、完整性、可用性及可控性的威胁类型,并进一步分析其属性,包括攻击动机、攻击能力、威胁发生频率,并对其属性进行赋值,等级越高表示威胁利用脆弱性的可能性越大。数据威胁主要围绕数据生存周期中数据采集、传输、存储等阶段进行数据威胁分类。数据采集阶段威胁包括:恶意代码注入、数据无效写入、数据污染和数据
175、分类分级或标记错误;数据传输阶段威胁包括:数据窃取、网络监听和数据篡改;57数据存储阶段威胁包括数据破坏、数据篡改、数据分类或标记错误、数据窃取、恶意代码执行和数据不可控。威胁出现的频率应进行等级化处理,不同等级分别代表威胁出现频率的高低。等级数值越大,威胁出现的频率越高。威胁的频率应参考组织、行业和区域有关的统计数据进行判断。(五)脆弱性识别脆弱性包括技术脆弱性和管理脆弱性。其中,技术脆弱性包括物理环境、网络结构、系统软件、应用中间件和应用系统。管理脆弱性包括技术管理和组织管理。通过分析脆弱性对数据机密性、完整性、可用性、可控性影响,判断对数据影响的严重程度。脆弱性识别所采用的方法主要为问卷
176、调查、工具监测、人工核查、文档查阅、渗透性测试等。如果脆弱性没有对应的威胁,则无需实施控制措施,但应注意并监视他们是否发生变化。相反,如果威胁没有对应的脆弱性,也不会导致风险。应注意,控制措施的不合理实施、控制措施故障或控制措施的误用本身也是脆弱性。控制措施因其运行的环节,可能有效或无效。(六)已有安全措施识别预防性安全措施可以降低数据威胁利用脆弱性导致安全事件发生的可能性,如威胁情报系统、入侵检测系统;保护性安全措施可以减少因安全事件发生后对数据、业务或组织造成的影响。在识别脆弱性的同时,评估人员应对已采取的安全措施的有效性进行确认。安全措施确认应评估其有效性,即是否真正地降低了系统的脆弱性
177、,抵御了威胁。(七)风险分析风险分析的各项活动在识别出的具体数据应用场景中展开,需从评估后果、评估事件可能性和估算风险级别三个方面进行评估。1、评估后果输入:应用场景内已识别的相关事件情景,包括威胁、脆弱点、数据资产、已有和计划的控制措施;活动:应用场景中脆弱性与具体安全措施关联分析后,判断脆弱性可利用程度和脆弱性对数据资产影响的严重程度;根据脆弱性对数据影响严重程度及数据重要程度计算安全事件后果。2、评估事件可能性:输入:应用场景内已识别的相关情景,包括威胁、暴露的脆弱点、现有和计划的控制措施数据;58活动:根据应用场景中数据威胁与脆弱性利用关系,结合数据威胁发生可能性与脆弱性可利用性判断安
178、全事件发生的可能性。3、估算风险等级活动:根据应用场景中安全事件发生的可能性以及安全事件的后果,判断风险值。(八)风险处置风险处置包括风险处置措施和风险处置方式两个方面。1、风险处置措施根据风险分析结果,数据安全风险评估项目组经过讨论研究,综合风险级别、风险描述、风险值、风险处置措施、风险处置步骤、相关责任人和预计时间等多种因素的考虑,从技术手段和管理手段双管齐下的方式提出风险处置建议,该处置建议必须符合当前的网络现状以及业务流程要求,并且通过技术整改和管理制度整改,能够初步建立起针对该系统的数据安全防护体系;2、风险处置方式针对不同类型的安全风险可以采取差异化的风险缓解方式,一般可以分为控制
179、风险、转嫁风险、避免风险和接受风险四种方式。最终输出风险评估报告,对风险评估过程和结果进行总结,详细说明评估对象、风险评估方法、资产、威胁、脆弱性和已有安全措施的识别结果、风险分析、风险统计和结论等内容。(九)残余风险评估残余风险评估指被评估组织按照风险安全整改建议全部或部分实施整改工作后,对仍然存在的安全风险进行识别、控制和管理的活动。依据组织的风险评估准则进行残余风险评估,判断是否已经降至可接受水平,为风险管理提供输入;残余风险仍处于不可接受的风险范围内,则应由管理层依据风险接受原则考虑是否接受此类风险或增加更多的风险控制措施;应定期开展残余风险评估,评估结果应作为风险管理重要输入。6.2
180、 数据治理技术6.2.1 技术概述数据治理的目标是通过有效的数据资源控制手段,进行数据的控制,以提高数据质量,在降低企业风险的同时,实现数据资产价值的最大化。数据治理可以解决数据质量参差不齐、保护数据安全、数据交换和共享困难等现实问题。数据59治理(Data Governance)定义为“在组织范围内,对流程、政策、标准、技术和人员进行职能协调和定义来将数据作为公司资产管理,从而实现对准确、一致、安全且及时的数据的可用性管理和可控增长,以此制定更好的业务决策,降低风险并改善业务流程”。工欲善其事,必先利其器。一套好的数据治理系统,能让机构的数据治理工作事半功倍。一般来说,数据治理系统包括以下职
181、能:数据模型管理、元数据管理、数据质量管理、数据标准管理、主数据管理、数据安全管理、数据服务管理。在数据标准管理职能中,很重要的一个内容是进行数据的分类分级。需根据国家法律法规、行业主管部门规定以及业务需求等对数据进行分类,再结合自身的实际情况对数据风险进行分级。根据数据的类别和级别制定配套的安全保护措施,保障数据全生命周期的安全合规;还可以充分发现、识别 IT 系统中数据资源的类型、分布,支持多种数据源,盘点数据资产,打破数据孤岛,对数据进行统一分析和管控,构建数据资产目录,加强数据资产化能力。在数据安全管理职能中,目的是确保数据的隐私、保密性和适当的访问权限。身份认证与访问控制、数据脱敏、
182、数据加密等技术常用于直接或间接地保护隐私信息不被泄漏,特别是数据脱敏通常用于公共数据开放等数据流通环节。数据脱敏技术可以以直接的方式隐去敏感信息,虽然可能对数据质量有些影响,但具有效率高、计算成本低的优势。在数据安全管理职能中,数据的安全审计是保障数据安全的最后一道防护墙。数据安全审计通过记录用户对数据的所有访问和操作记录日志,并通过日志的分类统计和分析,提供数据访问报表,支持对数据的检索和分析,支持对用户的违规访问和危险操作进行告警。6.2.2 数据分类分级(一)概述在围绕数据资产的全生命周期安全防护中,数据分类分级是前置基础工作。数据分类强调的是根据数据种类的不同,按照属性、特征而进行的安
183、全类别划分,而分级是按照划定的某种标准,对同一类别数据进行高低等级的安全级别划分。数据安全防护主要关注的是数据分级后的安全防护要求。以金融数据安全数据安全分级指南为例,根据影响对象和影响程度,数据资产的安全等级可被划分为 5 级,如表 6-1 所示。而数据资产在完成分类分级后,将在其生命周期的收集、存储、使用、传输、提供和公开等各阶段实施必要的和符合安全法规和规范要求的安全防护。60表表 6-1 金融行业数据资产的安全分级金融行业数据资产的安全分级最 低 安最 低 安全 级 别全 级 别参考参考数据定级要素数据定级要素数据一般特征数据一般特征影响对象影响对象影响程度影响程度5国家安全严重损害/
184、一般损害/轻微损害重要数据,通常主要用于金融业大型或特大型机构、金融交易过程中重要核心节点类机构的关键业务使用,一般针对特定人员公开,且仅为必须知悉的对象访问或使用。数据安全性遭到破坏后,对国家安全造成影响,或对公众权益造成严重影响。5公众权益严重损害4公众权益一般损害数据通常主要用于金融业大型或特大型机构、金融交易过程中重要核心节点类机构的重要业务使用,一般针对特定人员公开,且仅为必须知悉的对象访问或使用。个人金融信息中的 C3 类信息。数据安全性遭到破坏后,对公众权益造成一般影响,或对个人隐私或企业合法权益造成严重影响,但不影响国家安全。4个人隐私严重损害4企业合法权益严重损害3公众权益轻
185、微损害数据用于金融业机构关键或重要业务使用,一般针对特定人员公开,且仅为必须知悉的对象访问或使用。个人金融信息中的 C2 类信息。数据的安全性遭到破坏后,对公众权益造成轻微影响,或对个人隐私或企业合法权益造成一般影响,但不影响国家安全。3个人隐私一般损害3企业合法权益一般损害2个人隐私轻微损害数据用于金融业机构一般业务使用,一般针对受限对象公开,通常为内部管理且不宜广泛公开的数据。个人金融信息中的 C1 类信息。数据的安全性遭到破坏后,对个人隐私或企业合法权益造成轻 微影响,但不影响国家安全、公众权益。2企业合法权益轻微损害1国家安全无损害数据一般可被公开或可被公众获知、使用。个人金融信息主体
186、主动公开的信息。数据的安全性遭到破坏后,可能对个人隐私或企业合法权益不造成影响,或仅造成微弱影响但不影响国家安全、公众权益。1公众权益无损害1个人隐私无损害1企业合法权益无损害(二)组织方式数据分类分级工作流程根据企业组织方式,可以大致分为分类分级准备、分类分级判定、分类分级人工复核以及分类分级批准 4 个步骤。数据分类分级准备:对数据进行盘点、梳理与分类,形成统一的数据资产清单;确定企业采用的分类分级标准,参照国家法律法规、地方和行业的标准规范,61以及企业内部的管理要求;数据分类分级初步判定:按照分类分级标准,对数据资产清单中的库、表和字段,进行人工或工具化的识别,完成对数据资产的初步分类
187、分级;数据分类分级人工复核:综合考虑数据规模、数据时效性、数据形态(如是否经汇总、加工、统计、脱敏或匿名化处理等)等因素,对数据分类分级进行人工复核,调整数据资产的分类分级;数据分类分级批准:最终由数据安全管理最高决策组织对数据安全分级结果进行审议批准。在企业的分类分级管理工作的实践中,人工的分类分级难以支撑分类分级基础业务的开展。首先,人工分类分级的工作效率无法匹配企业海量数据资产的产生、加工与流转过程,且容易发生人工错误;其次,在数据产品进入流通市场前,低效率的人工的数据合规检查,无法实现数据产品安全高效地进入交易市场,也无法在安全合规业务中快速完成对敏感资产的识别。因此,企业需要通过分类
188、分级技术工具实现程序化的准确高效识别,并与人工审核相结合,以实现分类分级业务的可管理性。(三)能力要求一般来说,分类分级技术工具需具备如图 6-3 所示能力,以帮助企业实现完整可靠的分类分级基础管理。图图 6-3 数据分类分级工具的参考架构数据分类分级工具的参考架构提供基于识别规则管理的分类分级数据识别能力。一般来说,分类分级工具将依据各个行业的分类分级规范,如金融行业的分类分级指南,根据各个数据分类的数据特征创建程序化的识别规则,从而实现数据分类的自动化识别;提供并发扫描任务的运行管理能力。在海量数据时,可以按需按时进行快速地识别扫描,从而满足分类分级的时效和性能要求;通过数据血缘抓取能力的
189、支撑,实现对分类分级数据的衍生管理。在大数据场景中,分类分级原始数据在加工、使用的过程中会持续产生衍生数据,通过对衍生数据的追踪,可有效提升分类分级结果数据的完整性,防止因数据衍生而发62生安全逃逸;提供分类分级结果的相关管理,包括人工复核功能、人工标识标识功能,以及分类分级结果数据的整体可视化能力。数据分类分级是数据安全治理的前置和基础工作,借助于技术工具的支撑,可以有效保障数据分类分级管理的开展,并进一步帮助企业实施全生命周期的数据安全策略管理。6.2.3 数据脱敏技术(一)概述数据脱敏(去隐私化)技术是对数据处理的技术,通过技术手段对数据进行仿真、随机、乱序、遮蔽的方式处理,避免敏感、重
190、要的数据流出造成数据泄露风险。数据脱敏从使用场景上分为数据静态脱敏和数据动脱脱敏两种。数据静态脱敏是数据异步延迟的一种脱敏方式,通过技术手段对生产中的数据进行脱敏处理后放置测试中对外开放使用,常见使用场景为开发测试、三方测试、数据分析等场景。数据动态脱敏是数据在使用过程中实时脱敏的处理方式,通过技术手段在数据被实时访问的过程中将需要脱敏的数据进行处理,处理后的结果返回前端进行展示,场景为生产数据实时访问过程中按照不同用户、角色权限设置相关脱敏策略。(二)技术分析数据脱敏技术中关于静态脱敏的资产类型兼容、资产内对象支持范围、规则算法的丰富度等,动态脱敏的协议解析技术、SQL(Structured
191、 Query Language)改写的全兼容、结果集脱敏的特征覆盖范围等都是数据脱敏关键核心所在,直接反映数据脱敏在不同场景下否可用。在数据静态脱敏场景中,不同行业内容的数据特征存在很大差异,如何能够兼容各行业的数据特征,即要实现基于数据特征的自动识别,又要针对相关特征数据进行脱敏处理保证数据的关联性、完整性、真实性是数据静态脱敏技术需要解决和面临的问题。基于行业内特有特征数据的发现传统的基于正则的方式已经无法满足发现的需求,基于正则基础上的逻辑判断、函数、机器学习等方式的发现需要结合人工智能的技术,此外对于特征数据的脱敏是对脱敏技术中内置字典的丰富性和高度的可扩展性考验。串联或逻辑串联是动态
192、脱敏技术的部署应用场景,目的在于防止对于生产数据的随意查看,避免数据泄露事件发生。建立完善的分权体系、良好的兼容性、稳定性、高扩展性等是动脱脱敏技术必须要解决的问题。完善的分权体系要求动63态脱敏技术在发展中不仅仅准确解析来自传统运维方式中的来源信息并能实现分权脱敏,还需要考虑与应用账户、堡垒机及其他方式下数据交互场景下关联用户、角色技术;SQL 改写中协议解析、语义语法、复杂 SQL 的覆盖等,结果集改写中的基于返回结果特征的支持范围等都是需要解决的产品兼容性问题;作为串联或逻辑串联的动态脱敏技术需要充分考虑单点故障、高压下的横向扩展等高端能力的支持。表表 6-2 对比对比分析分析序号序号脱
193、敏技术脱敏技术性能问题性能问题安全性安全性经济成本经济成本其他问题其他问题1应用改造性能影响较小应用本身安全问题较高应用接口统一无法做到分权脱敏2数据动态脱敏-SQL性能影响较小脱敏技术、所在环境安全问题适中应用关联兼容、协议解析准确度、SQL 改写全面度等问题3数据动态脱敏-结果集性能影响较大脱敏技术、所在环境安全问题适中基于特征的全面支持问题4数据静态脱敏不涉及(数据处理)脱敏技术、所在环境再去问题;生产环境与测试环境的网络连通安全问题较小使用场景固定,资产连接兼容、数据识别技术、数据脱敏技术、数据关联等问题数据脱敏技术产品形态为一体机、软件部署、虚拟化部署等方式均可以实现。数据静态脱敏属
194、于旁路工具类产品,工作过程中保证网络可达即可,数据静脱脱敏技术目前被广泛应用于数据处理场景,完成满足数据库迁移和数据脱敏的需求;数据动态脱敏技术无论是应用实现、SQL 改写、或结果集改写都属于串联类的方式,需要保证请求及结果流量经过脱敏所在环境进行处理。应用层实现主要为新应用开发提供相关功能需求或应用的二开功能需求;SQL 改写技术主要应用于关系型数据库,前端与数据库间的交互方式为 SQL 语言的场景,应用于运维场景、SQL 交互应用等场景;结果集改写技术主要应用于 nosql 场景的交互,如大数据交互、数据库预置模块调用、API 方式等数据的交互场景下的基于数据特征的动态脱敏。646.3 数
195、据安全防护技术6.3.1 数据采集安全(一)概述数据采集(Data acquisition),又称数据获取,是利用一种程序或装置从系统外部采集数据,经过数据清洗,最终输入到存储系统中。早期的数据采集指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。而随着大数据的发展,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一。大数据背景下,数据采集则是通过网络、日志以及其它数据采集的方式,来达到获取数据的目的。从来源来看,采集的数据主要来源包含企业、机关内部的信息系统,互联网中的各种 web 信息系统,物理对象和物理过程的信息系统以及用于学术研究的科学实验系统。数据采集时数据
196、类型的不同决定了数据采集的方式,数据采集中获取的数据类型可分为结构化数据、半结构化数据、非结构化数据。作为大数据产业的基石,数据采集的重点不在于数据本身,而在于如何能解决数据运营中的实际商业问题。通过对数据采集技术获取的高质量数据的分析和挖掘,得到的结果对决策行为具有较高的指导性作用。(二)技术分析根据面向场景,数据采集可分为“硬感知”和“软感知”。“硬感知”主要利用设备或装置进行数据的收集,收集对象为物理世界中的物理实体,或者是以物理实体为载体的信息、事件、流程等。而“软感知”使用软件或者各种技术进行数据收集,收集的对象存在于数字世界,通常不依赖物理设备进行收集。1、硬感知采集技术基于物理世
197、界的“硬感知”依靠的就是数据采集,是将物理对象镜像到数字世界中的主要通道,是构建数据感知的关键,是实现人工智能的基础,采集技术包含:条形码,按照一定的编码规则,对字母、数字及其它 ASCII 字符进行整合,常用来标识一个货品的唯一性;二维码,拥有庞大的信息携带量,能够把使用一维条码时存储于后台数据库中的信息包含在条码中,可以直接阅读条码得到相应的信息,并且二维码还有错误修正及防伪功能,增加了数据的安全性;图像数据采集指利用计算机对图像进行采集、处理、分析和理解,以识别不同模式的目标和对象的技术,是深度学习算法的一种实践应用;65音频数据采集也被称为自动语音识别(Automatic Speech
198、 Recognition,ASR),可将人类的语音中的词汇内容转换为计算机可读的输入,例如二进制编码、字符序列或者文本文件;传感器数据采集,传感器是一种检测装置,能感受到被检测的信息,并能将检测到的信息按一定规律变换成信号或其他所需形式的信息输出,以满足信息的采集、传输、处理、存储、显示、记录等要求。信号类型包括 IEPE 信号、电流信号、电压信号、脉冲信号、I/O 信号、电阻变化信号等;工业设备数据采集,工业设备数据是对工业机器设备产生数据的统称。在机器中有很多特定功能的元器件(阀门、开关、压力计、摄像头等),这些元器件接受工业设备和系统的命令开、关或上报数据。工业设备和系统能够采集、存储、
199、加工、传输数据。工业设备目前应用在很多行业,有联网设备,也有未联网设备。2、软感知采集技术基于数字世界的“软感知”能力比较成熟,并随着数字原生企业的崛起而得到了广泛的应用,采集技术包含数据库采集和日志数据采集。数据库采集,通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡和分片,来完成大数据采集工作。目前绝大部分业务相关的数据都采用这种结构化的方式保存在后端的数据库系统中,主要有直接数据源同步、生成数据文件同步和数据库日志同步三种实现数据采集的方式;日志数据采集,日志数据收集是实时收集服务器、应用程序、网络设备等生成的日志记录,此过程的目的是识别运行错误、配置错误、入侵尝试、策略违反或
200、安全问题。在企业业务管理中,基于 IT 系统建设和运作产生的日志内容,可以将日志分为操作日志、运行日志和安全日志三类;网络数据采集,以网络爬虫或网站公开 API 等方式从网站上获取数据信息。(三)产品形态及应用现状分析随着数据采集的逐渐兴起,对于数据采集的应用范围也在逐渐增加,常见的应用包括可视化分析、数据挖掘、预测性分析、语义引擎和数据质量管理。1、可视化分析大数据快速发展的今天,庞大的数据量使不少人都在寻求可用、高效、简洁大方的分析工具,数据的分析结果如果仍然是文字,那将不利于用户进行观看、阅读、分析,而通过图表将数据可视化,这就是所谓的有图有真相,用动态的图表就可以有效地将数据所隐藏的信
201、息更加直观地呈现给客户,从而极大地方便用户进行观看与分析,并且根据结果能够迅速做出分析和带来直观上的感受。2、数据挖掘通过创建数据挖掘模型,而对数据进行试探和计算的数据分析手段。数据挖66掘是大数据分析的理论核心。数据挖掘算法多种多样,且不同算法因基于不同的数据类型和格式,会呈现出不同的数据特点。但一般来讲,创建模型的过程却是相似的,即首先分析用户提供的数据,然后针对特定类型的模式和趋势进行查找,并用分析结果定义创建挖掘模型的最佳参数,并将这些参数应用于整个数据集,以提取可行模式和详细统计信息。3、预测性分析大数据分析最重要的应用领域之一,通过结合多种高级分析功能达到预测不确定事件的目的。帮助
202、分用户析结构化和非结构化数据中的趋势、模式和关系,并运用这些指标来预测将来事件,为采取措施提供依据。4、语义引擎通过对网络中的资源对象进行语义上的标注,以及对用户的查询表达进行语义处理,使得自然语言具备语义上的逻辑关系,能够在网络环境下进行广泛有效的语义推理,从而更加准确、全面的实现用户的检索。5、数据质量管理指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。6.3.2 数据传输安全(一)概述DAMM 中将数据传输安全描述为根据组织机构内部和外部
203、的数据传输要求,采用适当的加密保护措施,保证传输通道、传输节点和传输数据的安全,防止传输过程中数据被截取所引发的数据泄漏,适用于不同应用系统、服务器、终端之间的数据传输,以及面向外部网络的传输。本白皮书将数据传输安全界定为对数据在网络传输的安全,重点解决传输中的数据被泄露、非授权用户窃取、数据被篡改等问题,保证数据的保密性、完整性、可用性。67图图 6-4 数据传输安全框架数据传输安全框架(二)技术分析典型的数据传输安全技术有:数据加密、数字签名、数字证书、网络可用性、数据访问控制等。1、数据加密数据加密是对数据的机密性与完整性的保护,应使用可靠的密码基础设施对密钥进行安全托管,保证密钥安全。
204、加密是保证数据安全的常用手段,基于成熟的加密算法为数据加上一层保护罩衣,即使被截获,亦很难破解其加密算法,获得原始数据。常用加密的算法有对称加密和非对称加密。2、数字签名数字签名算法首先为要签名的数据生成一个 Hash 字串 hash1,然后用所有者私钥加密得到 encrypted(hash1),这就是数据的数字签名。当别人需要验证数据完整性时,用所有者的公钥解密后的 Hash 值与数据的哈希值对比,若一致即为正确。数字签名主要是保证数据来源的完整性和不可伪造性,所用的技术是散列函数和非对称加密。与数据加密相比,加密通信是用公钥进行加密,而用私钥进行解密,而数字签名刚好相反,是采用私钥加密签名
205、,公钥认证。数字签名的私钥签名过程是通过签名算法来生成数字签名的过程。3、数字证书为了方便传递公钥密钥,一般把它存储在数字证书中,为了保证证书的可信性,一般由专业证书机构颁发。CA 就是证书的签发机构,负责签发证书、认证证书、管理已颁发证书,制定具体步骤来验证、识别用户身份,并对用户证书进行签名,以确保证书持有者的身份和公钥的拥有权。要申请证书,应先向 CA 提68出申请,在 CA 确认申请者的身份后,会分配一个公钥,然后将该公钥与申请者的身份信息绑在一起,使用 CA 的私钥进行签名,便形成证书发给申请者。4、网络可用性通过网络基础链路、关键网络设备的备份、冗余、弹性扩容能力的建设,实现网络的
206、高可用性,从而保证数据传输过程的稳定性。数据在网络传输过程中依赖网络的可用性,一旦发生网络故障或者瘫痪,数据传输也会受到影响甚至中断。DSMM 标准在充分定义级要求:在关键的业务网络架构应考虑网络的可用性建设需求,对关键的网络传输链路、网络设备节点实行冗余建设。常用技术手段有部署负载均衡、防入侵攻击等设备进一步强化对网络可用性风险的防范。6.3.3 数据存储安全(一)概述数据存储安全是通过应用物理、技术和管理控制来保护存储系统和基础设施以及存储在其中的数据。存储安全专注于保护数据及其存储基础设施,防止未经授权的泄露、修改或破坏,同时确保授权用户的可用性。确保数据存储安全性主要涵盖机密性(con
207、fidentiality)、完整性(integrity)和可用性(availability)。数据管理人员必须使敏感数据不受未授权用户的影响,必须确保系统中的数据是可靠的,同时还要确保组织中需要访问数据的每个人都可以使用这些数据。威胁数据存储安全的因素有很多,如硬件设施损坏、人为错误、黑客攻击、病毒、信息窃取和磁干扰等。为了确保数据存储安全,避免数据泄露、损失造成的经济损失和其他后果,需要制定灵活而有效的数据存储安全策略。数据存储安全应考虑数据分级分类、数据加密、数据访问控制和安全审计、备份和恢复四个方面,如图 6-5 所示。图图 6-5 数据存储安全架构图数据存储安全架构图69(二)技术分析
208、从数据分级分类、数据加密、数据访问控制和安全审计、备份和恢复四个方面来分析数据存储安全。1、数据分类分级实施数据存储安全策略的第一步是了解数据存储安全的法律法规,数据安全法第二十一条规定,“国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护”。按照敏感程度划分,数据应分为公开数据、内部数据、秘密数据、机密数据(绝密数据)。表表 6-3 数据敏感程度划分数据敏感程度划分级别级别敏感程度敏感程度判断标准判断标准1 级公开数据可以免费获得和访问的信息,没
209、有任何限制或不利后果,例如上市公司财报数据等。2 级内部数据安全要求较低但不打算公开的数据,例如系统使用手册和组织结构图等。3 级秘密数据敏感数据,如果泄露可能会对运营产生负面影响,包括损害公司、客户、合作伙伴或员工。例如包括供应商信息、客户信息、合同信息和薪水信息等。4 级机密数据高度敏感的公司数据,如果泄露可能会使组织面临财务、法律、监管和声誉风险。例如包括客户身份信息、个人身份和信用卡信息。对于组织、企业而言,需要确定所拥有的数据哪些是公开级别、内部级别、秘密级别和机密级别,确定不同级别的数据遭到篡改、破坏、泄露或非法利用后造成的的风险,根据不通级别的数据制定相对应的策略和安全措施。数据
210、存储安全策略可帮助管理人员识别敏感数据、监视和保护每个级别的数据分类,从而在最大程度上提高数据安全性。2、数据加密数据防护是否能够成功实施,企业需要在关键数据的安全性、保持应用系统的功能可用性和系统可维护性方面综合考虑,来确定适合企业需要的加密保护的技术方案,企业常用加密技术如磁盘加密、文件加密、数据库加密和应用层加密。磁盘加密:磁盘采用的块级别加密技术,这种加密最大的好处在于,它对操作系统是透明的。AWS 的 EBS、阿里云的 ECS 等都支持磁盘加密。文件加密:通过堆叠在其它文件系统之上,为应用程序提供透明、动态、高效和安全的加密功能。典型的是用于加密指定的目录。需要关注的是这种加密方式可
211、能会产生较大的性能损失。数据库加密:TDE 和三方加固是数据库提供的加密技术,TDE 即对数据文70件执行实时 I/O 加密和解密。数据在写入磁盘之前进行加密,从磁盘读入内存时进行解密,对应密钥管理也是由数据库提供的 API 或组件实现,应用透明。三方加固是将第三方专业数据库加密厂商的产品内置在数据库之中,提供透明数据加密能力。应用层加密:在数据到达数据库之前做数据加密,可实时保护用户敏感数据。这里关键需要提供应用透明性、保证应用无需改造或仅需少量改造。这种方式完全由用户自己控制,无需信任任何三方厂商提供的数据安全保障,得到充分的自由度和灵活性。3、数据访问控制和安全审计基于角色的访问控制是安
212、全数据存储系统的必备条件。在某些情况下,多因素认证可能是合适的,并且需要强制用户使用强密码,同时系统要做好 DDos 防护、WAF 防护等。监视数据访问控制是通过提供对授权用户的安全访问,维护用户特权,以确保用户仅访问他们需要完成其工作的数据。同时建立定义特权用户合法行为的策略,并实时验证用户操作以确保它们符合策略,验证他们是否被授权,并在发生可疑活动的情况下,发送警报或阻止帐户,直到提供进一步的身份验证为止。审计数据访问行为也是增强数据安全性的一种方法。对重要数据的访问行为采取持续、及时地监控和审计,形成有效的风险报告,新的风险及时报告给管理人员,帮助管理人员更好地进行数据保护。同时还要做到
213、用户访问数据后生成访问日志,并无法对其进行修改,在一定时间周期内(例如一年)不能删除访问日志。4、数据备份和恢复数据备份和恢复是保证数据存储安全的最后一道屏障。一些恶意软件、勒索软件攻击破坏企业网络、系统,唯一的恢复方法是从备份恢复。数据备份应遵循3-2-1 原则,即应在两个不同的存储介质上至少存储三个数据副本,其中一份在异地设施中存储。存储管理人员需要确保他们的备份数据在系统故障后迅速恢复,另外,管理人员需要确保备份数据与主数据具有相同的数据安全级别。6.3.4 数据处理安全(一)概述数据处理系统安全(data processing system security)是建立技术性的和管理性的防
214、护设施,用于数据处理系统中数据免于偶然的或恶性的修改、破坏或泄露。(二)技术分析在数据处理系统或平台主要有如图6-6所示的环节和场景涉及数据安全性问题。71图图 6-6 数据处理主要环节数据处理主要环节如图 6-7 所示,技术实施数据处理基于公共数据平台为底座,上层由多个不同技术团队或人员需要对数据处理或使用。图图 6-7 技术实施技术实施数据处理数据处理如图 6-8 所示,业务合作数据处理基于业务合作为基础,需要将多方、多个平台的数据按共同约定的方式对数据处理或使用。图图 6-8 业务合作业务合作数据处理数据处理如图 6-9 所示,在数据脱敏处理过程中,前期须将敏感数据进行替换或防伪处理。7
215、2图图 6-9 数据脱敏处理数据脱敏处理如图 6-10 所示,数据稽核处理过程中可能会穿插多个同步或异步环节,在此过程中无法避免异常情况。稽核原始数据的目的主要通过最终计算结果逆向核查数据精确性的安全问题。图图 6-10 数据稽核处理数据稽核处理数据审计处理过程中允许接受第三方审查,是有效避免数据非法流失的安全手段之一。6.3.5 数据共享安全(一)概述数据共享流通可以分为数据不出域、出域两类场景。数据共享安全需要以数据传输安全为基础,通过数据传输安全技术,如校验技术或密码技术来确保数据的完整性、机密性,防止数据被篡改、窃取。而数据共享安全技术重点关注传输层之上,数据在不同数据提供方、使用方之
216、间共享流通及使用活动中的安全及控制。主要关注点包括接口安全、访问控制(如身份认证及授权)、使用控制、行为审计、事件溯源等。(二)技术分析数据共享安全关键核心技术包括 API 技术、隐私计算技术、可信数据空间技术。API 技术为当前国内主流技术,隐私计算、可信数据空间属于新兴技术,其中可信数据空间技术主要对 API 技术、隐私计算提供有益补充。1、隐私计算技术主要用于解决数据不出域下实现数据价值共享流通的场景需求,常用技术包括联邦学习、多方安全计算、可信执行环境、同态加密等。732、API 技术API 技术已被大量应用于各种复杂环境,为企业带来了商机与便利,但仍然在对包含敏感信息、重要数据在内的
217、数据共享流通中面临难题,如易遭受各类网络攻击、合作第三方有意非法留存接口数据,导致用户信息泄露以及 API 请求参数易被非法篡改,从而导致数据被窃取等。其次,从 API 安全技术本身来看,也存在一些瓶颈,主要包括:身份认证机制,单因素认证、无口令强度要求、密码明文传输等;访问授权机制,授权策略选择不恰当、授权有效期过长、未及时收回权限等;数据脱敏策略,脱敏策略不统一导致可通过拼接方式获取原始数据;异常行为检测,非工作时间访问、访问频次超出需要、大量敏感信息数据下载等非正常访问行为;第三方管理,第三方违规将数据篡改、泄露,甚至非法售卖。国内外近年发生多起由于 API 漏洞被恶意攻击或安全管理疏漏
218、导致的数据安全事件,对相关企业和用户权益造成严重损害。API 接口技术目前已经在多个方面进行安全优化,具体包括:完善 API 身份认证和授权管理机制,强化接口接入安全审核,建立健全访问授权机制,严格遵循最小必要权限原则;部署 API 网关统一接口管理,利用 VPN 等加密通道传输数据,部署应用防护系统保护 Web 应用,建立 API 访问白名单机制,部署抗 DDoS 工具等技术优化 API 安全防护体系,提升抵御外部威胁能力;针对短时间内大量获取敏感数据、访问频次异常、非工作时间获取敏感数据、敏感数据外发等异常调用、异常访问行为进行实时监测分析,建立正常行为基线,防范内部违规获取数据、外部攻击
219、或网络爬虫等数据安全风险;结合数据分类分级管控措施,针对 API 涉及的敏感数据按照统一策略进行后端脱敏处理,并结合数据加密、传输通道加密等方式保护 API 数据传输安全;对接口访问、数据调用等操作进行完整日志记录,并定期开展安全审计,对API 安全进行回顾,结合旁路 API 流量捕获等技术手段,对传输协议等安全要点进行分析还原,识别 API 漏洞、异常调用、外部攻击等安全风险。妥善保存日志信息等,为安全事件追溯提供依据。总体而言,既有部分企业在积极采取措施,改进 API 安全技术,也开始有部分企业开始考虑其它替代方案技术。如隐私计算、可信数据空间等。3、可信数据空间技术可信数据空间技术源于欧
220、洲国际数据空间(International Data Space,简称IDS),IDS 定位于支撑跨企业、跨行业、跨领域实现数据自主权、安全可信流74通、互操作性的数据共享流通基础设施。通过国际数据空间协会(IDSA),IDS 提出的基于开放标准的完整参考体系模型(IDS-RAM)及技术体系已在全球 20 多个国家进行了广泛的基准测试和需求分析。主要科研和开发工作由德国弗劳恩霍夫应用研究促进协会的研究所承担并负责商业转化,来自不同行业的企业已实施数百个案例,产生了大量产品与解决方案。目前日本工业数据空间也在逐步实践推广 IDS 体系。国内工业互联网创新发展行动计划(2021-2023 年)中也
221、提到支持企事业单位、产业组织等在重点行业建立工业数据空间。到 2023 年,推进工业互联网数据共享行动,在不少于 3 个重点行业探索建立工业数据空间。2021 年 5 月,由工业和信息化部信息技术发展司支持,中国信通院联合 30 多家企业、院校正式发布“工业数据空间生态链”合作伙伴计划。以 IDS 可建立合约化、结构化、安全可信数据流通使用环境作为突破数据共享流通难题的全新思路,正式启动相关前沿研究及标准制定工作。2022 年初,工业互联网产业联盟联合中国信息通信研究院正式提出建立面向工业数据可信、安全共享和流通的新型基础设施及技术解决方案,即可信工业数据空间(Trusted Industri
222、al Data Matrix),为工业数据要素市场化提供了实现路径。同年 4 月,中国信通院牵头,正式启动可信数据空间标准编写。可信数据空间技术可以用于补充国内现有 API 技术、隐私计算技术对数据共享流通支撑存在的不足,如基于数据主权策略的数据访问及使用控制技术。数据访问控制技术仅仅是在某个指令执行前发挥作用,一旦操作完该指令,访问控制便再也不会对数据有任何作用。而数据使用控制技术是将数据控制权限始终保持在数据提供方这里。数据使用控制基于访问控制对身份的确认,并将数据使用控制延伸到数据使用方,如控制数据在使用方使用一定时长或一定次数后自动执行删除。数据使用控制技术在执行共享交换关键和敏感数据
223、中,强制执行数据提供方加载的数据限制规则,数据提供方具备数据使用对象、范围、方式的完整控制能力,从而打消数据共享流通的顾虑。结合数据访问及使用控制技术的可信数据空间技术架构如图 6-11 所示。75图图 6-11 可信数据空间技术架构可信数据空间技术架构通过数据提供方构建数据提供引擎-DPE,数据使用方构建数据使用引擎-DCE,在数据传输层之上,构建设备互信、设备授权、应用授权、应用会话、使用控制、数据推拉在内六层数据共享流通信令层协议栈,实现跨网络,可信、可控数据共享流通的同时,具备全链路数据访问、数据使用控制能力。完整实现对 IDS 21 条控制策略的支撑。典型控制策略包括限制在某些系统或
224、应用中使用、限制某些用户使用、限制用于特定目的使用、限制允许或禁止使用原始数据、限制特定的起止时间、限制特定的使用时长、限制使用次数、限制使用后删除、限制访问原始字段和限制数据转发第三方等。国内目前还未有同类型技术实现以上细粒度数据使用控制策略。另外,参考IDS 跟进研究并做国产化产品的团队不是很多,暂时还没有成熟产品和商业应用。可信数据空间技术与隐私计算技术、API 技术可以实现有机融合,形成覆盖全场景、高效、低成本、可信、可控、可追溯的新型数据共享流通方案,将有助于推动国内数据要素市场的发展。6.4 数据安全计算技术6.4.1 概述数据安全计算,一般指隐私计算,是在保证数据提供方不泄露原始
225、数据的前提下,对数据进行分析计算,有效提取数据要素价值为目标的一类信息技术,保障数据在产生、存储、计算、应用、销毁等数据全生命周期的各个环节中“可用不可见”。766.4.2 多方安全计算(一)概述多方安全计算(Secure Multi-Party Computation,简称 MPC 或 SMPC)指在无可信第三方的情况下,各方共同参与计算任意约定的函数,同时在计算过程中各个参与方的数据都不会发生泄漏。多方安全计算作用于数据交换过程中,在保证了数据保密的同时实现了数据共享,实现了数据可用而不可见,有利于解决“数据孤岛”现象。多方安全计算是密码学的一个分支,涉及到很多密码学知识,同时也反作用于密
226、码学。多方安全计算包括多个技术分支,主要用到的技术是秘密共享、不经意传输、混淆电路、同态加密、零知识证明等。1、多方安全计算的发展回顾多方安全计算自 1986 年被提出之后,在比较长的时间里,针对其研究都集中在理论层面,而针对于多方安全计算的应用少之又少,之后于 2004 年 Malkhi等学者提出了多方安全计算平台 Fair play,但仍存在严重的性能瓶颈。近年来,由于各国更加重视对数据资源的保护,出台了大量法律法规,并且随着多方安全计算协议的不断优化和性能的提升,多个领域都开始尝试使用多方安全计算技术解决领域内的问题,多方安全计算进入到规模化发展阶段。2、多方安全计算的发展趋势目前的多方
227、安全计算仍存在着一些安全性问题,如大多无法抵御现实使用场景中的恶意攻击和共谋攻击,仅支持抵御半诚实攻击。另外,多方安全计算在理论角度保证了计算安全性。随着隐私计算中新兴技术如联邦学习、TEE 的发展,单靠一种技术无法处理复杂且多变的现实场景,所以将多方安全计算技术于联邦学习、TEE 等技术相结合也是未来发展的趋势。多方安全计算技术作为隐私计算的主流技术之一,虽然仍有提升的空间,但是目前已经经过了实践检验,在金融、医疗等领域有实际落地的应用。(二)技术分析混淆电路是一种在电路层面进行两方安全计算的密码学协议,也是一种计算代价比较小的多方安全计算协议。它能够通过对电路进行加密来掩盖电路的输入和结构
228、,实现在不泄漏参与方的原始数据及中间数据的条件下,计算某一能够被逻辑电路所表示的函数。秘密共享将秘密以适当的方式拆分,拆分之后将每个部分秘密交给不同的参与者进行管理,单个参与者无法恢复秘密消息,只有多个参与者协作才能恢复秘密消息。秘密共享可以防止秘密过于集中,可以防止系统外敌方的攻击及系统内用户的背叛。同态加密可以对明文进行加密,利用同态加密技术可以对多个密文进行运算77之后再进行解密,而不需要将每个密文解密之后再运算。零知识证明或零知识协议是一种密码学的方法,能够在证明者不向验证者提供任何有用信息的情况下,使验证者认为某个论断是正确的。允许证明者、验证者证明某项提议的真实性,而不需要泄露除了
229、“该论断是真实的”之外的任何信息。多方安全计算基于密码学的理论,其安全性有严格密码理论证明,无需可信第三方,各个参与方对于己方数据有绝对的控制权,可以保证在计算过程中,数据不会泄露,同时计算精度高。但多方安全计算的可行性虽然在数学上已被证明,但工程落地方面仍存在问题。由于工程上的主要难点在于要同时满足高吞吐量和低延迟,既要满足大数据量下的查询、统计、训练,又要满足一些实时性的应用,多方安全计算中由于包含复杂的密码学操作无法满足高吞吐量和低延迟。6.4.3 联邦计算(一)概述联邦学习(Federated Learning,FL),又名联邦机器学习,联邦计算。联邦学习是在原始数据不出本地的前提下,
230、通过模型的流通与处理来完成多方联合的机器学习,得到聚合的训练结果。联邦学习的参与方一般包括数据方、算法方、协调方、计算方、结果方、任务发起者等角色。(二)技术分析1、技术框架联邦学习的硬件层采用通用硬件,算子层融合了多方安全安全计算、同态加密和差分隐私的算子,以加强安全性,算法层需支持多种机器学习算法,从而达到高兼容性,联邦学习的应用面向联合建模、联合预测等场景。联邦学习的通用技术框架如图 6-12 所示。图图 6-12 联邦学习的通用技术框架联邦学习的通用技术框架782、技术架构当存在中心的协调方和计算方时,联邦学习的技术架构如图 6-13 所示。图图 6-13 存在中心节点的联邦学习技术架
231、构存在中心节点的联邦学习技术架构完全去中心化的点对点网络联邦学习技术架构如图 6-14 所示。图图 6-14 去中心化的联邦学习技术架构去中心化的联邦学习技术架构联邦学习的架构通常支持通用硬件。而隐私计算的其它分支可行执行环境是需要特定硬件的。在多方参与的复杂场景下,联邦学习这种硬件无关的特性减少了多方间达成一致的沟通成本。当前有部分行业的用户执行严格的数据不出域要求,不仅原始数据不能出域,加密后的密态数据也不能出域。在这种情况下,联邦学习“数据不动模型动”的特点能够契合用户的要求,化解数据孤岛难题。由于联邦学习的在数据安全流通中79的显著作用,已被广泛应用于医疗领域、金融领域、智能手机、智能
232、汽车等诸多领域,在保证用户隐私的前提下用于联合数据挖掘和建模。6.4.4 可信执行环境(一)概述可信执行环境是计算平台上由软硬件方法构建的一个安全区域,可保证在安全区域内部加载的代码和数据在机密性和完整性方面得到保护。其目标是确保一个任务按照预期执行,保证初始状态的机密性、完整性,以及运行时状态的机密性、完整性。1、TEE 相关标准组织1999 年,康柏、HP、IBM、Intel、微软等企业发起成立了可信计算平台联盟(Trusted Computing Platform Alliance,TCPA),该组织于 2003 年改组为可信计算组织 TCG,并制定了关于可信计算平台、可信存储和可信网络
233、连接等一些列技术规范。2011 年 Global Platform(全球最主要的智能卡多应用管理规范的组织,简称 GP)从 2011 年起开始起草制定相关的 TEE 规范标准,并联合一些公司共同开发基于 GP TEE 标准的可信操作系统。因此,如今大多数基于 TEE 技术的 Trust OS 都遵循了 GP 的标准规范。2、TEE 的实现2009 年开放移动终端平台(Open Mobile Terminal Platform,OMTP)工作组智能终端的安全率先提出了一种双系统解决方案,即在同一个智能终端下,除了多媒体操作系统外再提供一个隔离的安全操作系统,这一运行在隔离的硬件之上的隔离安全操作
234、系统用来专门处理敏感信息以保证信息的安全。3、TEE 相关的厂商在国外 ARM 公司、Intel 和 AMD 公司分别于 2006、2015 和 2016 年各自提出了硬件虚拟化技术 TrustZone、Intel SGX 和 AMD SEV 技术及其相关实现方案,在国内中由关村可信计算产业联盟 2016 年发布 TPCM 可信平台控制模块,为国产化 TEE 技术的发展起到了指导作用,国内芯片厂商兆芯、海光分别在 2017 年和2020年推出了支持TEE技术ZX-TCT、海光CSV(China Security Virtualization)。(二)技术分析2009年 OMTP(Open Mo
235、bile Terminal Platform)组织在 omtp advanced trustedenvironment omtp tr1 v11中明确定义 TEE 的相关概念和规范,定义 TEE 为“一组软硬件组件,可以为应用程序提供必要的设施”,相关实现需要支持两种安全级别中的一种:安全界别(Profile 1)目标要求可以抵御软件级别的攻击;80安全界别(Profile 2)目标要求可以同时抵御软件和硬件攻击。针对 TEE 的相关概念及规范定义,各家软、硬件厂商结合自己的基础架构形态具体实现各不相同。虽然在技术实现上存在差异性,但是仍可抽象出 TEE的共同技术特点。具体而言,TEE 存在隔
236、离性、软硬协同性和富表达性等技术特点。1、隔离性X86 架构的隔离机制从 Intel 80286 处理器开始,Intel 提出了 CPU 的两种运行模式,并且逐步衍生出后来的不同的特权界别,再后来提出了安全区域更小的SGX 机制实现可信执行环境。同样的,ARM 架构通过 Trustzone 技术实现了相关软硬件的隔离性,实现安全世界与非安全世界的隔离。TEE 通过隔离的执行环境,提供一个执行空间,该空间有更强的安全性,比安全芯片功能更丰富,提供其代码和数据的机密性和完整性保护。2、软硬协同性虽然标准定义可以通过软件方式或硬件方式实现 TEE,但实际生产场景下,行业内更多通过软硬结合的方式进行安
237、全性的保障与支持。3、富表达性TEE 与单纯的安全芯片或纯软件的密码学隐私保护方案相比支持的上层业务表达性更强,由于只需要定义好业务层面隐私区域和非隐私区域的逻辑划分,而不会对定义隐私区域内的算法逻辑的语言有可计算性方面的限制(图灵完备的)。同时由于 TEE 已经提供了”安全黑盒“,安全区域内数据无需进行密态运算,从而支持更多的算子及复杂算法。TEE 目前较为成熟的技术主要包括 Intel SGX、ARM TrustZone、AMD SEV和 Intel TXT。以 Intel SGX 为例,Intel Software Guard Extensions(英特尔 SGX)是一组用于增强应用程序
238、代码和数据安全性的指令,开发者使用 SGX 技术可以把应用程序的安全操作封装在一个被称之为 Enclave 的容器内,保障用户关键代码和数据的机密性和完整性。Intel SGX 最关键的优势在于将应用程序以外的软件栈如 OS 和 BIOS 都排除在了 TCB(Trusted Computing Base)以外,一旦软件和数据位于 Enclave 中,即便是操作系统和 VMM(Hypervisor)也无法影响 Enclave里面的代码和数据,Enclave 的安全边界只包含 CPU 和它本身。6.4.5 同态加密(一)概述同态加密(Homomorphic Encryption,HE)指能够直接使
239、用密文进行特定运算的加密技术。在同态加密计算过程中,无需密钥即可实现操作,而结果仍需密钥81解密从而变为明文,在解密后,得到与明文计算相同的结果。同态加密素有隐私计算的“圣杯”之称。作为面向数据应用侧的密码算法,可实现在数据加密的状态下,密文数据与原始数据仍具备完全一致的计算能力,即密文数据无需解密便可以进行计算使用。同态加密既有效保障了数据在使用过程中的隐私安全,同时降低了外流数据价值稀释的风险。(二)技术分析同态加密作为支撑性安全算法,可以为多方安全计算、联邦学习等隐私计算应用技术提供底层密码能力支撑,共同打造高性能、高安全的多方计算计算和联邦学习。传统的数据共享模式与基于同态加密的共享模
240、式如图 6-15 所示。图图 6-15 数据共享应用模式:传统数据共享应用模式:传统 VS 同态同态在传统的数据共享模式中,数据供应方需要将原始数据共享至数据需求方,该过程由于数据的复制成本低、业务系统仅能使用明文数据的特性,数据在需求方进行使用时难免存在数据价值稀释及数据泄露的风险。在基于同态加密的数据共享应用模式中,对于数据供应方而言,仅需在原本的数据传输环节之前,将原始数据先进行同态加密,在保障数据安全的同时,有效完成数据所有权和使用权的分离。经过同态加密的密文数据可以保有数据的计算能力与可复用性,在数据源的数据共享业务规模扩大后,即可借助其可复用性,将同样一份数据资产的使用权分发到多个
241、需求方。并且,基于同态加密的数学性质,密文数据的计算无需经过解密步骤,可以极大程度上减少需求方的通信开销,达到降本增效的目的。同态加密可直接对密文进行分析、检索。因此在达成保护隐私的前提下,还能实现某些数据操作。同态加密实现了数据使用过程(Data in use)中的加密,适用于部分诚信和恶意环境中,以保护数据安全与隐私。目前适用场景有医疗数据加密、顾客数据分析、多个机构间客户的交叉分析等。为达到提高效率、降低成本的目的,中小型企业往往会将数据托管至云服务器,但近年来云上数据泄露问题愈发严重,企业对其安全性产生了信任危机。同82态加密云服务模式提供一套面向云环境中隐私数据的存储、应用解决方案。
242、实现云上数据的可管、可控、可用,保证数据在云环境中的全流程安全与合规,增强用户对云环境的信任。采用同态加密技术的云服务模式如图 6-16 所示:图图 6-16 同态加密云服务模式同态加密云服务模式该模式中,同态加密为用户提供隐私数据在云环境中的密态安全存储、密态安全应用、密态安全共享能力。数据所有者将数据在本地进行同态加密,随后将密文数据发送至云服务器进行存储。这种情况下,可确保云服务商或其他第三方厂商在进行外包计算的时候,仅对同态密文数据进行应用,而无法获取到原始的数据信息。云服务器将仍为加密状态的操作结果(例如,查询、检索、统计后得到的密文运算结果)发送至结果需求方,需求方得到数据持有者授
243、权后能够通过解密得到自己需要的信息。整个过程中,云端无法获取任何原始数据信息,即数据源可以保留数据的所有权,仅对云上数据的使用权进行分发与监管,大幅降低了原始数据在云端的泄露风险。6.5 数据安全溯源与确权技术6.5.1 技术概述数据安全溯源指针对数据要素流通过程中的状态和事件等,以不可篡改、可验证的方式记录和追溯。数据要素流通涉及到数据权属的变化和数据的使用,由于数据具有可复制性,无法追溯的数据流通会带来数据权属和责任的混乱,对市场秩序造成不良影响。数据安全流通溯源的追溯对象,包括但不限于数据权属、数据内容、数据使用、数据交易。其中数据权属包括拥有权、使用权、收益权等,数据权属可以被创建和确
244、认、流通、销毁。数据内容可能是数据原文、加密后的数据、密钥、数据摘要等。数据使用可能是对数据或其要素的传输,参与计算等。数据交易包括数据资产化及相关交易过程等。83数据要素流通是多方参与的过程,需要多方对上述追溯对象达成共识。溯源是对共识内容的记录和追溯,需要做到完整、不可篡改、可验证。区块链技术基于密码学和共识算法,可以让多个参与方对数据和逻辑达成共识,且拥有不可篡改的特性,可用于数据要素流通溯源;数据水印可以在基本不改变数据原始价值的情况下,在数据中嵌入不易察觉且难以去除的标记信息,用于版权保护、数据防伪追溯等场景。6.5.2 数字水印(一)概述数字水印相关技术最早起源于 20 世纪 50
245、 年代一篇技术专利,该专利描述了一种将不可感知的标识码嵌入到音乐中实现证明音乐所有权的目的。直到 1993年,Andrew Tirkel 等人发表的文章中首次提出“Electronic Watermark”(电子水印)的概念,随后在 1994 年发表的文章中使用“Digital Watermark”(数字水印)的概念,此后,数字水印技术进入了飞速发展时期。早期的数字水印技术关注于图像领域,在图像领域水印技术的发展过程中,音频、文本、视频水印技术也得到了逐步的发展。近年来,随着相应数据安全的需求驱动,数据库水印技术作为数字水印技术的一种分类场景,得到了广泛的关注。目前数据要素流通场景中涉及的主要
246、是结构化数据,因此本文主要关注于数据库水印技术的介绍。(二)技术分析数据库水印指通过相应的处理方法,在基本不改变数据库原始数据价值的情况下,在数据中嵌入不易察觉且难以去除的标记信息,用于数据版权保护、数据泄露溯源、数据完整性校验等场景。通常情况下,一个完整的数据库水印方案主要包括水印嵌入端和水印提取端两部分,其中水印嵌入端包括水印生成、水印嵌入子流程;水印提取端包括水印探测、水印提取、水印恢复、水印校验子流程。整体方案如图 6-17 所示。图图 6-17 数据库水印方案框架数据库水印方案框架图 6-17 所示的数据库水印方案流程中,各个子流程功能如下所述:1、水印生成、水印嵌入84在水印生成阶
247、段,使用水印密钥及相应的水印生成算法,依据待嵌入的水印信息生成相应的水印信息。根据实际场景与算法的不同,待嵌入的水印信息种类与数据量也不同。如对于版权校验场景,待嵌入的水印可能为版权方、时间戳等信息;对于数据泄露追溯场景,待嵌入的水印可能为数据导出人、时间戳、数据接收方等信息;对于数据源校验场景,待嵌入的水印信息为原始数据库自身信息等。在水印嵌入阶段,根据实际场景的具体需求,结合水印密钥,使用相应的水印嵌入算法将水印信息嵌入到原始数据中。目前,按照应用场景、数据保真性以及数据可逆性的不同,可将相应的数据库水印技术划分为不同的种类。(1)按照应用场景划分可划分为鲁棒水印和脆弱水印。鲁棒水印指添加
248、了水印的数据,在遭受恶意或者无意的修改后,依然能够保证水印的提取、恢复和校验,主要运用于数据版权确认及数据泄露溯源场景。脆弱水印指添加了水印的数据,在数据被恶意或无意的修改后,水印信息也会被破坏、发生变化,主要运用于数据完整性校验场景。(2)按照数据保真性划分可划分为有失真水印和无失真水印。有失真水印指在嵌入水印时,需要对原始数据库相关数据进行修改,主要适用于数值或者分类型数据库。无失真水印指嵌入水印时,不需要对原始数据库相关数据进行修改,对数据类型的支持比较广泛。(3)按照数据可逆性划分可划分为可逆水印和不可逆水印。可逆水印指在水印提取、校验时,除了提取、检验水印本身以外,还可以将加了水印的
249、数据库还原为原始数据,主要运用于数据完整性校验场景。不可逆水印指水印提取、校验时,仅能对水印信息本身进行提取、校验,无法对加了水印的数据库进行恢复。2、水印探测、水印提取、水印恢复在水印探测、提取、恢复阶段,使用相应的水印密钥和水印算法,针对相应的待检测水印数据库,首先判断其中是否存在水印信息,对于存在水印信息的场景,进行后续的水印提取、水印恢复流程。根据应用场景及使用算法的不同,经过本流程提取出来的水印信息可能包括bool 值、字符串、bit 流等。此外,在某些场景和算法情况下,除了恢复相应的水印信息外,还可以对原始加了水印的数据库进行恢复。3、水印校验在水印校验阶段,针对前一步流程提取的水
250、印信息,根据不同的场景,进行相应的水印校验,满足相应的数据版权校验、数据泄露溯源以及数据完整性校验85等需求。数据水印通常具有高隐秘性、高安全性、可检测性、高鲁棒性、高仿真性的特点。通常来说,不同于传统型非结构类文件,数据水印对水印不可见性以及水印质量要求更高。数据水印在数据文件(数据库、文本文件、表格等)中嵌入的水印,需带有数据接收方等标识信息、隐形标记,且不易被发现也不易被破坏。如果发生了数据泄漏,可以第一时间从泄漏的数据中提取水印标识,并通过数据水印追溯还原整个泄漏的数据流转全流程,精准溯源到操作数据用户身份、作业及泄露范围和渠道。但其所有权的证明问题还没有完全解决,就目前已经出现的很多
251、算法而言,攻击者完全可以破坏掉图像中的水印,或复制出一个理论上存在的“原始图像”,这导致文件所有者不能令人信服地提供版权归属的有效证据。因此一个好的水印算法应该能够提供完全没有争议的版权证明,在这方面还需要做很多工作。目前将水印作为版权保护的法律证据还不可能。86第 7 章 数据流通机制7.1 过往数据流通方式7.1.1 概述数据流通指数据的拥有控制者授权允许其他个人或组织使用的行为,数据流通的主要形式概括为交换或交易。数据流通目的在于实现数据价值,数据只有通过不断的分析、挖掘、流通、汇聚周而复始的数据操作使用活动才能体现出数据更大的价值,数据的操作使用活动可以表现为查询、数据分析等方式获取数
252、据带来的价值。数据流通发展是数据在国家、个人、生产活动中越来越重要的价值体现,数据流通发展包括需求、数据存储、安全、技术等方面共同促进数据流通的发展。7.1.2 数据流通 1.0数据流通活动依赖计算机网络技术的发展,自 20 世纪 60 年代以来计算机网络技术越来越多的被用于各类企业的生产活动中,20 世纪 70 年代出现了关系型数据库技术及文件存储技术,企业、组织生产活动中的数据开始以电子、非电子形式进行存储。数据的价值在流动,企业、组织为了能够通过生产中产生的数据挖掘出更大的价值,出现了数据的交换需求,1.0 时代的数据流通范围主要为本企业、组织内部跨部门、上下级以及存在关联关系的企业之间
253、的数据流通,为企业、组织决策提供数据支持,树立企业、组织行业优势。数据流通 1.0 时代,流通形式主要为数据库之间、文件之间、文件和数据库之相互交换流通,数据格式不统一、存储位置不同,通过一些静态的技术手段进行数据流通,如 ETL(Extract-Transform-Load)、kettle(KDE Extraction,Transportation,Transformation and Loading Environment)、dataX 等技术手段进行数据流通交换。数据流通 1.0 时代,数据流通主要在网络层进行链路和路由,以组或数据包的方式进行传输,同时 1.0 时代也有很多纸质方式的数
254、据流通方式,为了确保数据流通的安全,在终端、文件、网络等方向出现了一下安全防护措施和产品。数据流通 1.0 时代,安全数据流通的需求比较有限,流通方式比较单一。7.1.3 数据流通 2.0企业、组织对于数据价值的需求日益增长,渴望从数据能够更及时、准确、有效的从数据中获取相关的信息,1.0 时代的数据流通方式和技术手段已经无法87完全满足时效性的要求,而数据的存储方式也由原来的结构化关系存储、文件存储等基础上出现菲关系数据存储、图像音频、文件系统、分布式、大数据等等,同时数据的存储量也增加了很多。数据流通的范围在数据经济的推动下由企业内部转向外部市场,开始形成以数据为要素的市场发展,数据中台、
255、数据交易平台等新型数据流通方式建立,加速了数据流通行业的发展,更高程度满足企业、组织、个人对于数据方面的价值需求。数据流通 2.0 时代在 1.0 时代流通形式的基础上开始引入数据动态流通的技术。开发技术、大数据等技术领域的快速发展使得数据高效、完整的动态流通成为可能,应用之间、外部接口、数据仓库之间等之间的数据流通交互成为主流趋势,如 API 技术、大数据、混合应用、流式计算、ELK 等。数据流通2.0时代数据流通开始扩展到应用层,以数据的方式进行之间交互,极大提升了数据传输的效率、可用性等问题,同时伴随着新的数据安全问题出现,数据确权、数据泄露、数据明文传输、协议统一性等方面的安全问题。安
256、全是数据流通环节需要重点关注的问题,在数据流通 2.0 时代的脱敏技术、加密技术、数据防护技术、溯源技术等。数据流通 2.0 阶段开始注重数据最大限度的开放、流通使数据能够体现出更大的价值,同时带来了很多流通环节的安全问题,是3.0 时代需要重点处理解决的安全问题。7.1.4 数据流通 3.0我国“十四五”数字经济发展规划中首次将数据纳入生产要素中来,标志着数据流通新时代的开启,数据必将作为生产重点要素促进数据时代的新发展。数据的快速、高质量的开发利用数据,最大化的数据共享实现规划中的智慧共享、和睦共治的新型数字生活,让每人都能享受数据带来的价值,数据流通的范围、作用也将已经进一步扩大。数据流
257、通3.0时代要以数据促发展,要着重关注数据流通中的数据安全问题,同时也要确保数据的及时、有效、完整、高质量的流通。数据流通 3.0 时代是数据互联、共享的时代,无论是数据的质量、共享、开放程度都将是史无前例的。新时代的数据安全流通需要从监管、法律法规等方面指引,同时也需要使用相关技术进行保障,如沙箱技术、密码技术、隐私计算、数据可视化等等方面保证数据的互联互通。88表表 7-1 数据流通各阶段区别与联系数据流通各阶段区别与联系对比对比阶段阶段数据流通数据流通 1.0 阶段阶段数据流通数据流通 2.0 阶段阶段数据流通数据流通 3.0 阶段阶段存 储 方式关系数据库、纸质文件、文件等关系型数据库
258、、非关系型数据库库、纸质文件、文件、图像音频、文件系统、分布式、大数据文件等关系型数据库、非关系型数据库库、纸质文件、文件、图像音频、文件系统、分布式、大数据文件等流 通 范围企业、组织内部或关联组织内部企业、组织内部或关联组织内部、数据中台、数据交易平台企业、组织内部或关联组织内部、数据中台、数据交易平台、开放、共享数 据 价值企业、组织发展需要企业、组织发展、商业等企业、组织发展、商业、个人流 通 形式静态交换处理静态交换处理、动态流转要求静态交换处理、动态流转要求、互通互联安 全 保障技术终端、文件、网络等终端、文件、网络、脱敏技术、加密技术、数据防护技术、溯源技术等终端、文件、网络、脱
259、敏技术、加密技术、数据防护技术、溯源技术、沙箱技术、密码技术、隐私计算、数据可视化等流 通 方式网络层网络层、应用层网络层、应用层、数据层等阶 段 间联系数据作为流通关键要素;数据流通各阶段实现的目标是体现数据的价值;数据流通各个阶段都存在流通的需要解决的安全问题7.2 数据流通机制近年来,信息系统、数据库、互联网技术的发展使人类社会活动中的越来越多的内容被数字化记录下来。同时,云计算、大数据技术的发展提高了对数据资源的加工效率,降低了处理成本。数据的外部性,同一组数据可以在不同的维度上产生不同的价值和效用,对不同的用户也会发挥不同的效用,导致随着使用维度增加,数据的能量和价值就将层层放大。同
260、时,数据可以被边际成本很低地复制。在此背景下,存储于某个系统中完成某个业务目标的存量数据可能成为其他系统所需的数据资源,数据资源在流通过后产生更多的应用价值。数据流通使数据脱离了原有使用场景,变更了使用目的,优化了资源配置,从数据产生端转移到其他数据应用端,是数据释放应用价值的重要环节。此过程就是流通成为数据资源价值传递的途径。因此,数据流通可以被定义为某些信息系统中存储的数据作为流通对象,按照一定的规则从供应方传递到需求方的过程。数据流通使得数据可以跨越时间和空间进行更大程度的复用,形成更大的社会价值。89(一)业务视图下的数据流通机制基于各参与方之间的业务关系形成的数据流通机制,主要分为点
261、对点模式、星状网络模式以及融合模式。点对点模式,该模式是数据流通场景中最为常见。以房地产业中的房屋建筑为例,企业甲房屋设计公司将房屋图纸及户型设计数据交付建筑公司乙建造房屋。在此过程中,数据提供方(企业甲)提供图纸数据,数据使用方(建筑公司乙)需要图纸数据进行建造生产,两家企业内部的存证部门作为存证方对数据的使用进行监督。图图 7-1 点对点模式点对点模式星状网络模式,随着数据提供方和使用方数量增多,以及双方对数据的使用形式和深度提出了不同需求,点对点的数据共享流通方式难以满足用户需求,星状网络结构因此逐渐出现。数据汇聚、数据沙盒、多方安全计算和联邦学习是星状网络模式中四种常见的数据共享流通方
262、式。星状网络结构使得数据的共享与流通在连接性、可信度以及应用深度上均有提高。图图 7-2 星型模式星型模式融合模式,主要基于模式一和模式二中各利益相关方对数据使用范围、深度和可信的不同要求,在模式三中,定义了五种主要参与方,包括数据提供方、数据使用方、存证方、中间服务方和 IT 基础设施提供方,如图 7-3 所示。该类模式覆盖的角色和业务流程相对完整。90图图 7-3 融合模式融合模式7.3 数据流通模式在产业数字化和数字产业化的应场景下,数据流通是“常态”,数据静止存储是“非常态”。数据流通是数据价值实现的前提和基础,有数据开放、数据共享、数据交易等形态,涵盖一对一、一对多、多对多数据流通许
263、可模式三种方式。我国数据交易市场仍处在发展的初级阶段,需要发挥市场和政府的双重力量,构建激励相容的数据交易制度,支持数据交易技术研发和创新数据交易模式,拓宽数据交易渠道,促进数据高效流通。7.3.1 数据流通基本模式数据流通的模式按照不同的区分逻辑有不同的归类方式。按照流通参与方主体可以分为内部数据流通和外部数据流通;前者是同一主体之间的流通,如跨部门之间的数据流通;后者是不同主体之间的流通,如跨企业、跨政府之间的数据流通。按照流通目的可以分为盈利性质的流通和非盈利性质的流通;前者流通的目标是为了企业的盈利,后者更多的是公共服务或者公共利益。按照流通数据的主权可以分为跨境流通和非跨境流通;前者
264、是指不同主权国家之间的数据流通,后者指的是同一主权国家体系内部的数据流通。按照数据流通参与方的个数进行区分,可分为一对一数据流通许可,一对多数据流通许可,多对多数据流通许可模式。(一)一对一数据流通许可该数据流通模式是常见的数据流通方式。它可能内含于企业之间的业务合作中,数据的提供方授权数据的使用在一定条件下使用某一特定范围内的数据;也可以是与外部企业进行进行单独的授权数据使用合同,如开放 API 接口、多存在于企业自营的数据交易平台。91(二)一对多数据流通许可该模式下数据拥有者对非特定主体进行的授权数据合法使用,其根本特征在于数据使用方具有大众性,是面向社会需求者的一种数据流通许可模式。一
265、对多模式可以再细分为自由数据流通许可和有条件的数据流通许可。自由数据流通许可即将特定数据明确为“无限制随取随用”,即不设任何条件且由不特定社会主体自由取。相对地,有条件的数据流通许可是数据拥有者向不特定数据需求方授权使用数据,但是限制了数据的使用自由,包括使用目的、使用场景、使用期限、使用定价等。有条件的数据流通许可本质上是数据交易的一种模式,它通过市场化机制将数据资源配置给数据需求者,实现数据的社会化利用。(三)多对多数据流通许可该模式指多个参与方(两个以上的数据拥有者)相互进行数据的取用模式,这是共同开发各自控制的数据的一种数据流通方式,这种数据流通模式本质上是相互之间许可的方式,因此也属
266、于数据共享;该模式的基本特征,一是参与方必须是多方之间的,且数据流通是相互的;二是参与主体有自己所有或者控制的合法数据源。7.4 流通的监管与保护自数据被定义为生产要素以来,对于数据合法合规使用的推进工作层层递进,尤其在法律法规方面逐步推进,各项法律与监管来保障数据流通的安全性。完善的数据安全基础制度是开展数据安全治理的前提条件,目前,我国的数据安全制度体系框架已经形成,配置细则正加紧制定出台,为数据安全协同治理提供了良好的制度保障。数据要素具有非竞争性,并且可以无限复制、重复使用等特点,需要通过高质量供给、市场化流通、创新开发利用等市场化建设来充分发挥数据要素价值,迫切需要强化政府监管职能、
267、压实企业主体责任和发挥社会监督作用,落实各方责任,共同守护数据安全底线。7.4.1 法律层面(一)网络安全法网络安全法 是我国第一部全面规范网络空间安全管理方面问题的基础性法律,安全与发展并重、共同治理是网络安全法秉承的基本原则。网络安全法将现行有效的网络安全监管体制法制化,明确了网信部门与其他相关网络监管部门的职责分工。第八条规定,国家网信部门负责统筹协调网络安全工作和相关监督管理工作,国务院电信主管部门、公安部门和其他有关机92关依法在各自职责范围内负责网络安全保护和监督管理工作。这种“1+X”的监管体制,符合当前互联网与现实社会全面融合的特点和我国监管需要。(二)数据安全法数据安全法明确
268、数据安全主管机构的监管职责,建立健全数据安全协同治理体系,提高数据安全保障能力,促进数据出境安全和自由流动,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益,让数据安全有法可依、有章可循,为数字化经济的安全健康发展提供了有力支撑。数据安全法 在数据安全监管、安全评估与防护要求方面做出了明确规定,明确了数据管理者和运营者的数据保护责任,指明了数据保护的工作方向,对整个信息安全产业都带来了积极的影响,全面消除数据管理者和运营者在数据安全建设中的盲区,数据安全建设有法可依,数据安全事故造成的损失有法可惩,这对促进经济社会信息化健康发展,保护公民、组织的合法权益具有非常大的价值
269、;以人为本,鼓励对违法行为的投诉举报,对投诉、举报人的相关信息予以保密,并充分考虑老年人、残疾人的需求,维护每一个公民的合法利益;特别指出“关系国家安全、国民经济命脉、重要民生、重大公共利益等数据属于国家核心数据,实行更加严格的管理制度。”核心数据安全监督与管理、评估与防护建设刻不容缓;提出对数据全生命周期各环节的安全保护义务,加强风险监测与身份核验,结合业务需求,从数据分级分类到风险评估、身份鉴权到访问控制、行为预测到追踪溯源、应急响应到事件处置,全面建设有效防护机制,保障数字产业蓬勃健康发展。(三)个人信息保护法个人信息保护法 从自然人个人信息的角度出发,给个人信息上了一把“法律安全锁”,
270、成为中国第一部专门规范个人信息保护的法律,对我国公民的个人信息权益保护以及各组织的数据隐私合规实都将产生直接和深远的影响。个人信息保护法 第六十条定义履行个人信息保护职责的部门包括国家网信部门负责统筹协调个人信息保护工作和相关监督管理工作。国务院有关部门依照本法和有关法律、行政法规的规定,在各自职责范围内负责个人信息保护和监督管理工作。县级以上地方人民政府有关部门的个人信息保护和监督管理职责,按照国家有关规定确定。7.4.2 安全管理(一)网络数据安全管理网络数据安全管理条例(征求意见稿)第五十五条规定国家网信部门负93责统筹协调数据安全和相关监督管理工作。公安机关、国家安全机关等在各自职责范
271、围内承担数据安全监管职责。工业、电信、交通、金融、自然资源、卫生健康、教育、科技等主管部门承担本业、本领域数据安全监管职责。主管部门应当明确本行业、本领域数据安全保护工作机构和员,编制并组织实施本行业、本领域的数据安全规划和数据安全事件应急预案。主管部门应当定期组织开展本行业、本领域的数据安全风险评估,对数据处理者履行数据安全保护义务情况进行监督检查,指导督促数据处理者及时对存在的风险隐患进行整改。(二)金融数据安全管理1、证券期货业网络安全管理证券期货业网络安全管理办法(征求意见稿)第六条指出中国证监会建立集中管理、分级负责的证券期货业网络安全监督管理体制。中国证监会科技监管部门统一对证券期
272、货业网络安全实施监督管理。中国证监会其他部门配合开展相关工作。中国证监会派出机构对本辖区经营机构和信息技术服务机构网络安全实施监督管理。中证信息技术服务有限责任公司在中国证监会指导下,为证券期货业网络安全监督管理提供专业协助和支撑。2、征信业务管理征信业务管理办法第四十四条规定中国人民银行及其省会(首府)城市中心支行以上分支机构对征信机构的下列事项进行监督检查:征信内控制度建设,包括各项制度和相关规程的齐备性、合规性和可操作性等;征信业务合规经营情况,包括采集信用信息、对外提供和使用信用信息、异议与投诉处理、用户管理、其他事项合规性等;征信系统安全情况,包括信息技术制度、安全管理、系统开发等;
273、与征信业务活动相关的其他事项。(三)汽车数据安全管理汽车数据安全管理若干规定(试行)第十五条定义国家网信部门和国务院发展改革、工业和信息化、公安、交通运输等有关部门依据职责,根据处理数据情况对汽车数据处理者进行数据安全评估,汽车数据处理者应当予以配合。(四)工业和信息化领域数据安全管理工业和信息化领域数据安全管理办法(试行)第四条定义监管机构,工业和信息化部及地方工业和信息化主管部门、通信管理局、无线电管理机构统称为行业(领域)监管部门。行业(领域)监管部门依照有关法律、行政法规的规定,依法配合有关部门开展的数据安全监管相关工作。在国家数据安全工作协调机制统筹协调下,工业和信息化部负责督促指导
274、各省、自治区、直辖市及计划单列市、新疆生产建设兵团工业和信息化主管部门(以下统称地方工业和信息化主管部门),各省、自治区、直辖市通信管理局(以下94统称地方通信管理局)和各省、自治区、直辖市无线电管理机构(以下统称地方无线电管理机构)开展数据安全监管,对工业和信息化领域数据处理者的数据处理活动和安全保护进行监督管理。地方工业和信息化主管部门负责对本地区工业数据处理者的数据处理活动和)安全保护进行监督管理;地方通信管理局负责对本地区电信数据处理者的数据处理活动和安全保护进行监督管理;地方无线电管理机构负责对本地区无线电数据处理者的数据处理活动和安全保护进行监督管理。7.5 数据流通合规7.5.1
275、 数据处理合规(一)GB/T 35274-2017-大数据服务安全能力要求本标准针对我国大数据产品发展需求和大数据服务面临的安全问题,结合国内主要互联网企业和测评机构在大数据服务安全方面的实践基础,提出了有组织、有数据和有大数据系统的大数据服务提供商的大数据服务安全能力要求。落实了网络安全法中关于大数据安全保护的相关要求,为其落地实施提供了标准化支撑。(二)GB/T 36073-2018 数据管理能力成熟度评估模型(DCMM)将组织内部数据能力划分为数据战略,数据治理,数据架构,数据标准,数据质量,数据安全,数据应用,以及数据生存周期八个重要组成部分,描述了每个组成部分的定义、功能、目标和标准
276、。适用于信息系统的建设单位,应用单位等进行数据管理时的规划,设计和评估,也可以作为针对信息系统建设状况的指导、监督和检查的依据。旨在帮助企业利用先进的数据管理理念和方法,建立和评价自身数据管理能力,持续完善数据管理组织、程序和制度,充分发挥数据在促进企业向信息化、数字化、智能化发展方面的价值。GB/T 36073-2018 数据管理能力成熟度评估模型(简称 DCMM)是一个数据管理能力现状评估标准,用于对企业数据管理能力的全面诊断,提出企业在数据管理方面存在的差距、改进方向及提升建议;也可以作为针对企业信息系统建设状况的指导、监督和检查的依据。DCMM 分为 8 个能力域,可以理解为1 个战略
277、引领(数据战略)、1 个保障机制(数据治理)、4 项应用环境建设(数据架构、数据标准、数据生存周期、数据应用)、2 项日常运营(数据质量、数据安全)共 4 个方面。在数据安全流通的全生命周期中,由于生产要素的重要性和安全性要求,更95需要数据的提供方和需求方有一定水平数据管理能力,才能保障数据流通的安全性不会在终端节点失效。(三)GB/T 37932-2019 信息安全技术 数据交易服务安全要求本标准提出了数据交易服务的参考框架和安全原则,将交易参与方分为数据供方、数据需方及数据交易服务机构,规定了各交易参与方的安全要求;从禁止交易数据、数据质量要求、个人信息安全保护及重要数据安全保护四个方面
278、提出了交易对象的安全要求;将交易过程定义为交易申请、交易磋商、交易实施、交易结束四个阶段,并规定了数据交易过程各阶段的安全要求。(四)GB/T 37973-2019 信息安全技术 大数据安全管理指南本标准首先提出了大数据安全管理基本概念,明确了大数据安全管理的基本原则(包括职责明确、合规、质量保障、数据最小化、责任不随数据转移、最小授权、确保安全和可审计,这些原则是组织实施大数据安全管理的基本原则),提出了大数据安全需求(包括保密性、完整性、可用性及其他需求);其次介绍了数据分类分级的原则、流程及方法,从组织开展大数据安全管理活动的角度定义了数据采集、数据存储、数据处理、数据分发、数据删除等活
279、动,描述了每个活动的基本概念以及常见的子活动,并针对每个子活动提出了安全要求;最后给出了指导组织评估大数据安全风险的方法。(五)GB/T 37988-2019 信息安全技术 数据安全能力成熟度模型本标准给出了组织机构数据安全能力的成熟度模型架构。该模型分为数据安全过程、安全能力及能力成熟度等级三个维度,重点强调对组织机构的数据安全能力成熟度的评判。模型侧重以数据为中心,在数据安全过程维度,将数据生命周期分为数据采集、数据传输、数据处理、数据交换、数据销毁六个阶段,每个阶段划分为若干个不同的安全过程域。同时,与各阶段都相关的过程以通用安全过程域表示。对于每一个过程域,从安全能力维度(即组织建设、
280、制度流程、技术工具、人员能力)分别提出各成熟度等级要求,同时给出了组织数据安全能力成熟度等级的评估方法。(六)GB_T 39477-2020 信息安全技术 政务信息共享数据安全技术要求本标准的制定和发布,为政务数据在应用方面的安全保护提供借鉴,也为政务数据治理体系建设和政务大数据安全应用提供指导,对动态流转场景下的政务数据应用具有普适性和指引性。本标准通过充分调研和梳理政务信息共享的数据流程,抽取共性,分析政务信息数据流转的过程及面临的数据安全风险,梳理安全控制点等,总结现有各种数据安全技术应对政务信息共享过程中面临数据风险的能力,提出政务信息共享数据安全技术要求框架,规定了政务信息共享过程中
281、共享数据准备、共享数据交96换、共享数据使用阶段的数据安全技术要求以及相关基础设施的安全技术要求。(七)GB/T 39725-2020 信息安全技术 健康医疗数据安全指南健康医疗数据不同于其他个人数据,其行业特征明显、敏感度高、质量要求高、互联互通需求较大且目前来看治理能力偏低,所以安全指南的出台对医疗行业内开展合规治理建设敲响了一记警钟。纵观安全指南,其对数据使用和披露过程中的合法合规问题提出了若干的管理和技术保障措施,可见其对保护健康医疗数据、保护个人信息安全、公共利益和国家安全等都起到了一定的积极作用,有着不可否认的现实意义。(八)JR/T 0197-2020 金融数据安全 数据安全分级
282、指南标准给出了金融数据安全分级的目标、原则和范围,明确了数据安全定级的要素、规则和定级过程,并给出了金融业机构典型数据定级规则供实践参考,适用于金融业机构开展数据安全分级工作,以及第三方评估机构等参考开展数据安全检查与评估工作。此外,还规定金融行业的数据 CIA 特性遭到破坏后,影响程度从低到高分为四种:无损害、轻微损害、一般损害、严重损害。具体如图 7-4 所示:图图 7-4 影响程度说明影响程度说明严重损害的影响程度最明显的特点就是可能会危及国家安全,对国家利益造成重大损失,对社会秩序,公共利益造成严重损失,造成重大安全事件,或遭受严重破坏,重大处罚。(九)JR/T 0218-2021 金
283、融业数据能力建设指引明确了金融业数据工作的基本原则,从数据战略、数据治理、数据架构、数据规范、数据保护、数据质量、数据应用、数据生存周期管理等方面划分了 8个能力域和 29 个对应能力项,提出了每个能力项的建设目标和思路,为金融机构开展金融数据工作提供全面指导。97明确金融业数据能力建设遵循用户授权、安全合规、分类施策、最小够用、可用不可见 5 大基本原则。用户授权要求明确告知用户数据采集和使用的目的、方式以及范围,确保用户充分知情,获取用户自愿授权后方可采集使用,严格保障用户知情权和自主选择权。在数据采集使用方面要求确保数据专事专用、最小够用,杜绝过度采集、误用、滥用数据,切实保障数据主体的
284、数据所有权和使用权。要遵循国家法律法规、管理制度,符合国家及金融行业标准规范,建立健全数据安全管理长效机制和放护措施,严控访问权限,严防数据泄露、篡改、损毁与不当使用,依法依规保护数据主体隐私权不受侵害。在数据共享方面,要求建立数据规范共享机制,在保障原始数据可用不可见的前提下,规范开展数据共享与融合应用,保证跨行业、跨机构的数据使用合规、范围可控,达到可用不可见,有效保护数据隐私安全,确保数据所有权不因共享应用而发生让渡。7.5.2 技术方案合规数据流通过程中,服务方提供隐私计算技术方案需要获得数据安全管理认证,其中包含技术验证+现场审核+获证后监督。技术服务方需要提交认证委托资料,技术验证
285、机构需要按照实施技术进行验证。其中可包含验证流通交易业务一致性、可还原性核验、自动化决策完善性核验、化合风险评估核验。(一)验证流通交易业务一致性验证流通交易业务一致性主要是指通过采用实验环境,将使用“样本数据+流通隐私计算平台”结合计算结果,并于先前预制的理论公式计算结果进行比对,验证其技术方案在流通交易业务中保持的一致性。(二)可还原性核验通过理论计算公式、实验计算结果反推等方式进行 AI 训练,查询数据流通过程中隐私计算技术方案是否存在数据可还原的风险,从而进行合规判定。(三)自动化决策完善性核验核验算法自动化决策中是否违法法律、道德等情况,在实验环境下通过对准备的多组实验样本进行带入,
286、检验输出的结果是否存在“信息茧房”、恶意歧视、隐私泄露等风险,进行合规化检验。(四)化合风险评估核验分析样本和实验结果的敏感性,并与设定的敏感信息库进行对比,分析是否存在化合结果敏感性更高的风险评估。技术验证机构完成技术验证后需向认证机98构和认证委托人出具技术验证报告。7.5.3 产出结果合规数据流通的结果安全性与技术实现紧密相关,部分数据流通方法存在根据产出结果反推原始敏感数据的风险。(一)最终结果反推以数据脱敏为例,对某些敏感信息通过脱敏算法进行数据的遮蔽、变形,将敏感级别降低后对外发放,或供访问使用,实现敏感隐私数据的可靠保护。按照实现原理的差异可分为静态脱敏和动态脱敏。对于一些简单变
287、换规则的静态脱敏算法,积累一定数量的脱敏数据(如手机号码)后,经过分析可能破解脱敏方案,导致敏感用户信息泄露。(二)中间结果反推联邦模型训练,即联邦各方加密交互中间计算结果,完成模型的学习和收敛,过程保证梯度不可被反推,原始数据不出域,原始样本数据不可被反推。在实现过程中,由于梯度的本质是基于原始输入数据的函数处理,虽然原始数据没有出库,但梯度几乎包含原始数据信息,在一定程度上可以反推其他参与方的原始数据。无论是简单的逻辑回归或复杂的 CNN,学术界已发布的一些安全性分析的论文指出梯度泄露可能存在原始数据泄露的风险。(三)逻辑结果反推部分数据流通环节从逻辑上无法保护流通双方的敏感信息。以隐私计
288、算为例,两个参与方执行多方安全计算,其中一方获得计算结果。如计算函数存在逆函数,则任何隐私计算方案都无法保护原始数据的安全,因为根据己方的计算数据和计算结果,结果方很容易反推另外一方参与计算的原始数据。7.5.4 审计监督合规个人信息保护法 是首次在法律层面规定个人信息处理者应该对其遵守法律、行政法规的情况进行审计。个人信息保护法项下的审计分为个人信息处理者的自主审计和强制外部审计两种类型。第五十四条要求个人信息处理者应当定期对其处理个人信息遵守法律、行政法规的情况进行合规审计。自主审计虽然构成个人信息保护法项下个人信息处理者的强制性义务,但从立法目的来看,重在强调企业对自身的个人信息处理活动
289、通过审计进行定期自查。因此,审计的频次、以及是否采用外部审计资源,企业可以基于风险导向原则来加以确定。第六十四条规定,履行个人信息保护职责的部门在履行职责中,发现个人信息处理活动存在较大风险或者发生个人信息安全事件的,可以要求个人信息处理99者委托专业机构对其个人信息处理活动进行合规审计。强制外部审计一方面可以利用外部独立机构的专业知识和能力,帮助个人信息处理者更客观、全面地发现、识别合规问题,明确合规差距;另一方面,外部审计机构的审计结果也可以为监管机构开展进一步的执法活动提供依据。100第 8 章 全国数据流通产业生态链数据要素是数字经济深化发展的核心引擎。据国家工业信息安全发展研究中心最
290、新测算,预计到 2025 年,中国数据要素市场规模将突破 1749 亿元,整体进入高速发展阶段,数据要素流通正迎来加速期。随着数据流通的发展和相关产业政策法规的发布,在新型数据交易流通框架下,数据流通产业面向更大范围,更深层次的数据交易流通,更加重视数据的安全合规、场景化交易、数据要素融合、数据新价值的发现,同时已逐渐成为系统性、生态性的市场活动,涵盖了数据流通主体的协同发展体系。在支撑技术层面,更关注数据的隐私保护,其中特别强调利用隐私计算、区块链等技术,打造“数据可用不可见,用途用量可计量”的新型交易范式,保证数据的提供方和数据需求方等各方数据的权益。8.1 数据数据要素流通核心产业202
291、2 年 6 月 22 日,中央全面深化改革委员会第二十六次会议审议通过关于构建数据基础制度更好发挥数据要素作用的意见,并提出“要建立合规高效的数据要素流通和交易制度,完善数据全流监管体系,建设规范的数据交易市场。”数据要素市场化的核心是数据交易流通,涵盖了数据资产化、数据确权、数据定价和收益分配、数据交易流通、数据服务商等产业。(一)数据确权数据确权是数据交易和流通的前提,民法典虽将数据纳入了保护范围,但只是原则性地规定了应对数据权利进行保护,并没有明确规定如何进行保护。要明晰数据权益的所属关系,关键在于做好数据权力分割、数据分类和数据的分级,并根据数据的类型、数据的特性,分级、有区别地精准化
292、管理,对于重要的、安全要求高的国家数据或者企业数据,可以不公开不共享。对于较重要的,安全要求较高的数据,可以有条件地共享和开放,采用隐私计算或区块链技术,实现数据“可用不可见”“可算不可识”,而对于那些具有公用特性的数据可以采用数据集或者 API 的形式开放共享。(二)数据资产化数据的资产化就是让数据在市场上发现价值。企业通过自己日常的经营活动积累了大量的数据,可以通过数据反馈回路为自己增值,这是数据的“一次价值”,即数据的一次价值在企业内部产生;而数据的“二次价值”则在企业外部实现,即数据通过流通,让外部的企业也同样能够获得一个数据反馈回路,以此增加该企业的使用价值。数据流通起来才有可能真正
293、释放价值。数据流通的环节即为数101据的“流通价值”。不同的业务模式都是数据资产化的趋势之下衍生的模式,彼此之间的差别巨大,收入结构和成本结构各不相同,众多的方向汇成了数据流通产业发展的洪流。(三)数据定价及收益分配目前,国内外数据交易机构和理论界都在探索数据要素定价的方法、模型和策略。在实践中,数据资产价值评估主要采用市场法、收益法及成本法等传统方法,或者基于统一费用、溢价和线性定价等简单的定价方法。数据要素定价方法和模型,对数据要素定价机制的研究尚处于起步阶段。数据作为生产要素必须基于场景考虑数据要素定价,比土地、劳动力、资本、技术等传统生产要素的定价机制更为复杂。此外,数字技术也对数据要
294、素定价产生影响。数据要素市场的数据权益分配建议跳出传统的产权思维范式,对数据生产关系中的多方主体的利益诉求做出平衡,根据数据性质建立精细化的数据权益分配体系,配置与企业正当盈利模式符合的数据经营权、收益权、处分权、受偿权等权益。由于掌握数据内容、数据采集、数据分析等各环节的参与者并不相同,因此在分配时需要兼顾多方的利益,特别是数据采集者、加工者与内容所有者的产权确认。在加强数据共享利用的同时,注重数据权益的保护。数据作为企业的资产应该按其在生产活动中的贡献向企业所有者进行分配。数据分析师等相关数据从业人员是数据价值得以体现的关键因素,数字人才是按数据要素进行分配的主要受益者。数据收益分配的额度
295、应该与数据要素在生产价值创造过程中的贡献率相符合。(四)数据交易流通随着加快培育数据要素市场,各地也迎来了一轮新的数据交易市场的建设热潮。传统交易所只是一个供需撮合,但数据交易所要做的并不单纯是撮合双方买卖,而是要建立一套从技术、规则、机制、流程都健全的一个基于数据流通的信任机制。北京国际大数据交易所作为“国内首家新型数据交易所”,“新”体现在创新交易模式、创新交易技术、创新交易规则、创新交易生态和创新应用场景上。核心定位是国内领先的数据流通基础设施,以及国际重要的数据跨境服务流动枢纽。上海数据交易所则首提“数商”新业态,即涵盖数据交易主体、数据合规咨询、质量评估、资产评估、交付等多领域,培育
296、和规范新主体。定位于一个国家级的交易所,配套有准公共服务机构的职能,要构建全链生态,打造一个全数字化的交易系统以及创新制度规则。102继京沪之后,广东省也在推进数交所的建设。依托现有交易场所建设省级数据交易所,搭建数据交易平台,推动数据经纪人、“数据海关”试点,支持深圳市探索开展数据交易。对于交易所来说,交易量最能体现市场活跃度。但盈利并非数据交易所当下的目标,创新业务模式,赋能市场,推动数字经济发展才是重点。数交所的成立,将催生一批以往没有的新业态,涵盖数据估值、评级、审计、托管等在内的中介服务商,作为数据交易催生而来的新产业、新业态、新模式,才是数据交易生态中的重要一环。(五)数商数商是以
297、数据资源为基础,利用大数据、隐私计算等技术,围绕数据存储、采集、清洗、建模、分析、流转、可视化等流程而提供单一或者综合的专业服务机构,其产品或者服务的输出即为数据交易。数据交易所可为数商与相关方搭建快捷的交易平台,基于海量多维数据助力其数据产品、服务变现。深圳数据交易所于 2022 年初发起“2022 数据要素生态圈”计划,该生态圈汇集了数据需求方、数据提供方、数据承销方、数据监管方、技术服务方、以及法律/咨询/学术专家等数据要素流通参与主体,其中数商占比九成以上。生态圈的共建将加速引导各参与主体积极参与数据要素市场、探索开展数据交易、保障数据要素安全有序规模化流动、持续完善数据交易规则标准,
298、加快构建可信数据交易环境、构建完善数据要素市场生态体系。数商和数据市场的发展将直接驱动数字经济与实体经济的深度融合,倒逼传统企业的信息化加速补课,推动企业数字化转型、智能化加速落地,加速各类新业态的涌现,并引领全社会迈向新的商业文明时代。8.2 数据要素流通基础设施产业在数据要素流通和交易中,需要数据基础能力的支撑,有助于更好地对数据资源进行开发和利用,将数据资源安全、合规的转变为数据资产。积极推送数据安全治理、数据存储备份、隐私计算、数据脱敏、数据泄露防护、数据安全运营、数据审计、数据安全应急处置等产业发展,着力提升数据“采存算管用”全生命周期的基础支撑能力,打造数据交易流通的重要基础设施及
299、安全体系。(一)数据安全治理数据安全治理是以数据为中心、以组织为单位、由合规驱动的满足数据安全保护需求的管理、技术、运营体系。数据安全治理围绕数据全生命周期展开,涵盖数据的采集安全、存储安全、计算安全、管理安全、调用安全和流转安全。在实践中以数据分类分级、角色授权、安全评估和场景化安全为基础,依托以能力103成熟度评估模型 DSMM 为代表的方法体系,保护数据机密性、完整性和可用性。依据法律法规开展数据安全治理,符合监管合规要求,减少数据泄漏风险。数据安全治理贯穿于数据安全流通过程的始终。图图 8-1 数据安全治理技术架构数据安全治理技术架构数据安全治理技术架构以数据安全标识技术为基础,以数据
300、资产管理与数据安全标准规范为基准,依托安全标识的生成、编码、绑定、保护等技术手段,围绕数据采集、传输、存储、使用、共享、销毁等全生命周期处理流程,从数据资产综合管理与分级分类、数据全生命周期安全管控、数据安全审计与稽核三方面展开数据的安全防护与治理,实现数据资产安全态势可展现、数据安全风险可感知、数据细粒度安全策略可运维、数据安全保密防护可协同、数据防护水平可评估、数据安全事件可追溯,为加快数据资源层形成和应用创新能力形成提供技术保障。中国数据治理市场经过几十年的发展,市场需求已经发生了重大转变。数据治理已经从政府行业、金融行业、能源行业延伸到制造、交通、建筑等行业,其价值和必要性逐渐被认可,
301、应用前景越来越广泛,整体市场迎来高速增长期。IDC将中国数据治理市场分为数据治理平台市场以及数据治理解决方案市场,其中,数据治理平台市场 2021 年规模达 23.9 亿元,数据治理解决方案市场 2021 年规模达 26.6 亿元。从市场增长角度看,预计 2022 年的市场规模增长将远高于 2021年的年度增长。(二)数据安全存储“数据安全能力成熟度模型 DSMM”将数据存储安全定义为数据以任何数字格式进行存储的阶段,该阶段涉及数据完整性、保密性和可用性(即 CIA)这3 个方面,包含了 3 个过程域,分别为存储介质安全、逻辑存储安全、数据备份和恢复。存储介质安全定义为针对组织内需要对数据存储
302、介质进行访问和使用的场景,提供有效的技术和管理手段,防范出现由于对介质的不当使用而可能引发的104数据泄露风险。伴随着大数据带来的超高容量需求,存储系统已从硬件发展到软硬件分离、软件定义存储,实现高效、安全的海量数据储存。逻辑存储安全定义为基于组织内部的业务特性和数据存储安全要求,建立针对数据逻辑存储及存储容器等的有效安全控制机制。数据备份和恢复定义为通过定期执行的数据备份和恢复,实现对存储数据的冗余管理,保护数据的可用性。数据备份主要通过冗余方式解决数据的完整性和可靠性。数据备份对于防止数据丢失、损毁、篡改能够发挥重要作用。在勒索软件频发的背景下,数据备份能够确保数据资源快速恢复、保障业务的
303、连续性。(三)隐私计算隐私计算是数据安全流通环节革命性的技术,主流技术路径包括多方安全计算、联邦学习、可信执行环境等。在引入隐私计算技术之前,数据的流通只能采用将原始数据交付给特定对象的方式。尽管接收数据的对象可以有所限定,也可以通过合同协议等法律手段增强保障,但由于数据可无限复制的特性,原始数据的流动实际改变了数据的所有权结构,使得数据源的供应方边际价值持续降低,从长远来看不利于数据要素的流通。而隐私计算技术通过将原始数据进行加密实现运算,将计算的结果给到需求方,从而实现了“数据可用不可见”的数据安全流通模式。原始数据牢牢掌握在数据源方手中,不必担心数据泄漏的风险。作为数据需求方,能够根据特
304、定的算法和运算逻辑得到可信的数据运算结果,满足了业务的需要。隐私计算将数据流通的模式从过去的不可控的数据所有权让渡转变为了可控的数据使用权授予,可以有效的支撑数据使用权按次付费的新商业模式。当前,政府多部门发文鼓励隐私计算的落地应用,隐私计算在金融、医疗、能源、政务、互联网等多个产业中蓬勃发展。利用隐私计算保障数据安全流通,已成为数据流通环节的普遍趋势。在 2021 年中国隐私计算基础产品服务的技术采购中,金融、政务、运营商占据 75%80%的市场份额,医疗领域占比约为 10%。另外,金融、政务、运营商的核心投入期集中在 20222024 年,预计 2025 年将取得收官成果。以银行为例,预计
305、至 2025 年,国有商业银行、股份制银行、40%50%的城市商业银行均将完成隐私计算的平台建设。医疗领域将在卫健委政策和行业用户需求的推动下,预计在 20232025 年,在基础产品服务的投入上也会产生一定增速。(四)数据脱敏数据脱敏是一种保护敏感信息的技术手段,可以分为静态脱敏和动态脱敏。静态脱敏是指对敏感数据进行变形、替换、或屏蔽处理后,将数据从生产环境导入到其他非生产环境进行使用,例如需要将生产数据导出发送至开发、测试等环境。动态脱敏会对数据进行多次脱敏,例如在用户访问生产环境敏感数据时,通105过匹配用户 IP 或 MAC 地址等脱敏条件,根据用户权限采用改写查询 SQL 语句等方式
306、返回脱敏后的数据。例如运维人员在运维工作中直连生产数据库,业务人员需要通过生产环境查询客户信息等。(五)数据泄露防护随着数据安全法以及个人信息保护法的正式施行,各行各业对数据安全的关注程度更进一步。想做好数据安全就必须先做数据安全治理,而数据防泄露是数据安全治理的重要目标导向,也是整个数据安全生命周期的一个重要命题。数据泄露防护指使用先进的内容分析技术,在统一的管理控制台内对静止的、流转的、使用的敏感数据进行保护的系统。其主要核心是通过识别文档等数据资产内容,根据策略执行相关动作,以此来保护数据资产。其内容识别方法包括关键字、正则表达式、文档指纹、向量学习等;其策略包括拦截、提醒、记录等;其目
307、的为根据业务场景保护数据资产,从发现到加密,再到管控、审计的智能化数据防护方案。数据泄露防护主要用于解决故意泄露、无意泄露、合规性和外部威胁等数据安全问题。根据数据泄露途径不同,分为网络数据防泄漏(网络 DLP)、终端数据防泄漏(终端 DLP)、存储数据防泄漏(存储 DLP)、云数据防泄漏(云 DLP)。网络 DLP 也叫无代理 DLP,提供网络流量的可见性并可以对流量进行控制。通常是专用硬件设备或软件形式以旁路监听的方式部署在网络边界,当然也可以串联或代理的部署方式,并同时支持多个网络 DLP 设备进行集群化部署。终端 DLP,主要依赖于运行于桌面、笔记本电脑、服务器、及 Windows、L
308、inux、Apple OS 的设备上的软件客户端。该客户端提供可见性,并且在有需要的时候,对数据进行精准控制。存储 DLP,也叫发现 DLP,主动扫描您网络上的笔记本电脑、服务器、文件共享和数据库,提供一个驻留在所有这些设备上的敏感信息的分析。执行数据发现的一些解决方案,也需要在被扫描的机器上安装一个代理。数字化产生了大量有价值的数据,但也带来了更高的风险。无论这些数据存储在哪里或传输到哪里,都需要受到保护。当前 DLP 系统面临的主要挑战是与业务流程的深度集成和智能自动化。(六)数据安全运营数据安全运营服务是利用安全服务人员的专业技能,从数据安全摸底、数据安全策略的制定及升级、数据安全风险管
309、理以及数据安全优化等方面对数据安全提供全方位安全服务。数据安全运营的基础工作包括数据分类分级、数据标签;建立资产库和资产106大盘,掌握数据资产在业务的分布、风险状态;权限管理、关键业务日志等;如数据在收集阶段的涉敏资产发现服务;数据在存储中的扫描服务、加密存储服务;数据在使用过程中的文件分发平台等,这些基础能力的建设坚持对标业界,避免走弯路的同时提升效率。数据安全运营日益成为行业热点,主要有两个维度的原因。第一层是面临的大环境也就是国内外的网络安全形势,迫使我们需要不断推进安全工作的进一步迭代。第二层是政策法规推动下的合规管控要求的增强,“等保 2.0”(网络安全等级保护)把包括传统网络安全
310、、云计算、物联网、移动互联、工业控制、大数据等在内新技术纳入,比“等保 1.0”(信息系统安全等级保护)拓展了一个维度,并且着重强调了数据安全相关事宜。(七)数据安全审计数据安全是数字经济时代生产力要素的必要属性,持续性开展数据安全审计已成为信息系统审计的重要内容。2021 年 11 月 14 日,国家互联网信息办公室就网络数据安全管理条例(征求意见稿)征求意见,对于数据安全、数据分级分类、数据处理者境外上市、数据出境等方面提出详细和有针对性的监管措施,并对数据处理者在数据安全方面的义务,提出了明确的要求。数据安全审计制度包含两大方面,第一类是由独立第三方专业数据审计机构,对数据处理者进行数据
311、安全等方面的审计;第二类是来自有关监管部门的审计。对于后者而言,是专门针对重要数据处理活动的审计,其重点在于审计法律履行情况,行政法规所涉义务的履行情况等。对于由专业第三方机构进行的数据安全审计,可以让第三方机构出具的数据安全审计报告承担法定责任,由此,建立起一整套社会资源对数据处理者进行例行外部监督的机制,从而实现数据安全监督的日常化、常态化。(八)数据安全应急处置网络数据安全管理条例(征求意见稿)提出,数据处理者应当建立数据安全应急处置机制,发生数据安全事件时及时启动应急响应机制,采取措施防止危害扩大,消除安全隐患。安全事件对个人、组织造成危害的,数据处理者应当在三个工作日内将安全事件和风
312、险情况、危害后果、已经采取的补救措施等以电话、短信、即时通信工具、电子邮件等方式通知利害关系人,无法通知的可采取公告方式告知,法律、行政法规规定可以不通知的从其规定。安全事件涉嫌犯罪的,数据处理者应当按规定向公安机关报案。数据安全应急处置体系主要包括:数据泄漏事件预警监测、动态应对、高效处置能力建设;数据泄漏事件发生后,控制事态、降低影响、防止扩散、追踪溯源、复位的107技术和手段;建立整体应对机制和能力,建立和完善行业内部、政府机构、安全厂商、专业人员之间的联动机制。8.3 数据要素流通咨询服务产业数据要素流通过程中,需要专业化的数据资产评估、数据资产担保、数据交易合规评估、数据安全风险评估
313、等咨询及服务的支撑,以推动数据要素市场化的快速健康发展。(一)数据资产评估资产评估行业要在研究数据权属、数据资产定义、数据价值标准、数据评估指导意见等规范制定过程中提供专业支持与建议,积极推动数据资产交易的规范化、专业化及市场化发展。在数据交易过程中进行独立公允的第三方数据资产价值评估服务,为交易双方提供数据产品价值的参考依据,促进流转,达成交易。为更好地在数据资产交易、出资、融资等应用场景中为市场相关各方提供专业优质的服务,中国资产评估协会于 2022 年 6 月下发了数据资产评估指导意见(征求意见稿),以规范资产评估机构及其资产评估专业人员在数据资产评估业务中的实务操作,更好服务新时代经济
314、发展和新时代生产要素市场。数据资产评估指导意见(征求意见稿)为资产评估行业进一步服务我国数据资产市场,深化资本市场优化资源配置功能,为数据资产的财务管理提供相应的理论支持和价值标准,为数据资产确认、计量、核算、交易贡献资产评估专业力量。同时,还可以为日益增长的数据资产评估相关业务需求做好技术支持,为资产评估行业在探索高难度创新型业务执业过程中提供专业支持。(二)数据资产担保业界普遍认为,不同于传统资产,数据资产兼具无形资产与有形资产特点,又因其权属界定困难、资产难以分割、可复制性强等属性,会给传统金融风控体系带来挑战,因而基于数据资产的长期大额担保融资存在困难。数据资产和知识产权存在可类比性,
315、可借鉴知识产权成熟的质押融资模式,即权属明晰的“类知识产权”数据资产可作为质押物进行融资,这将使数据要素获得金融属性,数据的潜在价值也可以以金融的方式得以转移和流通。如数据质押通过对接银行、担保机构、数据公司等多方主体,利用大数据、区块链、隐私计算等技术手段,采集企业生产、经营链上的各类数据,由基于区块链的存证平台发放存证证书,将数据转变成可量化的数字资产。108图图 8-2 区块链在数据质押场景的应用区块链在数据质押场景的应用以图 8-2 为例,企业将自身核心数据资产质押贷款,数据加密质押在可信数据流通平台上,平台计算数据哈希值并记录在区块链中,作为凭证:一旦企业无偿还能力,担保公司按数据的
316、协议定价价格赔付银行,减少银行坏账率;企业还款结束时,可信数据流通平台重新计算数据的哈希值,由担保公司对比最初区块链上的记录,如相符,则证明数据保存无误,数据将被及时销毁,企业拿回数据所有权。不过,数据资产质押融资模式能否广泛应用,依然需要回到原点克服一系列初始难题:融资需求主体能否打消疑虑,真正愿意质押核心数据资产;相关企业数据数据资产由什么机构、以何种标准来评估认定价值;当前可信数据流通相关的技术仍不够成熟,数据如何确保真实可信;金融机构如何完备风控体系,接受仍存在诸多不确定性的数据质押品等。(三)数据交易合规评估数据,作为国家基础性战略资源,是数字经济的核心和命脉。为了规范数据的生成、采
317、集、存储、加工、分析、服务等处理,我国出台了多项法律法规及政策性文件,其中有关数据交易的法规体系可以概括为“1+3+N”的格局。“1”指民法典。民法典是数据交易法规体系的基石,第一百二十七条规定“法律对数据、网络虚拟财产的保护有规定的,依照其规定;”第四编人格权编第六章隐私权和个人信息保护,对个人信息收集、存储、使用、加工、传输、提供、公开等做了原则性规定。“3”指网络安全法、数据安全法和个人信息保护法,这三部法律共同构建了我国数据治理的立法框架,是数据交易在网络安全、数据安全和个人信息保护方面的进一步延伸。数据安全法第十九条规定“国家建立健全数据交易管理制度,规范数据交易行为,培育数据交易市
318、场。”第三十三条规定109“从事数据交易中介服务的机构提供服务,应当要求数据提供方说明数据来源,审核交易双方的身份,并留存审核、交易记录”。“N”指一系列国家标准、部门规章和地方性法规,是数据交易合规体系的详细补充以及实操指引。2022 年深圳和上海分别颁布了深圳经济特区数据条例和上海数据条例,这两部法规是我国在数据领域综合性地方立法的“先行者”。上海市数据条例明确提出“本市支持数据交易服务机构有序发展,为数据交易提供数据资产、数据合规性、数据质量等第三方评估以及交易撮合、交易代理、专业咨询、数据经纪、数据交付等专业服务”。“数据交易所应当制订数据交易规则和其他有关业务规则,探索建立分类分层的
319、新型数据综合交易机制,组织对数据交易进行合规性审查、登记清算、信息披露,确保数据交易公平有序、安全可控、全程可追溯”。数据要素商品化形成的数据生产要素市场,需要构建完善的数据要素交易合规体系,应重点应考虑数据交易标的合规、数据交易场所合规、数据交易平台合规、数据交易行为合规以及数据交易安全合规五大合规要素。一是数据交易标的合规。数据交易所涉及数据标的,不仅仅是数据产品本身,还应包括与数据产品相关的数据服务。数据产品主要包括用于交易的原始数据和加工处理后的数据衍生产品;数据服务主要是数据供方对数据进行一系列计算、分析、可视化等处理后,为数据需方提供处理结果及基于结果的个性化服务。二是数据交易场所
320、合规。数据要素具有分散性、多样性、易复制性、时效性、再创性等特性,这就要求数据要素的交易不仅要具有合规性,还应当具有安全、可信、可控、可追溯性。因此,数据应当在依法设立的数据交易机构进行交易。鉴于数据交易行为的特殊性,从事数据交易机构的准入,应当依据 行政许可法第 12 条的规定设立行政许可制度。三是数据交易平台合规。为了保障数据交易的公信力,数据交易应当通过依法设立的数据交易平台进行,建议数据交易平台由政府牵头设立。比如深圳经济特区数据条例要求深圳市政府应当推动建立数据交易平台,引导市场主体通过数据交易平台进行数据交易。四是数据交易行为合规。具体而言,首先,在申请环节,数据供方应明确说明交易
321、数据的来源、内容、权属情况和使用范围,提供对交易数据的描述信息和样本数据,数据需方应披露数据需求内容、数据用途。数据交易服务机构应对数据供需双方披露信息进行审核,督促双方依法及时、准确地披露信息。其次,在交易磋商环节,数据供需双方应对交易数据的用途、使用范围、交易方式和使用期限等进行协商和约定,形成交易订单。数据交易服务机构应对交易订单进行审核,确保符合相关法律、法规、规章和标准等要求。110再次,在交易实施环节,数据交易服务机构应与数据供方和数据需方签订三方合同,明确数据内容、数据用途、数据质量、交易方式、交易金额、交易参与方安全责任、保密条款等内容。如发现数据交易存在违法违规情形,数据交易
322、服务机构应当依法采取必要的处置措施,并向有关主管部门报告。五是数据交易安全合规。重点是对数据交易机构的合规要求。数据交易机构应当设立数据安全负责人和管理机构,落实数据安全保护责任,依照网络安全法、数据安全法、个人信息保护法等法律法规和国家标准的强制性要求,建立全流程数据交易安全管理制度,定期组织开展数据安全教育培训,采取相应的技术措施和其他必要措施,确保数据交易安全。数据交易机构应当对拟交易的数据建立分类制度,落实有关部门对不同类别数据提出的安全要求,对拟交易数据建立分级保护机制,根据数据的不同级别,为数据供需双方提供不同强度的安全保护技术支持措施。如果交易数据需向境外提供的,应当依法按照国家
323、网信办制定的数据出境安全评估办法进行安全评估。(四)数据安全风险评估在新时代背景下,数据安全风险评估也应具备时代特性。数据安全风险评估的发展一定是以数据安全法为根本出发点,以网络安全风险评估的理论框架为准绳,且风险评估的内容和指标将围绕数据为核心对象,以发现数据安全风险为主要目的。数据安全风险评估不应该以某个标准作为基准来设置评估项,也无法固化出一个固定模式去开展,主要是由于数据是一类特殊的评估对象,是具备动态性的,随着数据在不同环境下的流动,其面临的安全风险也是不同的。应当围绕被评估的特定数据对象数据资产、数据所面临的威胁和脆弱性,综合开展风险评估找出其在特定威胁环境下所面临的风险。其风险评
324、估方法理论和模式应该是多样性的,适用于不同环境和目标。数据安全风险评估主要以发现数据安全方面的大风险、大隐患为主要目的,在数据识别、法律遵从、数据处理、支撑环境和特殊场景数据跨境流动安等方面开展风险评估。其主要思路为:首先对业务进行梳理、理清数据资产、确认数据资产范围及重要程度,这是风险评估的基础,因此数据识别安全重点是进行数据资产的识别摸底工作。1、数据识别安全评估数据识别是数据安全评估的基础。通过对数据的识别,可以确定数据在业务系统的内部分布、确定数据是如何被访问的、当前的数据访问账号和授权状况。数据识别能够有效解决运营者对数据安全状况的摸底管理工作。基于国家、行业的法律法规及标准要求,数
325、据识别通常包括业务流识别、数据流识别、数据安全责任识别和数据分类分级识别。1112、数据安全法律遵从性评估数据安全法律遵从性评估核心在于依据国家、行业的法律法规及标准要求,重点评估运营者及其他数据处理者关于数据安全在相关法律法规中的落实情况,包括个人信息保护情况、重要数据出境安全情况、网络安全审查情况、密码技术落实情况、机构人员的落实情况、制度建设情况、分类分级情况、数据安全保障措施落实情况,以及其他法律法规、政策文件和标准规范落实情况等。法律遵从性评估的目的不仅在于应对风险,更多的是在于找出差距,驱动数据安全建设合法化,完善数据安全治理体系。3、数据处理安全评估数据处理安全的评估是围绕数据处
326、理活动的收集、存储、使用、加工、传输、提供、公开等环节开展。主要针对数据处理过程中收集的规范性、存储机制安全性、传输安全性、加工和提供的安全性、公开的规范性等开展评估。4、数据环境安全评估数据环境安全是指数据全生命周期安全的环境支撑,可以在多个生命周期环节内复用,主要包括主机、网络、操作系统、数据库、存储介质等环境基础设施。针对数据支撑环境的安全评估主要包括通信环境安全、存储环境安全、计算环境安全、供应链安全和平台安全等方面。5、重要数据出境安全评估重要数据出境是数据安全风险评估所重点关注的风险场景,如果被评估对象中包括数据出境的业务,需要按此部分开展专项评估,重点评估出境数据发送方的数据出境
327、约束力、监管情况、救济途径,以及出境数据接收方的主体资格和承诺履约情况等。5图图 8-3 2022 年中国数据要素市场全景图年中国数据要素市场全景图116第 9 章 数据安全流通场景及案例9.1 电信领域9.1.1 案例一:中国电信“数信链网”实践案例(一)案例简介2021 年 9 月,中国电信研究院联合隐私计算和可控硬件领域的领先企业冲量在线、中科可控联合研发的最新成果:“数信链网”基于数算云网的区块链可信数据共享平台落地实践。“数信链网”对于数据要素产业相关技术进行了持续关注和深入研究,专注于解决数据要素流通链条中的一系列核心问题,包括数据资产确权、数据隐私和安全、数
328、据定价和交易、数据价值深度挖掘、基础设施自主可控等。三方以电信“数算云网”一体化框架为基础,共同推进数据确权流通和隐私计算平台的建设。(二)针对痛点随着国家数据宏观政策的推动,数据资产流通和共享交换已经成为必然趋势,区域化、产业化的数据要素交易市场正在逐步兴起。电信集团作为数据密集型的电信基础设施服务商和运营商,拥有大量的企业、用户和市场数据,这些数据在集团内部不同省分公司和子公司之间的共享和交换,将极大促进数据生产要素价值激活,同时也可以帮助集团实现数据资产的对外运营和价值变现。然而因为数据本身存在容易复制、可修改、权属不清晰等特征,数据共享交换需要一套与通用资产交易不同的全新技术方案予以支
329、撑。数据共享交换方案主要是为了解决在数据交换过程中数据供需方之间的不同诉求。数据需求方的主要诉求包括:在不同的业务场景中,通过统一的数据目录和线上接口获取不同机构的数据源;保护算法、用户标签等核心知识产权和商业秘密对数据源和第三方不可见;数据的使用全流程记录,数据源对计算结果的贡献度清晰可查,确保各方公平可信。数据提供方的主要诉求包括:通过数据脱敏、可信执行环境、联邦学习等多种技术手段保障隐私数据使用安全合规;数据可用不可见,平台和需求方无法沉淀任何源数据,确保数据所有权不会发生变更;帮助数据源统一管理自身的数据资产,并通过数据资产血缘帮助管理和获取数据资产价值。(三)解决方案“数信链网”融合
330、了区块链与隐私计算两大新兴技术,创新性地实现了区块链的分布式互信特性与隐私计算的机密性协作能力融合互补,充分满足了数据要素流通中可信、安全的需求。在交付模式方面,“数信链网”采用了业界领先的一117体机架构,解决了区块链和隐私计算技术实施难度大的问题,可在各类场景中快速交付、无缝扩展,真正在生产场景中实现大规模应用。此外,“数信链网”还实现了从芯片、到操作系统、到加密算法、到应用软件的全面国产化,是业内首个具备端到端自主可控性的同类型解决方案。平台在芯片层面深度优化了隐私算法的性能,极大程度解决了安全性与性能不可兼得的难题。图图 9-1 运营商数据交易流通系统架构运营商数据交易流通系统架构数据
331、信链网主要面向电信外部的数据交易以及内部的共享交换需求,同时提供外部接口和外部行业数据做数据交换。整个系统的功能包含以下 5 个功能模块:1、数据确权数据资产登记&所有方登记:唯一标识拥有数据所有权的参与方,参与方可以是机构或人。但应该以交易对象为主。所以本系统直接假设数据所有方是机构。具体机构内不同人的数据确权可以假设机构本身是一个内部的数据网络空间。数据确权:数据确权指确定出某份数据的权属所有方、数据生命周期和数据沿袭。系统将对所有新增数据进行确权并将信息上链存证。2、数据定价价值分析:在数据沿袭过程中,系统将分析上游多个数据源对于下游数据的价值贡献。从而为数据供需方的数据定价提供量化输入
332、。定价模型:对于不同类型、场景的数据,需要使用不同的模型进行定价。系统提供数据定价模型配置功能,根据数据价值分析结果,使用数据定价模型确定上游数据对下游产生的商业价值。3、数据交易数据行为追踪:影响数据生命周期的操作,包括创建、拷贝、删除、更改、ETL 数据等被定义为数据行为。所有发生在数据网络空间中的数据行为均会作为数据交易行为被系统追踪记录。交易行为管理:系统将提供接口给各个边缘节点的数据供需方,用于管理所有的交易行为,包括交易行为的发起、审批、中止等。1184、数据隐私计算数据接入计算:外部数据通过可信执行环境节点,安全合规的接入系统,所有的建模、计算、查询等任务均在可信计算节点中进行,
333、计算过程由物理环境保证不可见,过程数据及原始数据在任务结束后销毁,保证数据不落盘,最终只向任务发起方提供计算结果。5、合规监管日志审计&权限管理:系统提供严格的权限管理,通过角色划分不同使用者,对数据资产登记、交易管理、信息审计等操作进行隔离,并持久化存储用户操作、行为、时间等日志。(四)取得成效1、技术层面融合了丰富的数据需求方资源,协助省分公司快速实现数据变现;构建了包含硬件、云平台、中间件、业务平台在内的完整合作伙伴生态,全面赋能运营商建设“国家一体化大数据中心”;具备了业界领先的区块链结合隐私计算能力,无缝集成运营商区块链基础设施;落地了业界领先的数据确权、存证、定价技术,支撑数据资产运营;2、业务层面建立集团内部各分公司之间的数据共享平台,已经在多个电信省分公司落地实践;解决了分公司之间的的信息共享和协作,将数据共享模式从原本的一事一议且存在泄露风险,优化成数据任务审批制,并通过