《北京金融科技产业联盟:金融业数据应用发展报告(2021-2022)(218页).pdf》由会员分享,可在线阅读,更多相关《北京金融科技产业联盟:金融业数据应用发展报告(2021-2022)(218页).pdf(218页珍藏版)》请在三个皮匠报告上搜索。
1、金融业数据应用发展报告(2021-2022)北京金融科技产业联盟 2022 年 9 月 支持单位 北京金融科技产业联盟秘书处 成方金融信息技术服务有限公司 中国农业银行股份有限公司 中国工商银行股份有限公司 中国银行股份有限公司 中国建设银行股份有限公司 腾讯云计算(北京)有限责任公司 阿里云计算有限公司 上海浦东发展银行股份有限公司 平安科技(深圳)有限公司 中国银联股份有限公司 华夏银行股份有限公司 北京金融资产交易所有限公司 华控清交信息科技(北京)有限公司 华为技术有限公司 同盾科技有限公司 百行征信有限公司 深圳前海微众银行股份有限公司 北京瑞莱智慧科技有限公司 蓝象智联(杭州)科技
2、有限公司 北京数牍科技有限公司 北京冲量在线科技有限公司 目录 第一章 概述.4 1.1.数据的兴起与应用.4 1.2.政策与标准.7 1.3.金融业数据应用发展特点.11 第二章 数据要素价值体系.20 2.1.数据资产体系.21 2.2.数据治理体系.42 第三章 数据能力建设与运营.47 3.1.金融业数据服务建设.47 3.2.金融业数据产品创新.50 3.3.金融业数据运营管理.52 第四章 技术现状与安全防护.69 4.1.数据采集与存储.69 4.2.数据计算.77 4.3.数据分析挖掘.89 4.4.数据可视化.99 4.5.数据安全技术.104 第五章 风险挑战与应对.120
3、 5.1.顶层设计和政策.120 5.2.法律法规与标准.122 5.3.业、技、数的融合.124 5.4.数据资产管理.126 5.5.数据安全与合规.127 第六章 发展展望与保障体系.130 6.1.市场主体发展多元化.130 6.2.数据应用新业态.132 6.3.数据应用保障体系.135 第七章 典型案例.153 7.1.数据要素价值案例.153 7.2.数据能力建设案例.165 7.3.技术现状与安全防护案例.190 1 前言 据国际数据公司 IDC 预测,2025 中国数据量将高达48.6ZB,占全球数据总量 175ZB 的 27.8%,数字化时代已然到来。数据已发展成为当今社会
4、重要的生产要素和战略资产,以数据为核心的数字技术成为驱动技术革命和经济社会发展的新动能。早在 2013 年,习近平总书记就曾指出:“大数据是工业社会的自由资源,谁掌握了数据,谁就掌握了主动权”。2021 年 3 月,十三届全国人大四次会议通过的 国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要中明确提出,要迎接数字时代,激活数据要素潜能,打造数字经济新优势、加快数字社会建设步伐、提高数字政府建设水平、营造良好数字生态,以数字化转型整体驱动生产方式、生活方式和治理方式变革。2021 年 12 月,中国人民银行印发金融科技发展规划(2022-2025 年),指出以深化金融数据要素应用
5、为基础,以支撑金融供给侧结构性改革为目标,以加快推进金融机构数字化转型为主线,将数字元素注入金融服务全流程,将数字思维贯穿业务运营全链条,注重金融创新的科技驱动和数据赋能。为实现数字化转型,金融业采取和落实了一系列措施,主要包括:优化组织架构、打造数据文化与创新基因、强化产学研合作、打造数字化能力等。本次编制的金融业数据应用发展报告即在此背景下展开,一方面介绍近年金融业在数2 据应用方面的主要工作和成果,另一方面希望通过本报告为金融业后续的数据应用发展提供参考和支撑。本报告基于大数据、云计算、人工智能技术与金融业务深度融合的金融科技时代背景,从金融业数据要素价值体系、数据能力建设运营、技术现状
6、与安全防护、风险挑战和发展展望等视角出发,结合金融行业先进实践对大数据应用提升金融业务效能、优化资源配置效率、强化风险控制能力、促进金融创新发展等角度进行了阐述。本报告在北京金融科技产业联盟数据专委会组织下,由中国农业银行股份有限公司牵头,中国工商银行股份有限公司、中国银行股份有限公司、中国建设银行股份有限公司、上海浦东发展银行股份有限公司、深圳前海微众银行股份有限公司、华夏银行股份有限公司、中国银联股份有限公司、成方金融信息技术服务有限公司、北京金融资产交易所、百行征信有限公司、华控清交信息科技(北京)有限公司、平安科技(深圳)有限公司、阿里云计算有限公司、腾讯云计算(北京)有限责任公司、同
7、盾科技有限公司、北京瑞莱智慧科技有限公司、蓝象智联(杭州)科技有限公司、北京数牍科技有限公司、北京冲量在线科技有限公司等机构参与共同编写完成。本报告编写过程中,北京金融科技产业联盟数据专委会成员单位的相关专家对本报告进行了审阅,并提出宝贵建议,在此一并表示衷心感谢。因编写组理论水平和实践经验有限,3 本报告中难免有疏漏和不足,欢迎各单位、专家学者提出宝贵意见和建议。4 第一章 概述 1.1.数据的兴起与应用 随着大数据、云计算、人工智能等新技术的快速发展,这些技术与金融业务深度融合,形成金融大数据,并逐步在金融业务中得到深入应用,推动我国金融业数字化和智能化的转型升级,助力金融更好地服务实体与
8、社会。金融大数据的应用水平已经成为金融企业竞争力的一个核心要素。金融大数据的应用能够有效提升金融业务效能、优化资源配置、强化金融风险控制能力、促进金融业务的创新发展,在银行业、证券行业、保险行业、支付清算行业和互联网金融行业都得到广泛的应用。具体落地应用场景包括信贷风险评估、交易欺诈识别、精准营销、供应链金融、运营优化、智能投顾、量化投研、风险定价、金融反欺诈、反洗钱等不同金融行业的多种具体业务场景。金融数据的来源主要分为三种:一是金融机构业务经营过程中收集和产生的数据,包括金融机构的用户基本信息、用户在机构内金融行为数据等,例如银行中的用户资产负债情况、资金交易记录、信用数据等;二是金融机构
9、通过外部采购或共享获取到的数据,包括来自第三方机构的数据,例如电商、运营商、支付、设备等,以及政务开放数据等;三是金融机构通过互联网获取到的公开数据,例如企业的舆情数据等。这些不同来源的金融大数据通过整合、分析、挖掘等发挥出重要的数据价值。5 金融大数据的主要应用包括金融用户画像、金融统计分析、金融建模等。通过对金融大数据进行分析,可以为金融机构实现精准的客户画像,使得金融机构可以从具体业务角度出发对用户进行分析,更好地了解用户的需求,或更精准地寻找目标用户,此外也可以基于用户画像的深度分析,为开发出适合目标客群的产品提高数据支撑,或是指导开展适合的营销活动。例如在银行中,可以基于银行丰富的交
10、易数据、个人属性数据、消费数据、信用数据、客户数据等,提取出客户的消费特征、兴趣爱好、社交需求、信用等级等大数据客户画像标签,基于这些客户画像可有效地通过实时营销、交叉营销、个性化推荐等来寻找信贷分期客户、高端资产客户、理财客户等不同业务产品的潜在用户,也可以实现客户生命周期管理,包括新客获取、客户流失预防、客户挽回等。通过基于金融大数据的精细分析,可以优化运营。例如通过金融大数据分析可监控不同市场推广渠道,进而调整渠道和优化推广策略;通过对客户行为进行分析,分析出客户的个性特征和风险偏好,智能化分析和预测客户需求,对产品进行创新和服务优化等。此外,金融大数据与人工智能技术深入融合实现智能金融
11、,贯穿金融机构服务的全流程,包括使得金融机构可以优化业务,例如应用生物识别等技术在手机银行、智能柜台等方面,使得业务流程更为精简高效,同时为人们提供更多样性的优质金融服务,应用智能客服提高与客户的沟通效率、6 降低运营成本、提升用户体验。在金融风控场景,通过人工智能系统快速、准确识别金融活动的异常行为;通过量化分析和机器学习模型、深度学习模型等人工智能技术,构建用户信用模型与欺诈风险模型,快速预测用户风险,提升金融机构的风险识别能力与效能;通过人工智能技术学习以往数据规则,利用模型和算法,发现业务数据中潜在漏洞,优化金融风控策略等。在金融精准营销场景,针对不同场景通过人工智能技术构建用户分群模
12、型、个性化推荐模型等,降低金融机构的营销成本,提升营销的效益。在这些金融大数据的应用中,金融行业数据的共享、开放逐步成为趋势,通过跨机构间的数据安全共享,挖掘出更大的金融数据价值。与此同时,对这些跨机构间合作的数据的隐私性、安全性的需求也日渐强烈,数据安全已成为当前金融数据应用的一个重要议题。被认为解决隐私保护、数据安全问题,实现金融数据“可用不可见”的隐私计算技术也逐步运用到金融数据应用中。金融数据广泛分布在不同银行、互联网公司、政府部门等不同机构间,单机构间的数据价值挖掘已经逐渐难以满足多样性金融业务场景的需求,跨机构之间的金融数据共享与价值挖掘已被验证能更好满足多种金融业务场景需求。但近
13、年来国内外各种法律法规的制定与实施,以及人们对于用户隐私和数据安全的关注度的提高,迫使金融机构需要考虑采用新的技术来解决金融数据的跨机构间的合作。目前,学术界和企业界都已经在研究大数据与人工智能、密码学技术的7 融合,探索多方安全计算、联邦学习、可信执行环境等不同隐私计算技术路线的落地应用,在敏感数据或隐私数据不出域的基础下完成跨机构之间的联合计算、联合建模、联合查询等,打破数据孤岛,实现数据的可用不可见,并有效保护数据控制权,挖掘数据价值的同时避免数据的流失与滥用。金融行业作为数字化基础设施最完善、跨机构数据协同需求最高、合规要求最严格的一个行业,必然成为隐私计算技术落地应用的天然场景,也是
14、目前隐私计算技术应用最广泛的领域。金融联合风控、联合营销、存客运营、反欺诈、反洗钱等多种金融应用场景均已开展基于隐私计算技术的应用示范,并获得显著成果,实现了跨机构跨界的金融数据流通,提高了金融机构的风险防范能力和金融业务效能。1.2.政策与标准 金融数据的技术融合应用目前处于加速探索阶段,各种政策、法令法规、标准在近年来相继制定。2019 年 8 月,中国人民银行发布了金融科技领域首份顶层文件金融科技(FinTech)发展规划(2019-2021 年),明确了六大重点任务,包括加强金融科技战略部署、强化金融科技合理应用、赋能金融服务提质增效、增强金融风险技防能力、加大金融审慎监管力度、夯实金
15、融科技基础支撑,为金融科技发展指明道路。其中强调要科学规划运用大数据,打通金融业数据融合应用通道,破除不同金融业态的数据壁垒,化解金融信息孤岛,制定数据融合应用的相关标准规范,8 发挥金融大数据的集聚和增值作用,推动形成金融业数据融合应用新格局。2020 年 4 月,中共中央、国务院正式发布关于构建更加完善的要素市场化配置体制机制的意见,首次把数据作为一种新型生产要素写入文件,与土地、劳动力、资本、技术等传统要素并列为五大生产要素,明确了完善要素市场化配置的具体方向与举措。文件中强调要加快培育数据要素市场,推进政府数据开放共享,提升社会数据资源价值,加强数据资源整合和安全保护,以及制定数据隐私
16、保护机制和安全审查制度。数据作为数字经济和信息技术时代的核心基础,其重要性日益凸显。而金融业作为数据密集型行业,在数据要素时代能够起到很好的行业示范作用,在推动金融科技水平与数字化水平发展的同时可以深入地探索数据要素化的实践经验。2020 年 5 月,中国人民银行与国家市场监督管理总局签署的数据共享合作备忘录,旨在加强跨地区、跨部门数据要素有序流转与融合应用,为加快建立现代中央银行制度、推动金融数字化转型、优化营商环境打好基础,是金融行业落实中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见的一个有力举措。同时,各种数据安全相关的政策法规相继制定和颁发,将保障数据安全放到了重点突出的
17、位置。2015 年 7 月发布实施的中华人民共和国国家安全法首次将数据安全纳入国家安全的范畴。2016 年 11 月发布的中华人民共和国网络安全法(2017 年 6 月 1 日实施)明确了个人信息的定义与9 范畴,并对网络服务中的个人信息保护问题作出系统的规定,鼓励开发网络数据安全保护和利用技术,促进公共数据资源开放,推动技术创新和经济社会发展。2021 年 6 月发布的中华人民共和国数据安全法(2021年9月1日正式实施),从法律层面清晰定义了数据活动、数据安全,提出国家将对数据施行分级分类保护、开展数据活动必须履行数据安全保护义务承担社会责任等,是我国首部以“数据”或“数据安全”命名的法律
18、,被认为是数据要素国家战略的基本法,同时强调了数据安全是数字中国重要战略举措的根本保障,预示我国数据开发与应用将全面进入法治化轨道。2021 年 8 月发布的中华人民共和国个人信息保护法(2021 年 11 月1 日起施行),将“个人信息受法律保护”上升至公民基本权利的层面,明确个人信息处理应遵循合法、正当、必要和诚信原则,在严格保护个人敏感信息的前提下保障信息质量和安全,标志我国数据安全和个人信息保护进入监管新时代。在金融领域,金融数据的广泛应用,与之同时的也是对金融数据的安全与监管的加强,各种面向金融行业的法规与标准相继制定。2018 年 5 月,金融监管机构发布银行业金融机构数据治理指引
19、,明确了金融机构的数据治理架构、数据管理、数据质量控制、数据价值实现、监督管理等要求,引导银行业金融机构加强数据治理,提高数据质量,充分发挥数据价值,提升经营管理水平,由高速增长向高质量发展转变。2021 年 1 月,金融监管机构发布了中国银保监会监管数据安全管理办法(试行),旨在切实加强监管数据安10 全管理,防范监管数据安全风险,要求监管数据在采集、处理、存储、使用等活动(以下简称监管数据活动)中,均应处于可用、完整和可审计状态,未发生泄露、篡改、损毁、丢失或非法使用等情况。2021 年 2 月,中国人民银行发布了金融业数据能力建设指引,规定了金融数据应用中的数据战略、数据治理、数据架构、
20、数据规范、数据保护、数据质量、数据应用、数据生存周期管理能力域划分,明确相关能力项,提出每个能力项的建设目标和思路,为金融机构开展金融数据能力建设提供指引。2021 年 9 月份,中国人民银行发布了征信业务管理办法,在征信领域规范了个人信息保护及信息主体各项合法权益。下一步,人民银行将在确保个人隐私和数据安全的前提下,探索实现更精准的数据确权,更便捷的数据交易,更合理的数据使用,继续激发市场主体活力和科技创新能力。金融行业是数据密集型行业,拥有海量的个人敏感数据,同时也需要使用到这些敏感数据,而这些金融数据应用必须是在满足保护个人隐私敏感信息和确保数据安全的基础上。此外金融数据的应用除了机构内
21、部,往往也需要跨机构间的数据合作,在金融数据监管日渐严峻的当前,金融数据的应用也面临新的挑战,金融机构需要在遵守更加严格的隐私保护条例下,解决数据孤岛、数据隔离的问题,通过联邦学习、多方安全计算等隐私计算技术继续推动金融跨机构间的数据共享与价值挖掘,以安全、可信、可控的方式实现金融数据的融合应用与创新。11 1.3.金融业数据应用发展特点 随着金融业务逐步场景化和线上化,快速响应客户需求成为大数据应用的发展目标。围绕“以客户为中心”的发展原则,金融企业需要从企业级视角结合业务需求对数据应用进行统筹规划,制定统一标准、完善并精简流程、建设底层基础设施、构建一体化服务平台、提升服务能力、质量和速度
22、,实现对数据服务的高效共享和低成本复用,充分发挥企业核心能力,更好地为客户提供优质服务。为了应对新形势下的挑战,金融业纷纷加强数据多元融合、数据资产化、数据安全合规等方面建设,为业务场景提供智能化、实时化、产品化和平台化的数据服务,并不断沉淀提升平台基础能力,助力推进数字化转型任务。下面从数据要素化、数据服务化、能力平台化三个方面对金融业大数据应用发展特点展开介绍。1.3.1.1.3.1.数据价值要素化数据价值要素化 (1)数据多元化。金融业大数据应用呈现多元融合态势,形成金融数据应用融合新格局。一方面,数据要素展现出多元化特点。在数据类型方面,数据应用需求从传统的关系型数据表等结构化数据,逐
23、步扩展到用户埋点等半结构化数据和图像语音等非结构化数据,有力支撑了人工智能(AI)、商业智能(BI)等金融智能应用场景;在数据来源渠道方面,数据应用场景不但涉及金融机构内部多元化数据,更广泛涉及银证保等不同细分领域及工商、海关、税务、电力乃至医12 疗系统等不同行业的外部数据,面临不同行业及领域数据多样化、差异化的挑战。另一方面,数据应用呈现出融合化趋势。通过对多元化数据源进行拼接、汇总、关联分析,能够形成更全面的客户、机构、产品统一视图,能够有效贯通多种类型、多种渠道数据应用壁垒,金融业大数据应用迈入多元融合新阶段。(2)数据资产化。数据通常是指对客观事物进行记录、未被加工的原始素材,是基础
24、生产资料。互联网时代下,具有价值的数据通常具有数据量大、类型多样、更新频繁、价值密度低等特点。随着金融企业数据化战略的推进,数据被运用在众多业务条线,但同时也面临着落地链路长、重复建设、口径差异大等问题,造成了效率低下、资源浪费且很难将数据价值充分发挥出来。为了充分利用数据的价值,企业内部本着业务需求统筹、数据加工路径明确、加工流程准确、数据更新快等原则,从企业级视角出发,协同业务和技术,共同构建企业级数据资产,如辅助企业经营的指标体系、描述客户画像的标签体系、用于多维度分析的多维数据模型、用于关联分析的知识图谱等。数据资产化能够提升数据的价值密度,提高数据共享复用能力,从而能更好地服务公司自
25、身经营决策、优化业务流程,提升公司运营效能,还能形成对外服务的数据商品。(3)数据要素化。大数据应用在金融领域的蓬勃发展,给数据安全治理带来了前所未有的挑战。首先,大数据应用安全重要性越来越高。2020 年 4 月 10 日,中共中央国务13 院关于构建更加完善的要素市场化配置体制机制的意见中,首次将数据定位为新型生产要素,与土地、劳动力、资本、技术并列;2021 年 6 月 10 日,中华人民共和国数据安全法 的颁布,标志我国在数据安全领域有法可依。各种法规、行业标准的密集出台,给大数据应用安全治理提出了越来越高的要求。其次,大数据应用安全风险越来越高。由于大数据应用的特点,数据存储更为集中
26、,价值密度更高,更易被作为攻击对象。此外由于应用形式更多样化,容易造成数据的误用、滥用,甚至泄漏关键敏感数据。再次,大数据应用安全涉及面越来越广。内容和工具方面,从对传统结构化数据的保护,到对非结构化数据的保护,从关系型数据库到各式各样的非关系型数据库,保护的数据形态和数据工具范围在逐渐扩展;流程方面,对数据安全的设计从系统设计阶段,逐渐前移到需求研制阶段,从源头对数据进行分级分类,按需保护。最后,对个人信息的隐私保护越来越完善。保护范围从直接采集的个人数据,逐步拓展到由推断性信息生成的“数字化人格”,此外“隐私计算”等多方安全计算技术的发展,可以对个人隐私提供更完善的保护。1.3.2.1.3
27、.2.数据运营服务化数据运营服务化 (1)服务智能化。在传统 BI 应用的基础上,人工智能技术在金融业有广泛的应用,赋能金融业智能风控、智能营销、智能客服、智能投顾等多个领域,实现领域应用的产品创新、突出成效以及服务升级。在智能风控领域,运用流14 计算、知识图谱、OCR 与设备指纹等多种人工智能技术,结合信贷、反欺诈与异常交易监测等业务领域,支撑线上信贷风险防控、贷后实时风险监测与智能反欺诈等场景,全面提升风控的效率与精度;在智能营销领域,基于用户画像,利用强化学习、深度学习等算法进行模型构建,对客户推出千人千面的精准化营销,从而帮助金融机构与渠道、人员、产品、客户等多个环节互联互通,为平台
28、的消费者提供精准化、个性化的营销推荐服务;在智能客服领域,通过自然语言处理、智能化搜索引擎、OCR 与生物识别技术等多项人工智能技术的融合,使用文本、语音及机器人反馈动作等方式向客户传递信息,构建基于知识图谱的知识管理体系,为客户提供自然、高效的交互体验方式;在智能投顾领域,运用人工智能相关技术,从投资期限、风险偏好以及回报预期等多个维度为客户推出个性化的资产配置方案,同时结合营销咨询、资讯推送等增值服务,有效降低交易成本并提升服务体验。(2)服务实时化。随着互联网的普及和 5G 时代的到来,在线业务和相关应用场景呈现井喷式发展,客户需求瞬息万变、对服务的响应速度更为敏感,常规的离线系统已经无
29、法满足业务发展的需求,金融企业应主动变革去提供优质的实时化服务。目前,金融企业正在逐步推进服务实时化。如:在线业务中,系统能够实时地获取用户的行为,并根据当前的情况推荐最契合用户需求的服务;在风控场景中,系统能够实时地感知用户自身和周边环境的变化,实时地进行交易反欺诈、智能反洗钱、信贷风险监控、信用卡逾期预警15 等风控措施。而这背后依赖实时数据服务系统的支撑,该系统主要包含实时的数据采集技术、多源异构数据的接入方法、灵活敏捷的数据处理流程、低代码甚至无代码的开发模式、简捷的数据发布方式,极大地缩短数据流转链路,提高了数据服务速度,为提供实时服务提供有力保障。实时化服务是快速响应客户需求的关键
30、能力,是金融企业需具备的基础能力。(3)服务产品化。数据服务发展历程中易出现数据孤岛、难于升级、重复建设、标准混乱的服务应用难题。为了解决以上这些问题,业界目前主流的做法分为两类,一类是构建领域模板应用,另一类是构建基于组件化数据服务的低代码平台,其中前者可以视作后者的初级实现形态。领域模板应用解决的是领域内的数据标准统一、数据服务组件场景化的问题,即通过一个典型数据产品将领域内的数据进行聚合,形成数据标准;结合一定场景,完成适用于该领域公共场景的组件封装和数据服务整合,实现从数据、服务、到产品前端展示的整体化服务,使不具备业务含义的数据服务得到深层次的组合加工,降低数据服务使用门槛,使所服务
31、的用户和产品“拿来即用”。当领域模板应用建设到一定程度,所服务的其他数据产品越来越多时,将面临着数据服务模式扩展的问题,即“好的数据服务”如何共享的问题,因而基于组件化数据服务的低代码平台应运而生。低代码平台的特征为微服务、组件化、租户化,通过微服务提供动态缩放的运行环境、通过组件化提供标准化的数据和数据服务、通过16 租户化便于开发的个性化拓展。以开放的低代码应用建设平台,扩大数据标准的建设,扩大组件的范围,使数据服务的共享不局限于某一个业务领域。(4)服务中台化。当前,客户需求呈类型多样、更新频率高、数量大等特点,金融企业面临着无法迅速响应客户快速变化的不确定需求的难题。为了能够低成本、高
32、实效地将企业的核心能力发挥出来,企业需要构建快速低成本的进行业务创新的企业架构,对不同层级的通用能力进行沉淀,并对外能力开放。服务中台化是实现这一目标的有效途径。目前,众多互联网化企业都在构建中台,如:业务中台、数据中台,形成服务中台化。其中,业务中台将企业的核心能力以数字化形式沉淀为各种服务中心;数据中台可将海量数据聚合、治理成数据资产,提供机器学习、深度学习等基本组件,形成数据技术一体化的服务平台,可以便捷地复用中台积累的数据和技术,更迅捷地向客户提供高效服务。数据中台为业务中台提供数据服务,业务中台为客户提供服务并产生新的数据又回流到数据中台,进而更新数据资产,形成“业务数据化、数据业务
33、化”的可持续发展闭环。服务中台化可以实现对企业内部资源高效整合、将业务数据化、数据业务进行有机统一、将企业的核心能力高效输出,是为客户提供优质服务的重要保障。1.3.3.1.3.3.技术能力平台化技术能力平台化 (1)平台交付敏捷化。大部分金融企业的数据平台建17 设到数据中台阶段,如何更快捷的交付数据产品和服务,是金融企业当前亟待解决的问题。下面,从方法论层面和技术层面对平台交付敏捷化建设展开介绍。在方法论层面,拥抱敏捷。一方面,企业推动平台 DevOps 转型,透过自动化“软件交付”和“架构变更”的流程,应用 CI/CD 流水线进行持续集成和持续发布,使得软件的开发、测试、生产和发布流程标
34、准化、自动化,进而实现平台软件的交付敏捷化。另一方面,在全面开展数据开发运营的同时,通过串联各项数据活动,构建标准化的数据服务流水线,探索 DataOps 的落地实践方法,以此提高数据分析的质量,并缩短数据分析的周期,实现数据服务的交付敏捷化;在技术层面,借助云计算。积极推动在云基础架构上运行大数据系统,如在云原生架构下构建数据中台,以容器化的方式部署大数据的基础组件和大数据应用,借助云计算易于配置和部署、弹性扩展、资源隔离等技术优势,实现大数据与云原生架构的融合。各技术平台通过微服务+容器技术,推进数据加工和服务能力的整体上云,通过 Severless 等技术实现灵活编排,支撑动态扩展、快速
35、交付和方便运维。(2)平台能力开放化。数据业务化是数据中台战略的核心目标,专业团队专门维护数据仓库产品的模式无法满足业务快速的变化与大量长尾需求,这要求数据中台在业务化的过程中保持最大程度的开放。目前来看,数据中台通过构建能力开放平台将数据、模型、标签通过 API 形式暴露,来解决后端数据向前端业务应用开放的难题。在数据开放层面,18 数据业务化的过程涉及到数据采集、数据治理、数据聚合、数据服务、运行监控等环节。数据中台为数据开发各环节开发自动化工具,实现数据能力的抽象、共享、复用。同时,借助多租户架构隔离计算与存储资源、控制数据权限,保障各应用租户独立性、严格数据安全管控。最终各要素整合为数
36、据集成开发环境,帮助应用租户自助式的创建数据服务API 满足业务化需求;在模型开放层面,模型业务化的过程涉及到模型训练、发布、反馈迭代三个过程,数据中台向应用租户提供了集成化模型训练平台、统一的模型资产管理服务、MLOps 服务、后评价服务,支撑各类人工智能模型发布为 API;在标签开放层面,用户标签是业务强相关数据,数据中台通过轻量化标签开发模式支持业务部门自助式进行用户标签的创建、维护,并通过 API 系统将标签资产开放给其他业务应用系统。(3)平台自主可控化。金融业数据应用离不开数字化信息系统的支撑,金融信息系统作为国家关键核心信息基础设施,其自主可控能力是保障社会经济稳定发展与国家金融
37、安全的关键因素。信创产业从国家战略层面,为金融业数据应用信息系统实现自主可控指明了方向,成为金融业数字化转型的创新引擎,金融机构目前在积极推动信息系统的自主可控化。平台自主可控化,主要指基础硬件、基础软件、应用软件、信息安全软硬件的自主可控,其中:基础硬件包括芯片、服务器、存储、交换机、路由器等;基础软件包括操作系统、数据库及各类中间件;应用软件包括办公软件、政19 务应用、流版签软件等;信息安全软硬件包括各类终端安全及边界安全软硬件产品。实现金融数据应用全栈国产化替代,重塑金融大数据应用体系,保证金融大数据应用自主、安全、可控,是当前金融业务发展的必然趋势,也是强化金融数据应用能力的必然选择
38、。20 第二章 数据要素价值体系 随着大数据、云计算和人工智能等新一代信息技术的快速发展,数据已成为数字时代的基础性战略资源和革命性关键要素。每一次经济形态的重大变革,必然催生也必须依赖新的生产要素。在数字经济时代,数据将成为新的生产要素,加快推进数据价值化、发展数据要素市场是数字经济的关键。在中国信息通信研究院数据价值化与数据要素市场发展报告中提出了数据价值化的“三化”框架,即数据资源化、数据资产化、数据资本化。数据资源化是指通过采集、整理、聚合、分析等,形成可采、可见、标准、互通、可信的高质量数据资源,使无序、混乱的原始数据成为有序、具备使用价值的数据资源。数据资产化是数据通过市场流通交易
39、给使用者或所有者带来经济利益的过程,是数据要素市场发展的关键与核心。数据资本化主要包括数据信贷融资与数据证券化两种方式,是拓展数据价值的途径,其本质是实现数据要素的社会化配置。数据价值化就是以数据资源化为起点,经历数据资产化、数据资本化阶段,实现数据要素价值化的经济过程。经过近些年的理论研究及实践经验证明数据治理和数据资产管理是实现数据资源化及数据资产化的重要手段,是数据要素价值体系建设的重要组成部分。本章将对金融业数据治理和数据资产管理方法论进行详细介绍,并提供金融业21 数据治理和数据资产管理成功案例,希望能够对金融机构开展数据治理和数据资产管理工作,构建数据要素价值体系提供一些指导建议。
40、2.1.数据资产体系 2.1.1.2.1.1.数据资产分类数据资产分类 2.1.1.1.2.1.1.1.数据资产分类的数据资产分类的概念与价值概念与价值 金融行业的数据资产分类,应当是按照一定分类方式,对数据进行梳理,将不同数据存于相应的目录底下,便于企业数据应用、创造数据价值,并将不同数据带来的收益更加准确地反映到企业财务报告当中。数据分类分级是数据保护工作中的一个关键部分,是建立统一、准确、完善的数据架构的基础,是实现集中化、专业化、标准化数据管理的基础。对数据资产进行分类的价值主要为:(1)形成数据资产目录,有效进行数据管理;(2)便于数据资产检索,方便获取所需数据;(3)实现数据开放共
41、享,释放数据潜在价值。2.1.1.2.2.1.1.2.数据资产分类的数据资产分类的方法方法 2.1.1.2.1.2.1.1.2.1.数据资产分类的构建原则数据资产分类的构建原则 (1)系统性原则 22 数据分类宜基于对机构所有数据的考量,建立一个层层划分、层层隶属、从总到分的分类体系,每一次划分应有单一、明确的依据。数据类目的排列宜依据数据类目主体之间的内在联系,遵循概念逻辑,遵循最大效用原则,将全部类目系统地组织起来,形成具有隶属和并列关系的分类体系,以揭示出机构数据不同类别之间的联系和区别。(2)规范性原则 所使用的词语或短语能确切表达数据类目的实际内容范围,内涵、外延清楚;在表达相同的概
42、念时,保证用于一致性;在不影响数据类目含义表达的情况下,保证用语简洁性。(3)稳定性原则 宜选择分类对象的最稳定的本质特性作为数据分类的基础和依据。(4)明确性原则 同一层级的数据类目间宜界限分明。当数据类目名称不能明确各自界限时,可以用注释来加以明确。(5)扩展性原则 在数据类目的设置或层级的划分上,宜保留适当余地,利于分类数据增加时的扩展。2.1.1.2.2.2.1.1.2.2.数据资产分类的构建方式数据资产分类的构建方式 (1)按数据来源主体分类 23 按照控制数据的主体进行分类为目前最常见且直观的分类方式。(a)个人数据 个人数据一般指与个人相关的信息和行为数据,主要包括个人的可识别数
43、据(包括生物特征数据、姓名、身份证号码、社保号码等)和个人行为数据(包括消费数据、社交数据、位置数据等)。(b)企业数据 企业的数据主要有两种取得方式,其一,为企业在生产经营过程中掌握的有关企业生产、销售的企业自身数据。如:电商平台、支付平台、物流企业、电信企业、金融企业、社交媒体等,大部分的数据来自于用户。其二,是第三方数据中介获取各类数据,加工处理后向数据需求方(企业)直接交付的数据产品或服务。(c)公共数据 政府部门在履行公共管理职能的过程中积累的大量数据。理论上讲,这部分数据中除涉及国家安全、内部机构运行的数据之外,都属于公共数据。(2)按业务分类 参照信息安全技术 网络数据分类分级要
44、求中的资料性附录A.2 金融行业数据分类分级,根据各金融机构所管辖数据类型、特征、规模以及机构特性等因素进行分类分级。24 2.1.1.3.2.1.1.3.金融数据资产分类的实践及问题金融数据资产分类的实践及问题 目前行业内普遍的实践认知,是金融数据资产分类需要建立在金融数据分类分级的基础上。各企业根据业务类别与数据属性,制定相应金融数据资产分类的实践策略。在这个过程中,普遍遇到的痛点如下:(1)金融数据资产的范围圈定 由于金融行业天生的服务属性,在与用户的交互中会产生诸多的用户数据。其中个人用户的基本信息和行为信息等原始数据,与其进行加工后的统计数据,在产权方面是有实质性的不同,其在分类实践
45、中需要逐一甄别。在圈定金融数据资产时,需要企业制定明确的合规要求,以便有效地推进金融数据资产分类。(2)金融数据资产管理的系统建设 在数据分级分类的指导意见下,企业已逐步按照安全分级为横向、业务分类为竖向的基准进行数据系统的相关建设,并按照合规要求,对不同合规等级的数据,从系统权限、安全等级、合规链路等方面进行系统搭建,使整个数据节点成网状结构。这样的结构满足了合规的要求,但对于企业在增加新的数据使用需求时,亦增加了新的数据存储需求与计算节点,对于整个系统的性能亦有了更高的要求。因此,如何在合规的前提下完成高性能的系统运算成为数据治理系统架构的新痛点。这需要从技术层面进行实践创新,为分类后的数
46、据资产顺畅流通做好技术架构设计。25 2.1.2.2.1.2.数据资产目录数据资产目录 2.1.2.1.2.1.2.1.数据资产目录的概念数据资产目录的概念与价值与价值 数据资产目录是以元数据为核心,按照分类、主题等多个视角对本行数据资产进行内容开放共享的目录化管理工具,是数据资产的台账。数据资产目录可以为业务需求场景提供数据内容查询的参考,弥补数据查询需求与现有数据资产内容之间的断层,为经营和管理获取生产资料要素、提升数据查询效率。2.1.2.2.2.1.2.2.数据资产目录建设的方法数据资产目录建设的方法 2.1.2.2.1.2.1.2.2.1.数据资产目录数据资产目录类型类型 数据资产目
47、录可以分为“基础型数据资产目录”和“服务型数据资产目录”两类。基础型数据资产是指依据法律法规和有关规定,并通过各类业务应用系统直接或间接采集、沉淀、加工,或通过第三方引入可重复利用的数据资产。包括但不仅限于:应用系统生产环境中数据、外部引入数据、基于业务管理需求加工的固定报表、指标所包含的数据等。基础型数据资产目录的价值体现在:规范数据标准,保障数据资产质量,快速高效地提供体验良好的数据展现手段,支撑业务部门运营需要。表 2-1 基础型数据资产主要使用角色和场景 主要角色主要角色 角色举例角色举例 主要使用场景举例主要使用场景举例 26 IT 部门运维人员 数据仓库等运维人员 数据模型开发、数
48、据溯源查询 业务运营人员 零售业务部等业务人员 查看分析报表、根据需求取数 数据科学家 大数据开发人员等数据分析团队 查找模型所需数据 服务型数据资产是指将基础型数据资产进行加工后,直接参与可衡量经济价值场景的,以数据分析为驱动的应用。即:算法+场景+基础型数据资产=提炼后信息的组合。服务型数据资产支持多种数据使用模式,提供更为丰富、安全的数据运营管理手段,有助于企业间进行更广泛的数据合作并由此创造价值。表 2-2 服务型数据资产主要使用角色和场景 主要角色主要角色 角色举例角色举例 主要使用场景举例主要使用场景举例 数据运营人员 数据产品等运营人员 企业内部数据产品共享 企业管理者 行内高层
49、管理人员 查看行内数据资产、外部合作 业务人员 各业务条线人员 查看可访问的数据资产 2.1.2.2.2.2.1.2.2.2.数据资产目录的构建原则与方法数据资产目录的构建原则与方法 数据资产目录构建的目标是通过建立统一的数据资产目录和管理流程,让数据资产管理标准化、合规化和透明化,并建立统一、简洁的数据资产管理平台。数据资产目录的设计原则是“可识别”数据资产有什么,“可寻找”数据资产在哪里,“可区分”数据资产是什么,“可衡量”数据资产的数量、价值等指标。27 数据资产目录的体系构建需要以经营管理任务为驱动,支持日益严格的外部监管要求,并且需要结合项目组的专家经验逐步建设整体的数据资产目录体系
50、。图2-1 数据资产目录的构建目标、原则与方法 2.1.2.3.2.1.2.3.金融业数据资产目录建设实践及问题金融业数据资产目录建设实践及问题 对于数据资产目录实践现状,尚存在一些问题需要完善,具体如下:(1)范围方面:目前大多金融企业构建数据资产目录的数据仅包含基础型数据资产,对于服务型数据资产,尚未有统一的规划设计,比如指标、标签、监管类等服务型数据资产,但随着对数据分析和应用的加深,以及企业内各条线、各部门、各分支机构对监管数据的提取、报送、整合等需求越来越多,对服务型数据资产的查询需求量也越来越大。(2)类型方面:随着对于非结构化数据的探索需求日益增加,比如影像类、报告类等非结构化数
51、据,以及为实现内内容容为王,构建与王,构建与优化数据化数据资产目目录框架框架数据数据资产目目录的构建目的构建目标、原、原则与方法工作内容与方法工作内容合理的数据合理的数据资产分分类数据数据资产目目录的的设计原原则数据数据资产目目录的目的目标数据数据资产目目录的体系构建指引的体系构建指引可识别可区分可衡量可寻找数据资产管理标准化、合规化、透明化经营管理任务驱动建立统一、简洁的数据资产管理平台支持外部监管经验结合逐步建设指指导帮助帮助体体现支撑支撑 数据 数据资产目目录设计及及维护方案 方案 数据数据资产目目录建建设方案及方案及实施路施路线设计调研浦发银行现有数据资产目录建设情况,搜集数据资产目录
52、优化需求优化和设计浦发银行数据资产分类框架:从数据角色入手,构建可以满足数据管理者以及数据应用者对数据资产查询和访问需求的多维度数据资产目录体系制定数据资产目录维护机制,定义相关方工作职责和边界,明确数据资产新增、修改、审核、发布、评估、优化和退出等各环节管理要求和使用流程,明确各流程中的要素,设计流程中相关文档的模版28 非结构化数据的管理机制,亟需对非结构化数据进行收集和目录设计,目前大多数金融企业的非结构化数据散落在各个业务系统中,尚没有统一存储和管理非结构化数据的系统和部门。(3)维度方面:数据资产目录最终需要与数据资产盘点结果进行结合形成数据目录体系,结合的数据资产盘点结果通常会包含
53、数据的技术属性和业务属性,技术属性比如类型、长度等,业务属性比如业务定义等,而用数据标准补充资产目录中数据的描述信息,把数据的安全等级附加到资产目录中确保数据安全可控的实践还较少。(4)管理方面:数据资产目录要想长期动态维护和管理并产生价值应该与资产管理工具相结合,而不仅仅只是一张 Excel 清单,比如通过数据资产管理平台,持续进行数据资产目录的动态更新,并按照安全管理规范,对相关角色分配目录数据的查询和使用权限。2.1.3.2.1.3.数据资产定价数据资产定价 2.1.3.1.2.1.3.1.数据资产定价目的与原则数据资产定价目的与原则 2.1.3.1.1.2.1.3.1.1.定价目的定价
54、目的 在金融业,为了更好支持企业数据资产管理体系建设及管理决策,同时亦为了数据作为生产要素在未来市场中更好的交易流通,需要对数据资产这样的无形资产进行价值的评估与定价。29 2.1.3.1.2.2.1.3.1.2.定价原则定价原则 基于数据资产的可复制性、可加工性以及形式多样性等特点,相较于传统资产,需要对数据资产做更为深入的评估界定。根据金融数据资产的属性,本报告针对数据资产定价总结了以下原则:(1)价值相关原则 被定价的数据资产需要独立具备产生价值的能力,同时需要考虑其可切分、可整合等特点,不同数据资产间的整合或单独数据资产的切分都会大大影响其原有资产状态下的价值,需要重新对其价值进行定价
55、。(2)应用相关原则 数据资产具有多样的表现形式,且可复制可加工,在数据的不同形式下,需识别是否为数据资产的相同应用,并就其最终应用场景时的数据单元进行定价。(3)动态适配原则 数据资产与大多数其他资产一样,往往随着时间等其他变量的变化造成价值变动。故而数据资产的定价需要动态的来看待,某一状态下进行的定价不一定适用其在未来的状态。(4)规模相关原则 数据资产的规模亦会对其定价带来影响。在大多数应用条件下,数据资产的规模越大,其应用是所带来的经济边际效益越高。30 2.1.3.2.2.1.3.2.数据资产定价机制数据资产定价机制 2.1.3.2.1.2.1.3.2.1.参与主体与职责参与主体与职
56、责 在数据资产定价体制机制构建过程中,需要凝聚各类主体力量,利用各类主体在数据资产市场中形成的合力来推动数据资产定价在技术和系统等方面的实现和优化。从金融数据资产涉及的相关行业来说,其参与主体主要包括政府部门、金融机构、大型数据企业和中小微企业,他们构成数据资产生产流通和利益分配的参与者,也是数据资产市场体制机制的建设者。政府部门是数据定价的统筹和监管者。政府部门作为顶层设计和战略规划的组织和决策者,要协调各参与方的力量,统筹数据定价机制的总体建设。金融机构是金融数据定价的核心主导。金融机构应充分借助在数字化业务管理系统、开发和应用等数字化转型方面取得的突破性进展,发挥在数据资产定价体制机制构
57、建方面的重要作用。大型数据企业是数据定价的主要力量。大型数据企业应积极配合政府部门和金融机构,助力金融数据资产市场公共设施与平台的构建,并在落实市场规范和监管要求等方面发挥带头作用。中小微企业是数据定价的积极参与者。中小微企业应借助公共系统平台或产业链、供应链生态参与到数据资产交易,31 不断反馈自身诉求,为数据资产定价机制的施行提供全面的实践基础。2.1.3.2.2.2.1.3.2.2.定价机制定价机制 数据资产的定价可以分成数据资产估值与数据资产定价两个阶段。(1)数据资产估值 金融机构或大型数据企业在进行自身数据资产估值时,可借通过专业的数据资产评估机构或先进的数字化评估系统,对自身的数
58、据资产进行价值评估。同时,由于数据资产的特殊性,如具有可复制性、数据可用效果的不确定性等,数据资产估值过程中,除了要以利于数据要素市场化流通利用为目的,也要考虑数据资产的权属、质量和安全性等方面的不可控进行评估。(2)数据资产定价 经过数据资产估值后,金融机构、大型数据企业将基本形成对自身数据资产的价值理解。但是数据资产要在市场上流通,要转移数据资产的使用权,并让其他数据交易活动的参与方加入其中,仅靠模糊的数据资产估值是不够的。因此,数据资产的卖方,如金融机构、大型数据企业,应该在政府相关机构的监督下,在充分考虑了中小微企业等数据买方的合理需求的前提下,根据政策要求和市场的供需情况,形成自身数
59、据资产的报价。32 2.1.3.3.2.1.3.3.数据资产定价方法数据资产定价方法 对于数据资产的定价可以在参照传统资产的定价的基础上,除了考虑到买卖双方的经济利益的最大化,还要结合公平分配、无套利、隐私保护和计算效率等因素,基于多种因素的融合或取舍。关于数据资产的定价方法,大致可以分为以下三种:(1)基于传统会计学知识的数据资产定价方法。通过使用货币度量的方法,如收益法、成本法和市场法等对不同类型的数据资产进行定价。但是,基于传统会计学进行数据资产评估的方法并没有考虑到数据资产自身的特殊性,所以可能会低估数据资产的价格。(2)基于信息熵的数据资产定价方法。信息熵是与数据资产买家关注的某些事
60、件发生的概率相关的相对数量。基于信息熵的定价通过对数据资产的元数据的隐私信息含量、被使用次数、历史供给价格、效果权重等因素的结合,可以对数据资产进行动态定价。(3)基于数据价值的数据资产定价方法。根据数据资产价值的多个维度,如数据成本、数据质量、数据稀缺性等,兼顾卖方、买方和数据资产本身的核心关注点进行资产定价。不同的数据资产买方拥有不同的风险接受程度、数据种类偏好、数据处理成本和变现能力,需要就他们对于数据资产的定价进行差异化的制定。33 2.1.3.4.2.1.3.4.数据资产估值理论方法数据资产估值理论方法 数据资产相比传统实体资产、无形资产等具有自身特殊性,需要对数据资产自身包含的使用
61、价值、未来的潜在价值、数据的复制损失成本等进行考虑。因此,需要将传统资产的使用货币度量的估值方法与无形资产的非货币度量的估值方法相结合进行综合应用。2.1.3.4.1.2.1.3.4.1.货币度量估值方法货币度量估值方法 货币度量的估值方法以传统资产评估方法为代表,主要包括成本法、收益法以及市场法三大类。(1)成本法 数据资产的成本法是对数据资产进行生产或购置时所需的全部成本进行统计的一种评估方法,包括数据资产的采集、传输、存储、处理等各系统的建设费用和运维费用。对于历史数据的成本评估也应按照当前生产情况进行确定,即在现实条件下重新生产一批该数据资产,所需的全部成本减去评估对象的实体性陈旧贬值
62、、功能性陈旧贬值和经济性陈旧贬值后的差额。(2)收益法 数据资产的收益法是通过估算数据资产的使用价值以及可能产生的经济收益,并将使用价值和预计收益折现作为评估资产价值的一种方法。数据资产的使用价值和预计收益受诸如企业背景、政策因素等在内的众多因素的影响,存在34 很大程度的不确定性,因此需要清晰把握数据资产与企业经营收益之间的关系,并对所伴随的风险价值进行预测。(3)市场法 数据资产的市场法是按市面上同等的数据资产的现行市场价格为参照,通过比较被评估的数据资产与参照的数据资产之间的差异并加以分析评估。由于市场法采用了比较和类比的思路估测数据资产的价值,因此需要有一个充分发育、活跃的数据资产市场
63、,另外就是作为参照物的数据资产与被评估的数据资产之间具有可比较的参数等信息是可搜集到的,否则市场法模型将难以应用。2.1.3.4.2.2.1.3.4.2.非货币度量估值方法非货币度量估值方法 数据资产的非货币度量法有从数据的内部特征,如数据资产的正确性和完整性等方面进行度量的内部价值(IVI,Intrinsic Value of Information)模型,有从数据资产对业务的实际使用效用方面进行度量的业务价值(BVI,Business Value of Information)模型,还有从数据资产对业务目标的实现和影响方面进行度量的绩效价值(PVI,Performance Value of
64、 Information)模型。(1)内部价值模型重点考虑了数据资产的内在价值,强调数据资产的正确性、完整性、其他组织获取该数据资产的可能性以及数据可使用的时长。内部价值模型的优势在于其重视数据本身的相关因素,具有专有特性或排他特性的高质量数据资产会具有更大的内部价值。35 (2)业务价值模型考虑了数据资产与业务的相关性,能够描述数据资产对于组织业务收益的支撑,但评估数据资产是否与业务相关具有一定的主观性。业务价值模型可以方便的快速了解数据在对业务影响的潜在好处,适用于探索分析目前未被使用的数据资产的业务价值。(3)绩效价值模型从数据资产对组织业务的关键性能指标(KPI)的影响角度出发,通过分
65、析在使用了数据资产前后组织的 KPI 的前后的差异来描述数据资产在企业的生产运营过程中发挥的作用。绩效价值模型属于一种滞后的数据价值度量的指标,无法在数据被使用之前或者使用过程中对其价值进行评估。(4)综合法模型是针对数据资产的特点,然后就资产估值的目的,综合考虑多方的影响因素和影响程度而构建相应模型的评估方法。综合法评估模型需要数据资产的所有者结合企业自身数据指标的丰富度,以及对数据的关注点和管控重点,自适应得对计算因子和计算权重进行调整和优化,针对组织的自身数据资产情况、业务情况等定制化地构建评估模型。2.1.3.5.2.1.3.5.数据资产定价模型数据资产定价模型 通过采用合理的数据资产
66、定价机制,并依据适当的估值理论和定价方法,金融数据资产应建立科学的定价模型来实现数据的价值显化,以便能够相对准确的反映数据交易市场中数据资产预期收益率与风险数据资产之间的关系。目前对36 于金融数据资产的定价模型参照实体资产定价模型大致可以分为两大类,一类是基于经济学的定价模型,另一类是基于博弈论的定价模型。(1)基于经济定价模型(a)成本模型:数据资产的成本包括数据的生产、分析、维护等活动开展过程中的开发、人力等可变成本,也包括计算、存储数据所需的场地、设备、能源等固定成本。成本模型只考虑生产数据资产的内部因素来决定价格,结构简单。(b)供需模型:根据数据资产在交易市场中的供需关系来进行价格
67、描述,通常存在两个线性方程分别来进行资产的供需情况的刻画。通过对供需方程进行联合分析可得出市场对于数据资产供需的平衡点,由此可分析当前阶段对于数据资产的供需关系,从而进行价格调整。(c)差异定价模型:根据数据资产的不同维度属性,以及潜在消费者的不同需求,制定具有差异的数据定价,以满足数据交易市场的不同客户需求,如从时间维度上提供过去三年的数据,从数据量上提供 500MB 的数据等。(2)基于博弈论的定价模型 在数据资产交易的相关活动中,交易的参与方之间存在着合作和竞争的关系,各方都将在考虑对手行为的前提下进行博弈,并从获取自身利益最大化的角度出发,采取相应最有利的策略来实现价值预期,包括显性的
68、货币报酬,也包括隐形的交易者的心理感受。博弈定价的模型可以有非合作博弈、斯塔克伯格(Stackelberg)博弈、讨价还价博弈等。37 2.1.3.6.2.1.3.6.数据资产定价当前问题和挑战数据资产定价当前问题和挑战 数据资产定价涉及的影响因素多样,这些因素一方面由于受限技术和理论的发展目前难以被量化,无法准确地参与到数据定价的计算过程中,另一方面也受限于数据资产相关的其他问题未被解决而难以开展定价活动。这些问题和挑战可能包括:(1)数据资产权属问题。数据只有在明确了权属关系后,包括数据的所有权、使用权、转让权等,才能变成数据资产。而由于数据被复制的成本相对生产成本来说极低,易被复制和传播
69、也就容易造成数据使用者损害数据拥有者权益的情况变得普遍。这些数据权属的问题目前在法律和法规上都还未给出有效的界定和解决办法,将极大限制数据资产的定价。(2)数据资产计量问题。无论从评估数据资产的成本角度,还是作为资产进行交易的角度,数据资产都需要有统一的单位能够进行计量,单独通过数据资产的数量大小、特征数量、记录条数等来衡量都不能准确地反映数据的价值,造成对于数据资产定价的不准确或具有主观性。(3)数据资产应用价值问题。数据资产应用价值是定价者站在从数据使用者的角度和围绕当前的数据资产可以开展的业务及规模、收益等出发。从资产应用价值出发,能够更贴切市场进行数据价值的制定,但是需要定价者具备丰富
70、的市场经验和洞察力。38 (4)数据安全问题。数据交易行为是否能够被批准进行,严格受到法律法规和相关政策的约束,未经法律法规允许的,即便数据资产具有非常高的价值也应禁止交易。数据安全问题一方面由于法律法规和政策等具有不明确性,另一方面需要交易活动的参与方积极主动地进行数据安全保障和投入,这些安全的投入程度对数据定价有着重要影响。2.1.4.2.1.4.数据资产全生命周期管理数据资产全生命周期管理 2.1.4.1.2.1.4.1.数据资产全生命周期管理的理论方法数据资产全生命周期管理的理论方法 数据资产全生命周期管理是用于组织数据资产的设计良好的框架,根据大数据的特点提出一种适用于数据资产管理的
71、全生命周期模型,提出新的数据管理要求,从而推动数据生产、使用、治理,实现效益最大化。数据资产全生命周期分为“四大时期”。四大期间包括数据资产生成的“入”期、数据资产保存的“存”期、数据资产应用的“用”期和数据资产退出的“出”期。四大时期涵盖多个阶段,包括数据规划计划、数据标准定义、数据采集、数据传输、数据存储、数据处理、数据共享、数据发现、数据分析应用、数据归档销毁等。区别于数据生命周期管理,数据资产生命周期管理以数据资产效益最大化为目标,还包括数据资产全生命周期成本核算、数据资产价值评估、数据资产变现、数据资产活性分析和数据资产投资收益分析等方面。39 2.1.4.2.2.1.4.2.数据资
72、产全生命周期管理的主流模型数据资产全生命周期管理的主流模型 (1)DAMA 模型 DAMA(国际数据管理协会)认为有效的数据管理开始于数据获取之前,企业应先制定数据规划,定义数据规范,然后再进行开发实施、创建和获取、维护和使用、存档和检索,最后是清除。(2)地理空间模型 地理空间数据生命周期模型由联邦地理数据委员会(FGDC)支持。该模型旨在为地理和相关空间数据活动探索和保存有价值的信息,模型总结了地理空间数据生命周期的各个阶段,包括定义、清点/评估、获取、访问、维护、使用/评估和归档。处理此模型是为了发现具有可接受的质量和业务需求的数据以供将来使用。(3)DataONE 模型 DataONE
73、 模型由美国国家科学基金会(NSF)资助。该数据模型旨在为生物和环境科学研究提供数据保存和再利用,数据生命周期包括收集、保证、描述、存放、保存、发现、集成和分析,可用于存储和检索长期使用的信息。(4)DDI 模型 数据文件倡议(DDI)是大学间政治和社会研究联合会(ICPSR)的一个项目,DDI 试图为社会科学数据资源的描述生成元数据规范。所提供的模型包括八个元素,包括研究概念、数据收集、数据处理、数据存档、数据分发、数据发现、数据分析和重新调整用途。40 2.1.4.3.2.1.4.3.金融数据资产全生命周期管理的实践和问题金融数据资产全生命周期管理的实践和问题 2.1.4.3.1.2.1.
74、4.3.1.金融数据资产全生命周期管理的实践金融数据资产全生命周期管理的实践 (1)数据资产管理的组织方式 数据资产管理在“统筹规划管理实施稽核检查资产运营”四个阶段的方法策略执行参照下,还可以根据两个思考维度,选择一些常用的实践模式。其一是组织方式,有自上而下的顶层设计模式和自下而上的各个击破模式两种类型;其二是建设策略,有生产系统优先和数据系统优先两种类型。企业数据资产管理的组织方式主要包括自上而下和自下而上两种方式。如果企业将数据资产管理纳入战略规划,且企业的高层拥有较大的决策权,可以采用自上而下的组织方式,结合企业业务发展目标制定长远的数据资产管理规划。如果企业的数据管理部门具有一定的
75、独立性,并且具备专业技能和相关经验,可以采用自下而上的组织方式,以探索数据资产管理需求为驱动力,通过问题导向,推动企业数据资产管理的逐步完善。(2)数据资产管理的切入方式 在建设策略方面,一般从生产系统入手或数据系统入手。从生产系统入手的常用建设模式包括企业数据模型建设模式以及主数据建设模式,从数据系统入手的常用建设模式包括统一数据平台模式和数据集市模式。41 企业在选择不同建设策略的时候,可以考虑数据对于企业的重要性以及企业目前对于数据的管理水平。如果数据是企业重要的业务资源,同时企业已经具备了一定的数据管理专业水平和经验,可以通过从数据系统入手的实施方式,通过修复数据管理漏洞、提升数据服务
76、应用水平,推进数据管理能力建设。如果企业的数据管理水平并不成熟,那么选择直接从数据管理系统入手有些冒险,而从业务系统入手则较为稳妥,也易见成效。2.1.4.3.2.2.1.4.3.2.三大挑战三大挑战 (1)金融数据资产全生命周期管理体系有待进一步健全 数据资产管理最重要的成功要素之一就是重视组织管理的作用,将责权利清晰化,逐步建立健全包括管理型人才和技术性人才的适应数据发展的人才结构,减少工作推进阻碍。数据资产管理的核心目的是有效综合运营数据以服务企业,让数据成为利润中心的一部分,这离不开管理,更离不开技术。在金融数据资产全生命周期管理的实践中,很多金融企业数据资产管理和企业综合运营分离,技
77、术架构与数据资产全生命周期管理结合较弱,没有充分发挥数据资产全生命周期管理的优势。(2)进一步释放数据价值需要始终聚焦于业务应用 数据资产化进程给各类企业带来重生、颠覆和创新,企业应重点关注、顺势而为,建立起符合自身业务和数据特点42 的数据资产化体系和能力,数据资产管理人员不能只限于数据资产管理工作,还应紧密联系业务,只有明确了前端业务需求,才能做到数据资产管理过程中的有的放矢,张弛有度。数据的价值体现在决策精准、敏锐洞察,数据资产管理能够使管理具流程化、规范化,结合业务应用的数据资产管理不仅使数据保值增值,还将会给企业带来更加巨大的经济效益和社会效益。(3)数据资产全生命周期管理是否成功取
78、决于企业商业模式 人工智能、区块链、隐私计算等前沿技术正在大数据的推动下蓬勃发展。然而,在实现数据资产管理的过程中,应根据自身实际情况,避免盲从,合理引进创新技术以提高数据挖掘准确性和挖掘效率,节省人力成本。信息时代万物数化,企业拥有数据的规模、活性以及收集、运用数据的能力,决定其核心竞争力。数据资产全生命周期管理的成功与否还是要取决于企业自身商业模式的建立,以数据融合技术为战略资产的商业模式,可以决定企业未来。2.2.数据治理体系 2.2.1.2.2.1.数据治理基本框架数据治理基本框架 金融业数据治理是指金融机构通过建立组织架构,明确董事会、监事会、高级管理层及内设部门等职责分工,制定和实
79、施系统化的制度、流程和方法,确保数据统一管理、高43 效运行,并在经营管理中充分发挥价值的动态过程。金融机构应当将数据治理纳入公司治理范畴,建立自上而下、协调一致的数据治理体系。2.2.1.1.2.2.1.1.基本原则基本原则 全覆盖原则。数据治理应当覆盖数据的全生命周期,覆盖业务经营、风险管理和内部控制流程中的全部数据,覆盖内部数据和外部数据,覆盖监管数据,覆盖所有分支机构和附属机构。匹配性原则。数据治理应当与管理模式、业务规模、风险状况等相适应,并根据情况变化进行调整。持续性原则。数据治理应当持续开展,建立长效机制。有效性原则。数据治理应当推动数据真实准确客观反映金融机构实际情况,并有效应
80、用于经营管理。合规性原则。数据治理应当符合国家、行业法律法规和金融机构自身的内部规章制度中对数据的相关要求。2.2.1.2.2.2.1.2.组织架构组织架构 有效的组织架构是数据治理成功与否的有力保证,数据治理组织架构包括董事会、监事会、高级管理层、数据治理归口管理部门、各业务部门等在数据治理工作中的定位与分工。44 2.2.1.3.2.2.1.3.数据管理数据管理 数据管理是指通过制定和实施系统化的制度、流程和方法,对数据进行管理,包括但不限于数据规范、数据架构、数据需求、数据质量、元数据、数据安全、数据变更、数据生命周期、数据档案和资料管理等工作。2.2.1.4.2.2.1.4.数据质量控
81、制数据质量控制 数据质量控制是指确立数据质量管理目标,通过建立控制机制,确保数据的真实性、准确性、连续性、完整性和及时性。2.2.1.5.2.2.1.5.数据价值实现数据价值实现 数据价值实现是指围绕风险管理、业务经营、内部控制等经营管理目标,加强数据应用,实现数据驱动,提高管理精细化程度,发挥数据价值。2.2.2.2.2.2.数据治理的组织架构数据治理的组织架构 金融机构应当建立组织架构健全、职责边界清晰的数据治理架构,明确董事会、监事会、高级管理层和相关部门的职责分工,建立多层次、相互衔接的运行机制。金融机构董事会应当制定数据战略,审批或授权审批与数据治理相关的重大事项,督促高级管理层提升
82、数据治理有效性,对数据治理承担最终责任。45 金融机构监事会负责对董事会和高级管理层在数据治理方面的履职尽责情况进行监督评价。金融机构高级管理层负责建立数据治理体系,确保数据治理资源配置,制定和实施问责和激励机制,建立数据质量控制机制,组织评估数据治理的有效性和执行情况,并定期向董事会报告。金融机构应当确定并授权归口管理部门牵头负责实施数据治理体系建设,协调落实数据管理运行机制,组织推动数据在经营管理流程中发挥作用,负责监管数据相关工作,设置监管数据相关工作专职岗位。业务部门应当负责本业务领域的数据治理,管理业务条线数据源,确保准确记录和及时维护,落实数据质量控制机制,执行监管数据相关工作要求
83、,加强数据应用,实现数据价值。金融机构应当在数据治理归口管理部门设立满足工作需要的专职岗位,在其他相关业务部门设置专职或兼职岗位。2.2.3.2.2.3.数据治理的制度建设数据治理的制度建设 制度建设是数据管理和数据应用各项工作有序开展的基础,是数据治理的依据。金融机构应当制定全面科学有效的数据治理制度,及时发布并定期评价和更新。构建金融机构数据治理制度体系,首先应符合监管要求和本机构的数据战略,其次应充分结合数据治理组织架构与46 管理现状,体现、贯彻和落实数据治理顶层设计要求,逐步将数据治理体系纳入本机构的管理实践中。根据数据治理相关制度的定位、重要程度、管理范围,可分为基本规章、专业管理
84、办法、操作规程。数据治理基本规章是最高层次的数据治理政策,是指对数据治理活动做出原则性、导向性、纲领性规范要求或提出标准的制度,具有普遍约束性,是其他数据治理类制度的制定依据。数据治理专业管理办法指对数据治理某一专业领域活动的管理流程、管理方式、职责分工、风险控制等进行规范的制度。数据治理操作规程指对数据治理某个系统运行、某项处理流程及管理活动的具体操作进行规范的制度,是对某项数据治理专业管理办法的进一步细化。2.2.4.2.2.4.数据治理的发展方向数据治理的发展方向 金融机构要充分认识数据治理工作的难度和挑战,从企业级视角进行顶层设计,从组织架构和数据规范、质量、安全、价值挖掘、共享应用、
85、保障机制等方面提升数据治理能力和数据价值创造能力,通过普及数据文化培养员工数据素养,建立一套强有力的推进机制,夯实数据这一关键生产要素基础,实现数据对数字化转型的赋能。扎实推动数据治理,保障数字化转型。制定数据标准规范,持续提升数据质量。47 搭建企业级数据复用和智能分析创新平台,促进机构内外数据融合共享。构建快捷、易用、多样的数据服务能力。推动数据资产管理能力建设。制定数据安全策略,强化数据风险管控。提升数据思维能力,普及数据文化。第三章 数据能力建设与运营 3.1.金融业数据服务建设 3.1.1.3.1.1.数据服务能力地图数据服务能力地图 数据服务实质是众多独立离散的数据功能的大集合。可
86、以修改、整合、共享或计算数据存储卷中所收集和保存的信息。数据服务可以通过提高传统数据的弹性、可用性和有效性,并为其本身没有的数据(例如元数据)添加相应的特征,从而增强传统数据的价值,使数据对用户和程序而言更有用。数据服务是软件功能的独立单元,可提供其尚不具备的数据特征。数据服务功能是将数据输入变成输出的过程。输入是指各种原始数据集,以原生格式进行配置,并保存在物理、虚拟或基于云端的存储卷中。而输出通常是指:(1)可整理:数据的合并、批处理和结构化,通常是从结构化(数据库)、半结构化(数据仓库)或非结构化(数据湖)源中提取数据。48 (2)可传输:数据从初始位置经过网络移动到应用或平台。(3)规
87、程化:数据的处理,通常是作为数据建模、分析或机器学习软件的一部分。3.1.2.3.1.2.数据服务标准建设数据服务标准建设 数据标准是一套由管理制度、管控流程、技术工具共同组成的体系,通过这套体系来推广和应用统一的数据定义、数据分类、记录格式和转换、编码等,实现对数据的标准化,保障数据定义和使用的一致性、准确性和完整性的规范性约束。技术类应用标准用于指导金融行业开展数据接口服务类的大数据基础平台建设。在技术类标准的编制过程中,一方面,可参考工信部正在编制的大数据技术标准体系,设计基础平台架构;另一方面,结合金融行业在数据安全和业务连续性等方面的要求,提出大数据应用的技术规范和安全规范。数据服务
88、的标准建设应从数据治理、数据架构、数据规范、数据保护、数据质量、数据应用等方面对金融行业数据服务设立行业规范。金融数据服务的标准建设应遵循用户授权、安全合规、分类施策、可用不可见四大原则。金融数据服务也需在数据分布方面制定服务标准。数据分布采取的工作措施包括从企业层面对数据分布关系制定统一的管理系统,统一数据分布关系的表现形式和管理流程。49 通过数据分布关系的梳理,优化数据的存储和集成关系。实现数据分布关系管理流程的自动优化,提升管理效率。3.1.3.3.1.3.数据服务能力评估体系建设数据服务能力评估体系建设 IT 相关的成熟度模型,国际上有几套标准:COBIT5、Gartner I&O
89、ITScore、CMMI。Gartner 的 I&O ITScore 从运维和基础架构的层面对成熟度做了分级,主要帮助 IT 管理者从人员、流程、技术和商业管理上四个维度上评估 IT 能力的成熟度。COBIT5,他的特点是将治理(董事会)与管理(CEO)分开,他的核心是治理层通过对现有业务和 IT 机构进行审计和评估,然后给出改进建议,也就是说,COBIT 面向层级更高,是董事会层面。CMMI 是对于软件组织在定义、实施、度量、控制和改善其软件过程的实践中各个发展阶段的描述。国标的 IT 服务能力成熟度评估模型借鉴了国际上多套通用标准框架后,对数据中心服务能力进行归类、聚合、分域与分解后,便得
90、到数据中心完整的服务能力框架。在国标体系下,提升数据服务能力成熟度的方法主要分成四大步骤:需求分析、规划设计、部署实施、评估改进。此外,全国信标委研制了数据管理能力成熟度评估模型,即 DCMM 国家标准,旨在通过贯标评估,引导企业建立数据管理体系,提升数据管理能力,最大限度释放数据红利。数据管理能力成熟度评估的依据是国家标准 GB/T 36073-2018数据管理能力成熟度评估模型,该标准借鉴了国际上数据管理理论框架和方法,在综合考虑国内数据管50 理情况发展的基础上,整合了标准规范、管理方法论、数据管理模型、成熟度分级等多方面内容。3.2.金融业数据产品创新 3.2.1.3.2.1.数据产品
91、数据产品创新浪潮创新浪潮 数据资产兼有无形资产和有形资产、流动资产和长期资产,数据的价值来源于汇集、流通及运用。考虑到这些特征,根据经典的 DIKW(Data数据、Information信息、Knowledge知识、Wisdom智慧)理论,数据、信息、知识和智慧之间存在逐级递升的关系。数据被记录、存储后,经过清洗、聚合、计算等手段,形成更高阶的数据,即信息、知识和智慧。据国家网信办最新发布的数据显示,2021 年中国大数据产业规模已突破 1.3 万亿。企业通过对大数据的分析、利用,能够很好地帮助企业将庞杂的大数据转化为有用的知识,进而实现数据产品的创新。企业采用创造新产品能更好地满足客户需求,
92、且能够带来技术跃迁和市场颠覆,其商业价值在于从庞杂数据中获取新见解,为组织带来竞争优势。由此可见,数据新产品的开发已成为企业获取市场竞争优势的重要载体。3.2.2.3.2.2.数据产品创新的方法论数据产品创新的方法论 随着大数据、云计算、物联网、隐私计算、区块链等信息技术的迅猛发展,以及企业内外部环境变化和消费者需求51 变化,数据产品创新与先进技术和金融业务深入融合。坚持技术导向与市场导向,有助于科学研判,准确把握数据产品创新新方向,解决关键性问题。数据要素成为社会基础性战略资源,科技发展也蕴藏着巨大潜能,两者与传统金融业务深度结合,能有效提升服务效率,进行服务模式变革。3.2.2.1.3.
93、2.2.1.技术导向与市场导向技术导向与市场导向 随着大数据、云计算、物联网、隐私计算、区块链等信息技术的迅猛发展,以及企业内外部环境变化和消费者需求变化,数据产品创新与先进技术和金融业务深入融合。坚持技术导向与市场导向,有助于科学研判,准确把握数据产品创新新方向,解决关键性问题。数据要素成为社会基础性战略资源,科技发展也蕴藏着巨大潜能,两者与传统金融业务深度结合,能有效提升服务效率,进行服务模式变革。3.2.2.2.3.2.2.2.学习导向与迭代创新学习导向与迭代创新 通过持续学习来不断获取信息技术方面的新知识,进而通过快速试错的迭代创新方式,不断将新技术知识应用于数据新产品开发中,不断开发
94、出新的数据产品,这是目前数据产品创新广泛应用的方法。3.2.2.3.3.2.2.3.愿景导向与开放心智愿景导向与开放心智 坚持愿景导向有助于大数据企业明确其目标和使命,以努力达成其共同愿景,促进企业不断完善健全制度机制并寻52 找合理方法,两者结合促进数据产品创新团队积极主动解决问题。在敢于质疑、敢于采用新技术的同时,数据产品的创新要持续坚持以用户价值为依归、智慧为民、科技向善、公平普惠,切实增强人民群众的获得感和幸福感。另一方面,促使企业不断完善健全制度机制并寻找合理方法,为数据产品的创新提供更适合的企业内部环境。3.2.2.4.3.2.2.4.风险意识与监管科技风险意识与监管科技 数据产品
95、创新要始终践行安全发展观,时刻考虑风险意识,创新的同时为金融业健康发展提供坚实保障。坚持促进创新与防范风险相统一、制度规范与自我约束相统一。事前运用大数据、人工智能等技术识别潜在风险点和传导路径,增强风险管理前瞻性和预见性;事中厘清关联关系、研判变化趋势,实现对高风险交易、异常可疑交易等事件的动态捕捉和智能预警;事后通过数字化手段实施自动化交易拦截、漏洞补救等应对措施,推动监管科技相关的数据产品创新。3.3.金融业数据运营管理 数据资产的运营体系,可以从数据资产与产品化运营、组织体系运营两个方面展开。其中,在数据资产与产品化运营方面,包含以下五点:(1)定义数据资产运营目标;(2)建立数据产品
96、服务目录,定义数据产品服务水平要求;53 (3)建设数据资产平台,实现数据资产和数据产品的持续供给;(4)建立数据资产和数据产品价值评估框架,并使用此框架进行周期性的价值评测;(5)打造覆盖数据资产采、建、管、用的数据资产管理体系,实现闭环的数据运营体系。3.3.1.3.3.1.数据运营体系建设现状及目标数据运营体系建设现状及目标 3.3.1.1.3.3.1.1.数据运营的现状分析数据运营的现状分析 当前,金融机构正处于数字化转型的深水区,尤其是2020年新冠肺炎疫情的突发和国内外经济形势的错综复杂,促使金融机构金融科技加快向数字化、智能化、服务化演进。数据资产作为数字化转型的载体,正在社会生
97、产过程的各个环节发挥作用。2020年4月9日,中央正式将数据作为生产要素写入文件中,提出加速培育数据要素市场,推进数字经济高效发展。数字化转型对金融行业的传统数据管理和运营理念,乃至数据应用模式产生颠覆性冲击。金融机构要具备哪些核心数据资产管理和运营能力,为数据赋能业务、发挥数据价值提供有力保障和基础,成为金融机构无法回避和亟待解决的重大课题。54 3.3.1.1.1.3.3.1.1.1.金融机构数据资产运营现状金融机构数据资产运营现状 金融机构在数据管理向数据资产管理与运营的转型中,其数据政策、管理手段、运营模式在大数据时代的浪潮下不断修正与重塑,已经从简单的支持经营分析与业务决策向推动业务
98、创新、资源整合应用以及数据价值变现方向跨越,并根据自身特色开展数据资产管理与运营实践。随着金融行业与各行业融合度不断加深,金融机构数据规模急剧增大,数据不断衍生,数据类型不断丰富,金融机构加速向数字金融、网络金融、智能金融方向推进。在此环境下,金融机构以管理驱动的数据战略导向亟待转变,寻求可持续、价值型的数据发展成为必然选择,以价值为导向的数据资产运营正是实现这一转型的有力工具。3.3.1.1.2.3.3.1.1.2.数据资产运营创新要素数据资产运营创新要素 金融科技创新。数据赋能金融机构数字化转型是大数据时代的必然选择,金融机构基于数据要服务什么客户,采取什么服务模式,支持什么业务产品,决定
99、了其在数据资产管理与运营上的需求是什么。金融机构首先要明确数字化转型的战略方向,战略方向确定后,数据资产管理与运营工作可以金融科技战略为指导,构建相应的数据治理体系。数据治理创新。在金融科技的战略目标和体系框架下,明确支持金融科技战略目标实现的数据治理总体框架,开展数据治理的重构和变革。55 数据资产管理与运营模式创新。基于数据治理的框架,在数据内容、系统平台和流程机制三个维度进行细化和落地,将数据作为资产进行管理,将释放数据价值作为目标进行运营,开启数据资产管理与运营的新模式。3.3.1.2.3.3.1.2.数据资产运营目标数据资产运营目标 数据资产是企业、组织拥有或控制,能够带来未来经济利
100、益的有效数据资源。数据资产运营是把数据当做资产,是企业数字化转型的核心驱动力。通过围绕数据的收集、治理、加工、分析和挖掘,在满足合规的前提下,促进数据流通、开放与共享,同时对数据资产进行评估,为企业和组织带来经济收益。高质量、可信、准确的数据是数据资产运营的基础。数据资产运营的对象是数据资产。企业数据资产运营需要将数据资产变得易查、易懂、易用,从而达到持续释放数据价值的目的。同时,数据治理的对象也是数据,目的是通过数据的标准化来提高数据质量和可信度,因此数据治理是数据资产运营的支撑,二者互为支撑、互为表里。3.3.2.3.3.2.全域数据运营构建长效机制全域数据运营构建长效机制 3.3.2.1
101、.3.3.2.1.数据资产管理制度与规范数据资产管理制度与规范 数据资产由数据组成,兼具无形资产和有形资产的特征,是一种全新的资产类别。特别是随着大数据产业的发展、大数据应用的深入,数据已被广泛认为是宝贵的资产,数据56 具有的巨大潜在价值得到了广泛认同,数据资产化日益受到各个国家、行业和组织的重视,数据资产的管理、应用以及标准制定成为当前研究的热点。数据资产管理制度与规范是社会共同遵守的、由一定程序指导的数据资产管理行动准则。依据数据资产管理结构的决策层、管理层、执行层在授权决策次序上的划分,数据管理制度框架体系划分为政策、规范、细则三个梯次,规定在数据管理和数据应用领域的数据职能目标、行动
102、原则、任务范围、行动方式,以及相应的工作步骤和具体措施等。目前,我国以个人信息保护为核心的数字保护制度规范体系已基本建立,监管效果明显。已颁布的法律制度法规如下:(1)基本立法 全国人民代表大会常务委员会关于加强网络信息保护的决定中华人民共和国网络安全法中华人民共和国数据安全法中华人民共和国个人信息保护法。(2)行政法规 征信业管理条例征信业务管理办法。(3)司法解释 全国人民代表大会常务委员会关于加强网络信息保护的决定关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释最高人民法院关于审理利用信息网络侵害人身权益民事纠纷案件适用法律若干问题的规定。(4)综合立法之个人信息保护条款 57 中
103、华人民共和国民法总则中华人民共和国刑法修正案(九)中华人民共和国侵权责任法中华人民共和国消费者权益保护法。(5)部门规章 电信和互联网用户个人信息保护规定(工业和信息化部令 第24号)、中国人民银行关于银行业金融机构做好个人金融信息保护工作的通知(银发201717号)。(6)国家标准 信息安全技术 个人信息安全技术规范(GB/T 35273-2020)、公共及商用服务信息系统个人信息保护指南(GB/Z 28828-2012)、个人信息和重要数据出境安全评估办法(征求意见稿及修订稿)。此外,国际上ISO/IEC JTC1 SC32、ISO/IEC JTC1 WG9、国际电信联盟(Internat
104、ional Telecommunication Union,ITU)、美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)等组织和机构也正在开展数据相关标准的研究工作。以上法律规范、标准为指导,各个机构、组织需制定数据资产的管理机制、考核机制和资源保障机制等,并形成“计划实施评估完善”的持续改进闭环。58 3.3.2.2.3.3.2.2.量化评估持续改进机制量化评估持续改进机制 为促进数据资产管理机制的切实落地,需要建设一整套量化评估体系和持续改进机制,作为数据资产管理闭环流程的工作抓手。数据资产的量化评估体系,应该
105、从如下几方面着手,根据金融机构自身的情况建设监控和管理指标:(1)数据资产自身情况的量化评估。即评估数据资产特征是否稳定健康,例如数据质量、数据规模等是否保持正常和稳定的状态;(2)数据资产在供给过程中的量化评估。即评估数据资产是不是能够提供有效和持续的供给状态,例如数据资产的运行时间、更新频率、每日增量是否正常稳定;(3)数据资产使用成效的量化评估。即评估数据资产提供的服务效果,例如用户数、调用量、使用评价等。数据资产的持续改进机制,应覆盖对数据资产运营的参与方以及数据流转过程两个方面的闭环管控:数据资产运营的参与方主要包括数据资产供给方、数据资产运营团队和数据资产消费者。三方在数据资产运营
106、活动中需承担相应的责任:供给方的责任主要是需要为数据资产自身情况负责,数据资产团队主要对数据资产的供给过程负责,数据资产消费者需要保证在消费过程中做出客观、即时的反馈和评价;在数据资产运营过程中,数据资产在相应的量化评估方面的指标产生波动,就需要使用3.3.2.1中制定59 的相关管理制度向对应的数据资产运营角色追责,直到数据资产的量化评估指标改善。3.3.3.3.3.3.数据运营体系建设数据运营体系建设 数据运营体系包括数据查看、选择、使用、治理、评价五个完整运营环节。3.3.3.1.3.3.3.1.数据查看数据查看 数据资产要通过一个合适的资产门户或资产管理场所,供数据消费方简单、便捷、详
107、细地了解资产信息。消费方以可阅读的方式查看资产信息后才能判断其是不是当前业务所需的数据资产对象。3.3.3.2.3.3.3.2.数据选择数据选择 消费方查看资产信息后,可以选择所需的资产对象,可以通过文档的方式或建设数据资产管理系统以方便业务人员简单便捷地反复查看、研究、复用重点的数据资产。3.3.3.3.3.3.3.3.数据使用数据使用 消费方选择好所需数据资产后,就要生成相应的服务接口或通过数据应用产品来使用这些数据资产。数据使用是数据运营中最重要的环节,通过数据使用不断使数据价值最大化。60 3.3.3.4.3.3.3.4.治理优化治理优化 在数据使用过程中,会发现各种各样数据资产本身的
108、问题,需要通过数据治理对数据资产本身进行优化提升。3.3.3.5.3.3.3.5.数据评价数据评价 数据资产最终还要通过统一的标准进行完整、系统地评估,需要从数据资产质量层面、使用层面、成本层面、故障层面等多维度对数据资产运营情况进行评估,更加全面地理解数据资产的质量、应用价值、风险等,形成一个有效的闭环,最终实现数据资产价值的最大化。3.3.4.3.3.4.数据运营持续创造用户价值数据运营持续创造用户价值 3.3.4.1.3.3.4.1.数据资产规划数据资产规划 数据资产持续性运营的前提是对数据资产进行整体性的规划,即确定数据资产的准入原则和分类原则。首先,需要确定数据资产的认定原则,制定可
109、操作、可落地的数据资产认定评判规则;其次,要明确数据资产范围,定义数据资产的分类框架。3.3.4.2.3.3.4.2.数据资产服务保障数据资产服务保障 为稳定持续地创造用户价值,必须要从组织、制度和技术三个方面建设数据资产的服务保障体系。61 组织保障:建立数据资产运营相关角色,明确角色的权利和责任;数据资产运营的角色应包括数据资产供给团队、数据资产运营团队和数据资产消费者等。制度保障:建立数据资产运营的流程、工作规范、运营服务水平定义、异常告警机制和问题上升通道等,在运营过程当中出现各种问题都有相对应的管理机制来指导相关人员进行标准和规范的应对。技术保障:储备相关的技术能力,实现数据资产运营
110、的自动化管理。3.3.4.3.3.3.4.3.数据运营宣传推广数据运营宣传推广 数据运营宣传推广是数据资产运营的重要环节,通过各种营销手段和方案,激发业务人员对数据资产产生兴趣后,才能够保证数据资产运营各项活动的顺利开展并取得预期效果。在数据资产运营初期,数据资产内容有限,可以选择以点带面的方式进行宣传推广,针对准备推广的数据资产内容识别推广对象,面向推广对象撰写精准有吸引力的广告文案或者推送消息进行营销,并持续跟踪宣传推广效果,通过监控数据资产调用频率等指标验证数据资产价值,如果数据资产调用的频率稳步增长,说明数据资产价值逐步体现。当验证过数据资产价值后,可通过持续的宣传推广手段来传递数据资
111、产有效性,针对不同推广对象的不同业务场景推荐更多适配数据资产,并将成功案例进行包装宣传,通过62 内部邮件、事务海报、内网发帖、行政建议等方式介绍现有数据资产并将其效果广而告之,激发更多人员对数据资产的兴趣。3.3.4.4.3.3.4.4.数据资产价值评估数据资产价值评估 党中央在十九届四中全会上首次公开提出“健全劳动、资本、土地、知识、技术、管理和数据等生产要素按贡献参与分配的机制。”这是中央首次在公开场合提出数据可作为生产要素按贡献参与分配。“数据是资产”已经成为全球共识。2019年6月,中国信息通信研究院与中国通信标准化协会大数据技术标准推进委员会联合发布数据资产管理实践白皮书(4.0版
112、),对数据资产的定义如下:数据资产(Data Asset)是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子方式记录的数据资源,如文件资料、电子数据等。在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。2019年10月,阿里研究院和德勤联合发布数据资产化之路-数据资产的估值与行业实践,文中认为,影响数据资产价值的因素主要从数据资产的收益和风险两个维度考虑。数据资产的收益取决于数据资产的质量和应用价值,风险主要来源于所在商业环境的法律限制和道德约束,并且有着从量变到质变的影响。63 2019年12月,中评协发布 资产评估专家指引第9号数据资产评估,
113、文中指出,数据资产价值的评估方法包括成本法、收益法和市场法三种基本方法及其衍生办法。2021年8月,瞭望智库与光大银行联合发布 商业银行数据资产估值白皮书,阐释了金融领域一系列数据资产管理和估值的框架和落地实践。3.3.4.5.3.3.4.5.数据资产确权数据资产确权 大规模有效的数据利用离不开数据共享,但是数据共享与数据隐私之间存在着众所周知的悖论,想要实现两者的平衡,一个重要的前提是权属清晰。随着数据要素地位的确立,数据确权的迫切程度与日俱增。2021年9月1日,中华人民共和国数据安全法正式施行,为解决数据安全和权属问题提供了重要依据,该法明确“数据处理”覆盖了数据的全生命周期,包括数据的
114、确权、收集、存储、使用、加工、传输、提供、公开等环节,不过对各个环节尚未有深入的处理细则,其中数据确权可能是优先级最高、任务最艰巨的一环。在数据确权问题上,正方观点通常是,既然数据是在用户的使用过程中产生的,数据的主人理应是用户,而非公司。反方则认为,数据并非只要有用户行为就会产生,而是因为服务商提供了一套记录并存储数据的方式和设备,才产生了数据的概念,在所有权问题上,应当由商业机构和用户之间协商解决。64 在数据确权不明的情况下,一旦用户对某段数据主张所有权,却被告知相关数据已经被服务商出售给其他商业机构,势必引发出售者与用户之间、购买者与用户之间、购买者与出售者之间关于非法买卖的争议。数据
115、具有非排他性和非竞争性的特征,前者是指某人对于数据的使用不会对数据的效用产生影响;后者是指即使个人占有数据,他人也可以同时对数据进行占有。这区别于以私有为原则的传统财产权保护,也进一步为数据控制企业的数据保护带来了挑战。目前我国在法律上尚未有对数据所有权的明确规定,但在技术上已经有研究人员提出了基于数字水印技术和区块链技术的大数据确权方案。3.3.4.6.3.3.4.6.数据资产交易数据资产交易 目前我国的数据交易制度、标准还在不断完善的过程中。2019年1月1日,国家市场监督管理总局、中国国家标准化管理委员会已发布的信息技术 数据交易服务平台 交易数据描述(GB/T 36343-2018)正
116、式生效。2020年3月1日,信息技术 数据交易服务平台 通用功能要求(GB/T 37728-2019)、信息安全技术 数据交易服务安全要求、(GB/T 37932-2019)正式生效。目前数据资产交易模式主要有3种类型,一是原始数据交易模式,例如启信宝、央行征信中心,此模式的数据应该是公开数据或者法定数据;二是评估数据交易模式,对原始65 数据进行清洗、加工、分析、评估,在保留重要特征的情况下,不交易原始数据;三是数据通道交易模式,交易平台只充当中介通道的角色,中间不沉淀存储数据。普遍认为,数据交易市场的规范化发展会驱动数据交易合法化,将大量数据交易置于阳光之下接受监管和监督;可以帮助企业盘活
117、数据资源,完成数据资源资产化,促进企业的数据化转型;可以促进数据资产之间的市场竞争,让数据资产价格透明化,降低数据资产的使用成本,促进数据资源的高效利用。3.3.4.7.3.3.4.7.数据资产运营工具数据资产运营工具 数据资产运营所包括的工作内容纷繁复杂、相关的人员和角色众多,因此需要考虑建设数据资产工具,实现运营工作的信息化和自动化。数据资产运营工具需要实现的重点工作模块包括但不限于:(1)数据资产管理功能模块:包括数据资产目录、数据资产地图的建设、维护和浏览功能,以及数据资产的治理和质量改善等;(2)数据资产分析功能模块:包括数据资产价值评估和结果管理、数据资产分析等;(3)数据资产运营
118、功能模块:包括数据资产量化评估监控和运营改善闭环工作流支持。66 3.3.5.3.3.5.数据资产成本运营数据资产成本运营 3.3.5.1.3.3.5.1.优化数据资产存储成本优化数据资产存储成本 在企业发展初期,存储成本可能不是企业关注的重点,但当数据体量达到一定规模时,数据存储成本会成为企业的包袱,所以需要对数据资产存储成本进行优化,将有限的存储资源最大化地用在高价值的数据资产上,针对原始数据、过程数据和结果数据制定不同存储策略。3.3.5.2.3.3.5.2.控制数据资产计算成本控制数据资产计算成本 企业数据量增加之后,需要不断对数据进行价值挖掘,需要消耗的计算量也随之增加,计算的成本相
119、比存储成本要高很多,CPU、内存都属于稀缺资源,可以通过对计算算法、数据处理加工逻辑优化降低数据资产计算成本。3.3.6.3.3.6.数据开放与共享数据开放与共享 3.3.6.1.3.3.6.1.恪守内部合规底线恪守内部合规底线 随着数字化深入业务,数据贯穿上下游的采集、流转、开放与共享,并与业务不断深入融合。数据安全、合规、隐私保护等安全相关管控需求越发迫切。同时,数据资产同样存在被内外部不法组织或个人滥用和泄露的风险,数据安全合规面临严峻考验。如何高效开展数据流通发挥数据价值,兼顾遵循安全合规底线,是长期以来的一把双刃剑,也是广大企业不断思考和亟待解决的问题。67 与此同时,国家先后颁布多
120、个合规安全、隐私保护的法律法规,如中华人民共和国网络安全法中华人民共和国数据安全法中华人民共和国个人信息保护法等,旨在规范和指引各行业在发挥数据价值的同时,恪守企业安全红线。银行业金融机构数据治理指引中也明确提出,金融机构应当建立数据安全体系框架、制定数据安全防护策略与标准,依法合规采集、应用数据,依法保护客户隐私,划分数据安全等级,明确访问和拷贝等权限,监控访问和拷贝等行为,完善数据安全技术,定期审计数据安全。数据安全体系框架通常由四个层面构成,包括政策法规及标准规范的编制、人员组织搭建、技术架构落地、合规管控过程评估。构建数据安全体系框架,旨在符合政策法规及标准规范的同时,在相关安全人员组
121、织下,从技术层面落实对数据安全的监督管控。满足数据安全主体需求,包括但不限于数据保护、数据合规、敏感数据处理、数据分级分类等技术防护手段,实现不同场景、不同角色、不同授权体系的全场景监控,最终提供覆盖数据全生命周期的安全防护,打造数据安全合规管理闭环。3.3.6.2.3.3.6.2.构建数据开放生态构建数据开放生态 数据作为信息的载体,也是企业核心数据资产。其本身的流动性就会带来跨领域信息的传递、融合、增值,有助于原有领域知识的普及和新知识的产生,进而催生出更多的数据创新应用。同时,数据开放也会带来数据交易的机会,随68 着数据价值可评估、可度量,数据交易也会激发数据开放共享的商业模式落地。数
122、据开放共享通常分为狭义的数据共享,以及广义上的数据开放。前者聚焦企业内部跨部门、跨组织、跨业务条线的数据流动,由数据消费者提出数据使用业务需求,经由数据提供者和数据管理者进行相关权限审批和批复后,开展数据共享服务。广义的数据开放,则侧重于行业间、政府、外部企业、组织或个人,从打造数据生态角度,推进数据资产的再利用、再加工和再增值。企业开展数据共享开放的核心目的是,在完成数据的汇聚、治理和加工分析后,为数据消费者提供高效、便捷、灵活的数据服务,确保数据流动和增值。虽然传统的数据集成方式也能解决数据共享和数据使用问题,但随着企业信息化建设逐渐深入,错综复杂的点对点连接,变得越发难以维护。数据共享与
123、开放的实现通过构建数据服务封装能力,如文件、接口、推送等多种数据服务形态,为数据消费者提供灵活、便捷、可靠的数据供给能力。提升数据共享与开放的便捷度和流通效率。69 第四章 技术现状与安全防护 本章按照数据生命周期发展的顺序阐述相关技术,包括数据采集与存储、数据计算与分析、数据安全与保护三部分。4.1.数据采集与存储 4.1.1.4.1.1.数据采集数据采集 数据采集是大数据平台数据处理工作流程中的第一个环节,是指将数据从其产生的地方,通过特定的传输通道,抽取或推送至大数据平台(或数据湖)。金融机构数据采集来源主要包含各类业务系统、各类设备,以及外部数据源,数据类型包含结构化数据(如数据库表)
124、、非结构化数据(如日志、行为数据)和半结构化数据(如源系统文件),采集方式包括批量采集、实时采集和增量采集。目前,应用较为广泛的大数据采集技术主要有 Apache Sqoop、Apache Flume、Apache Kafka、Apache Pulsar,IBM Change Data Capture、Flink CDC 和 Oracle Golden Gate。各技术产品基本情况如下表所示:70 表4-1 主要数据采集技术 序号 技术名称 主要功能 特点 适用场景 1 Apache Sqoop 用于在 Apache Hadoop 生态存储系统和结构化数据存储系统(如关系型数据库)之间高效传输
125、海量数据的工具 实现 Mysql、Oracle 等关系型数据库和 HDFS、Hive、HBase等分布式存储系统之间的数据导入导出 批量数据采集 2 Apache Flume 分布式数据采集工具,主要收集、聚合和移动海量日志数据 拥有一套简单灵活的流式架构,支持在日志系统中定制各类数据发送方实现数据采集,自定义拦截器对数据进行简单的预处理并传输到预先定制的HDFS、HBase、Kafka 等数据接收方,日志数据采集 3 Apache Kafka 高吞吐量、分布式的流式消息系统 主要具备三个核心能力,一是数据注入能力,提供事件流的发布和订阅;二是数据存储能力,能够存储事件流数据,且存储节点具有故
126、障容错的特点;三是流处理能力,能够对实时的事件流进行流式处理和分析 实时数据采集 4 Apache Pulsar 云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体 采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展性等流数据存储特性 实时数据采集 5 Change Data Capture 建立准实时数据仓库的关键技术,常用的变化数据捕获方法有时间戳、快照、触发器和日志四种 跨平台和异构的数据库环境中实现变化数据的实时复制,能够提供可保持事务完整性的复制 数据迁移,数据整合,数据同步,动态数据仓库,主数据管理以及实时 B
127、I 分析 71 6 Oracle GoldenGate 结构化数据复制软件 通过解析原数据库在线日志或归档日志获得数据的增量变化,再将这些变化应用到目标数据库,从而实现原数据库与目标数据库同步 在异构的 IT 基础结构之间实现大量数据亚秒级的实时复制 4.1.2.4.1.2.数据存储数据存储 按存储介质的不同,现代数据存储主要分为光学存储(CD、DVD、蓝光存储)、磁性存储(磁带、软盘、机械硬盘)和半导体存储三类。作为产生时间最早的数据存储技术,光存储技术目前处于技术更新的瓶颈期,无法突破,在存储容量、存储密度及存取速率等方面都受限制,极易受摩擦等外部作用而损坏。业界普遍认为,光存储技术是冷数
128、据存储最主要的方式,适合归档类数据的长期备份使用,可以与半导体存储介质搭配使用。进入移动互联网时代,存储应用场景急剧变化,下一代存储技术应运而生。下一代存储技术主要指在存储介质、存储协议等方面迭代创新的一系列技术的集合,总体呈现出高性能、易于扩展、服务化和智能化等特点。4.1.2.1.存储介质演进(1)全闪存储 全闪存储是以全闪阵列为基础的存储系统,是完全由固态存储介质构成的独立的存储阵列或设备。闪存存储的高速发展,既是新应用对性能需求驱动的结果,也是闪存技术不72 断创新的成果。Gartner 数据显示,2019 年第一季度全球固态存储(SSA)销售额达到 25.13 亿美元,占整体基于外部
129、控制器(ECB)存储市场的 46.8%,同比增长 22.3%;而大中国市场固态存储市场销售额1.56亿美元,增速更是高达约80%。闪存之所以能够受到市场的广泛欢迎,归根结底是随着技术的不断创新,业务负载不断增长,闪存的优势得以凸显。闪存存储普遍被认为是存储行业的发展方向,其具备远高于传统磁盘存储的数据吞吐能力以及更低的时延。数据显示,固态硬盘对比机械硬盘,拥有更快的读取速度、更低的功耗以及更低的故障概率,实现了对机械硬盘性能的全面超越,为底层存储介质的替换提供了客观条件。表 4-2 机械硬盘与固态硬盘性能对比 机械硬盘 固态硬盘 时延 2ms 0.02ms 5 年返还率 13.4%0.8%功耗
130、 10w 3w(2)非易失性内存 非易失性内存(non-volatile memory,NVM)是指断电后,存储的数据不会消失的存储器,是存储技术领域近十余年来最革命的创新。依据技术原理,非易失性内存介质可分为以下几类。73 图4-1 非易失性存储介质 为开发出比传统非易失性存储介质更高速、更低功耗、更高密度、更可靠的新型非易失性存储介质,研究者们把目光聚集到一些具有特殊性能的材料上,依据这些材料提出了一些存储介质模型。下表对这五种存储介质的存储原理、优缺点及发展状况进行了简要介绍。表 4-3 新型非易失性存储简介 存储介质 存储原理 优点 缺点 铁电随机存储器 通过铁电材料的不同极化方向来存
131、储数据 读写速度快,低功耗和擦写循环性能好 数据保持能力较差 磁性随机存储器 通化磁化方向的改变来存储数据,并通过磁效应来实现数据读 可反复擦写次数高等优点 难以小型化 阻变存储器 利用材料的电阻在电压作用下发生变化的现象来存储数据 擦写速度快、存储密度高、具备多值存储和三维存储潜力 材料耐久性较差 相变存储器 以硫属化合物为基础的相变材料在电流的焦耳热作用下,通过晶态和非晶态之间的转变来存储数据 重复擦写次数高、存储密度高、多值存储潜力大 功耗较高 3D-XPoint 通过特定的电压差,改变存储 74 单元中特殊材料的电阻,实现写操作 随着存储技术的发展和人们对存储性能的不懈追求,高性能存储
132、的探索开始向内存通道迁移。同时,非易失性内存填补了从硬盘到 DRAM 之间,存储在性能、延迟、容量成本的鸿沟,为多样化的解决方案奠定了坚实的基础。非易失性内存技术能够存储不适用于 DRAM 的庞大数据集,进行快速计算,同时与其他存储介质共同组成多级存储池,让数据更加靠近处理器,提升存储系统的整体性能表现。4.1.2.2.存储协议演进 在存储系统中,HDD 磁盘和早期 SSD 磁盘大多是 SATA 接口,传输协议一般采用 AHCI。AHCI 为单队列模式,主机和HDD/SSD 之间通过单队列进行数据交互。对于 HDD 这种慢速设备来说,主要瓶颈在存储设备,而不在 AHCI 协议和 SATA接口。
133、不同于 HDD 的顺序读写特点,SSD 可以同时从多个不同位置读取数据,具有高并发性。AHCI 的单队列模式成了限制 SSD 并发性的瓶颈。随着 SSD 技术的飞速发展,SSD 盘的IO 带宽越来越大,访问延时越来越低。AHCI 和 SATA 已经不能满足高性能和低延时 SSD 的需求,因此 SSD 迫切需要自己更快、更高效地协议和接口,NVMe 协议应运而生。NVMe 协议旨在提高吞吐量、IOPS,同时降低延迟。基于NVMe 的驱动器可实现高达 16GBps 的吞吐量,且当前供应商正在推动 32GBps 或更高的吞吐量。在 IO 方面,许多基于NVMe 的驱动器,其 IOPS 可以超过 50
134、0,000 有些甚至可提供75 150 万、200 万甚至 1000 万 IOPS。与此同时,延迟持续下降,许多驱动器的速率低于 20 微秒,有些低于 10 微秒。2010 年后,Flash 介质逐步普及,SCSI 协议框架的存储接口对闪存性能的限制也越来越凸显出来。NVMe 和 NVMe-oF技术的出现打破了这些限制,面向高性能介质设计的多队列模型更能发挥闪存介质的性能。NVMe Over Fabric 推动 IP化、低时延化,基于 IP 网络的 NVMe-oF 技术不但使得存储前端网络可以基于 IP 直接与本地局域网连接,甚至可以直接连接广域网;同时,利用 NVMe-oF 技术小于 10u
135、s 的超低附加时延,使得替换后端 SAS 网络也成了可能,使得整个数据中心可以基于统一的以太网来构建,可降低数据中心的建设成本,降低独立存储网络的运维成本,并有利于云及大数据应用环境下的数据共享。4.1.2.3.分布式存储 分布式存储是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。分布式存储的特点有高扩展性、低成本、易运维、易管理等。分布式存储技术发展趋势:淡化部署形态,基于场景融合和 AI 运维使能的架构创新,成为引领技术未来的关键 产学研重点围绕着对海量数据不同部署模式下(边缘、数据中心和云)如何进
136、行数据高效处理、发掘价值、降低成76 本、绿色节能等领域进行技术创新。基于场景融合和 AI 运维智能的架构创新,将成为引领技术未来的关键。越来越多的分布式存储开始支持云上部署,在云上积累了大量的 workload 和可靠性特征数据,经过云端训练和本地推理的协同,存储系统可以对故障识别、风险识别进行建模,对训练模型自行优化,从而做到真正的智能决策提高效率。未来非结构化数据逐渐成为主流,文件/对象/HDFS 几种主流非结构数据服务的融合平台成为趋势。HPC 正在向 HPDA(高性能数据分析)、HPC-Based AI 方向演进,新的业务负载要求存储支持文件、对象及 HDFS 协议互通,数据仅存一份
137、。如,华为的分布式存储能同时支持文件和对象的不同接入协议,在 HPDA 场景下满足不同阶段数据分析软件的需求。进入 NVMe SSD 时代,介质性能和寿命相比 HDD 都有了大幅提升,CPU 反而可能成为性能瓶颈,传统的集中式存储和分布式存储架构都已无法很好应对。Disaggregated 架构应运而生,他将控制器和存储介质分离,再通过低时延的NVMe over Fabric 网络连接,兼具时延低和扩展性好的优势。随着技术进一步发展,在存储介质、存储架构、存储协议、应用模式及运维模式等方面迭代创新,能够满足高性能、易于扩展、服务化和智能化等要求。表 4-4 下一代数据存储技术发展方向 77 技
138、术分类 传统存储 下一代存储 存储介质 机械硬盘存储、易失性内存 全闪存储、非易失性内存 存储架构 集中式存储 软件定义存储、超融合基础架构 存储协议 AHCI、SCSI 协议 NVMe 协议 应用模式 本地部署 云服务化 运维模式 人工运维 智能化运维 表格来源:中国信息通信研究院,下一代数据存储技术研究报告(2021 年)4.2.4.2.数据计算数据计算 4.2.1.4.2.1.离线计算引擎离线计算引擎 大数据离线计算引擎提供 TB/PB 级别数据、非实时要求的批量处理能力,主要应用于日志分析、机器学习、数据仓库、数据挖掘、商业智能等领域。大数据离线计算的目的是为用户提供一种便捷的分析处理
139、海量数据的手段。支持例如:数据仓库和 BI 分析、日志分析、交易分析、用户特征和兴趣挖掘、风控营销等。离线计算引擎主要将具备以下能力:(1)数据量巨大且保存时间长;(2)在大量数据上进行复杂的批量运算;(3)数据在计算之前已经完全到位,不会发生变化;(4)能够方便地查询批量计算的结果。目前常见的组件主要有:MapReduce、Hive、Spark、Maxcompute 等组件,主要能力如下表所示:表 4-5 常见组件主要能力汇总 78 组件名称 主要能力 MapReduce 一种计算模型,用于处理大数据量的计算。其中 Map 对应数据集上的独立元素进行指定的操作,生成键值对形式的中间结果,Re
140、duce 则对中间结果中相同的键的所有值进行规约,以得到最终结果。Hive 定义了一种类似 sql 的查询语言(hql)将 sql 转化为Mapreduce、Spark 等引擎任务在 Hadoop 上执行。Spark 开源的数据分析集群计算框架,用于构建大规模,延迟低的数据分析应用。Spark 采用 Scala 语言实现和应用框架,采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。4.2.2.4.2.2.实时计算引擎实时计算引擎 在实时大屏监控、风控预警、实时预测、金融交易等诸多对业务延迟要求高的业务场景,对信息高时效性和高可操作性需求的不断提升,传统的大数据处理模型将在线事务
141、处理和离线分析无法满足对实时处理的需求。只有实时计算引擎可有效地缩短全链路数据流时延、实时化计算逻辑和平摊计算成本,满足实时处理大数据的业务需求。现在常见的实时计算有 3 个主流引擎:Storm、Spark、Flink。表 4-6 主流引擎介绍 计算引擎 基本特征 处理能力 storm 开源的分布式实时计算组件 可连续、实时地处理流式数据,支持各种编程语言,使用简便 Spark 核心 Spark API 地扩展,分段处理数据流 数据预处理,形成小批处理的 RDD(弹性分布式数据集),可通过任意函数和华东数据窗口进行转换,实现并行操作 79 计算引擎 基本特征 处理能力 Flink 统一了流处理
142、和批处理 由 Stream 和 Transformation 两个模块构成,其中 Stream 是一个中间结果数据,Transformation 是计算,输出一个或多个结果 Stream 实时计算引擎具备三个特点:(1)实时(Realtime)且无界(Unbounded)的数据流实时计算,面对计算的数据源是实时且流式的。实时计算按照时间发生的顺序,订阅流数据和消费数据。由于数据发生的持续性,数据流将持续且长久的进入实时计算系统。例如,网站的访问点击日志流,只要网站不关闭,将一直不停产生并进入实时计算系统。(2)持续(Continous)且高效的计算实时计算是一种事件触发的计算模式,触发源是上述
143、的无界流式数据。一旦有新的流数据进入实时计算,实时计算立刻发起并进行一次计算任务。(3)流式(Streaming)且实时的数据集成流数据触发一次实时计算的计算结果,直接写入目的数据存储。实时计算引擎的使用场景主要分为四类(如下图所示),一是实时 ETL。是数据实时传输的可计算通道,成为离线数仓有效的补充和优化;二是实时报表。实时采集、处理、监控和展现业务、客户各类指标,让数据化运营实时化。三是监控预警,对系统和用户行为进行实时监测和分析,实时监测和发现危险行为。四是在线系统。基于实时分析结果及时调整相关业务策略。在内容投放、无线智能推送领域有大量场景。80 图4-2 实时计算引擎的使用场景 4
144、.2.3.4.2.3.查询分析引擎查询分析引擎 随着各机构数据量快速增行,数据分析场景日益增多,高可靠和低延时的数据分析服务成为企业数字化转型的关键。越来越多的 OLAP 引擎致力于低成本和高性能的大规模计算型存储和强大的查询能力,提供海量数据的实时数据仓库解决方案和实时交互式查询服务。表 4-7 主流查询引擎介绍 查询引擎 基本特征 处理能力 Presto facebook 开源的分布式 SQL 查询引擎,适用于交互式分析查询 presto 是一种 MPP 架构(Massively parallel processing),多个节点管道式执行,支持任意数据源,数据规模 GB-PB,查询速度比
145、 Hive 快 5-10倍 Greenplum 基于开源的PostredSQL 基础上的MPP 架构 具有强大的大规模数据分析任务粗粒能力 Impala Cloudera 公司主导开发的新型查询系统,开源软件 用于处理存储在 Hadoop 集群中的大量MPP SQL 查询引擎 81 查询引擎 基本特征 处理能力 Kylin 开源的、分布式的分析型数仓 提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,通过提前构建 cube 方式,提供亚秒级响应时间即可获得查询结果 ClickHouse 俄罗斯第一大搜索引擎 Yandex 开发的列式储存数据库
146、 用于联机分析(OLAP)的列式数据库管理系统(DBMS)Hologres 阿里巴巴自主研发的一款交互式分析产品 兼容 PostgreSQL 11 协议,与大数据生态无缝连接,支持高并发和低延时的分析处理 PB 级数据 Doris 百度研发的 MPP 分析型数据库产品 主要解决 PB 级别的数据量,解决结构化数据,查询时间一般在秒级或毫秒级。GaussDB 基于华为云的数据仓库服务 兼容标准 ANSI SQL 99 和 SQL 2003,同时兼容 PostgreSQL/Oracle 数据库生态,数据规模 PB 级 4.2.4.4.2.4.新一代大数据架构趋势新一代大数据架构趋势 4.2.4.1
147、.存算分离 在传统分布式系统常用的存储计算架构有如下三种。图4-3 分布式系统存算架构(1)Shared Disk/Storage(共享存储)有一个分布式的存储集群,每个计算节点像访问单机数据一样访问这个共享存储上的数据。这种架构的存储层可以82 比较方便的扩展,但是计算节点需要引入分布式协调机制保证数据同步和一致性,因此计算节点的可扩展性有一个上限。(2)Shared Nothing 每个计算节点自己挂载存储,一个节点只能处理一个分片的数据,节点之间可以通信,最终有一个汇总节点对数据进行汇总。这种架构能比较方便的扩展,但是他的缺点是节点 Failover 需要等待数据加载完成之后才能提供服务
148、;并且存储和计算需要同时扩容,不够灵活,扩容后,有漫长的数据 Rebalance 过程。(3)Storage Disaggregation(存储计算分离架构)存储和 Shared Storage 类似,有一个分布式的共享存储集群,计算层处理数据的模式和 Shared Nothing 类似,数据是分片的,每个 shard 只处理自己所在分片的数据,每个计算节点还可以有本地缓存,主要优势:一是一致性问题处理简单,计算层只需要保证同一时刻有一个计算节点写入同一分片的数据。二是计算和存储分开灵活扩展;三是计算节点故障恢复快,数据可以按需从分布式的共享存储异步拉取。4.2.4.2.湖仓一体 数据仓库技术
149、,自 20 世纪 80 年代末出现以来不断地发展。同时,MPP 架构也使得系统能够处理更大规模的数据量。数据仓库非常适合结构化数据,但是随着金融业务不断发展,产生了大量的非结构化、半结构化数据,这些数据呈现出多样性(variety),高速度(velocity)、大容量(volume)83 等特征。数据仓库并不适合这样的场景,而且成本较高。随着金融行业从多种数据源大规模的收集数据,来实现数据的仓库化存储,并以此为多样化的数据分析应用提供承载。大约十年前,数据湖出现了,他被定义为一种可以存储各类格式的原始数据存储库。数据湖虽然适合数据的存储,但又缺少一些关键功能,比如不支持事务、缺乏一致性/隔离性
150、、不保证执行数据质量等,让数据湖来承载读写访问、批处理、流作业是不现实的。图4-4 数据仓库、数据湖演进 数据湖是一个集中式的存储,允许以任意规模存储结构化和非结构化数据。你可以存储原始数据,而不需要先转化为结构化的数据。基于数据湖之上可以进行大数据处理、实时分析、机器学习等。数据仓库和数据湖对比如下:84 图4-5 数据仓库与数据湖对比 如上图所示,数据仓库通过极简技术架构,面对稳固来源的价值高密数据,构建统一数据资产视图,再按照业务需求生成业务指标,可靠稳定的支持多部门的业务分析与决策。技术上主要存储关系型的结构化数据。数据存储的结构与其定义的 schema 是强匹配的。数据湖通过混合技术
151、架构,面对随业务动态扩展的多源异构的数据,形成统一的数据存储计算和管理能力,扁平化、敏捷化的响应不同业务探索数据价值的需求。可以存储任何类型的数据,存储成本廉价。数据不需要满足特定的 schema,读取数据时候解析 schema。但是对于数据治理和管理等方面能力较弱,无法基于数据湖搭建一个企业级的数据仓库。85 图4-6 数据湖数据管理的问题 湖仓一体是一种新型开放式架构,将数据湖和数据仓库的优势充分结合,他构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能。不仅包括前面提到的对象存储技术,还包括数据摄入、大数据数仓管理、计算引擎层、治理层、系统层和应用服务层的整个大数
152、据架构。数据“湖仓一体”具有以下关键特征:(1)事务支持:数据往往要为业务系统提供并发的读取和写入。对事务的 ACID 支持,可确保数据并发访问的一致性、正确性,尤其是在 SQL 的访问模式下。(2)数据的模型化和数据治理:湖仓一体可以支 持 各 类 数 据 模 型 的 实 现 和 转 变,支 持DataWarehouse 模式架构,例如星形模型、雪花模型等。该系统应当保证数据完整性,并且具有健全的治理和审计机制。86 (3)BI 支持:“湖仓一体”支持直接在源数据上使用 BI 工具,这样可以加快分析效率,降低数据延时。另外相比于在数据湖和数据仓库中分别操作两个副本的方式,更具成本优势。(4)
153、存算分离:存算分离的架构,也使得系统能够扩展到更大规模的并发能力和数据容量。(一些新型的数据仓库已经采用了这种架构)(5)开放性:采用开放、标准化的存储格式(例如 Parquet 等),提供丰富的 API 支持,因此,各种工具和引擎(包括机器学习和 Python/R 库)可以高效地对数据进行直接访问。(6)支持多种数据类型(结构化、非结构化):Lakehouse 可为许多应用程序提供数据的入库、转换、分析和访问。数据类型包括图像、视频、音频、半结构化数据和文本等。(7)支持各种工作负载:支持包括数据科学、机器学习、SQL 查询、分析等多种负载类型。这些工作负载可能需要多种工具来支持,但他们都由
154、同一个数据库来支撑。(8)端到端流:实时报表已经成为企业中的常态化需求,实现了对流的支持后,不再像以往一样,为实时数据服务构建专用的系统。87 此外,湖仓一体还需要考虑数据安全和访问控制相关能力,如数据的审计、保留周期、数据血缘管理等。4.2.4.3.流批一体 传统大数据平台本质上就是一个 Lambda 架构,原始数据都是一个源头,例如用户行为日志、Binlog 等,分别走了两条链路:一条是实时链路,也就是加速层(Speed Layer),通过流计算处理,把数据写入实时的存储系统;另一条链路就是离线链路,也就是批计算,最典型的就是将数据归档至Hive,再通过查询层如 Spark 或 Prest
155、o 对数据做加速查询,最后再对接在线应用、大盘或者第三方 BI 工具。图4-7 Lambda架构 Lambda 架构的核心痛点是大量在不同计算系统和数据格式中数据协同和转换,造成维护困难和额外成本,Batch Layer 和 Stream Layer 需要维护两套代码,存在不同的问88 题,导致代码难运维/代码更新困难,系统复杂后导致的异常错误的捕获、处理和 bug 修正,难度增大。实时离线计算结果需要通过定制联邦计算来合并数据集,无法通用化输出,灵活性不足。图4-8 Kappa架构 随着 Flink 等流处理引擎的出现,流处理技术很成熟了,这时为了解决两套代码的问题,提出了 Kappa 架构
156、。Kappa架构可以认为是 Lambda 架构的简化版。Kappa 架构最大的问题是流式重新处理历史的吞吐能力会低于批处理。很多时候并不是完全规范的 Lambda 架构或 Kappa 架构,可以是两者的混合,比如大部分实时指标使用 Kappa 架构完成计算,少量关键指标(比如金额相关)使用 Lambda 架构用批处理重新计算,增加一次校对过程。89 图4-9 流批一体数据架构 基于流批一体架构的数仓,将实时计算引擎采用同一套SQL,对实时数据和离线数据分别处理,保证了数据逻辑一致性。同时将结果数据存储到统一的数据分析服务层提供数据查询分析服务。4.3.数据分析挖掘 4.3.1.4.3.1.标准
157、数据分析工具标准数据分析工具 随着信息技术尤其是计算机及互联网技术的飞速发展,金融行业每天都在产生着海量的数据。对这些数据进行统计、分析,挖掘出隐藏在数据内部有价值的信息,为金融行业的决策提供指导。在大数据时代,金融行业尤其是银行业对数据挖掘与分析技术的需求已经迫在眉睫。业务数据分析中,SAS、PowerBI 等统计分析软件是业务分析的流行工具。(1)SAS 数据分析工具 SAS(STATISTICAL ANALYSIS SYSTEM)是由美国 NORTH 90 CAROLINA 州 立 大 学 1966 年 开 发 的 统 计 分 析 软 件。SAS(Statistical Analysis
158、 System)是一个模块化、集成化的大型应用软件系统。他由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。SAS 系统基本上可以分为四大部分:SAS 数据库部分;SAS 分析核心;SAS 开发呈现工具;SAS 对分布处理模式的支持及其数据仓库设计。SAS 系统主要完成以数据为中心的四大任务:数据访问、数据管理、数据呈现、数据分析。SAS 持续良好的统计分析功能,得到了业界广泛好评,这为其在国际专业统计分析软件领域获得头把交椅奠定了基础。SAS 可视化数据挖掘技术在可扩展的点选式环境中提供探索性的数据分析和互动式数
159、据可视化功能,将统计数字与图表动态地连接起来,能够让用户与图表进行互动,澄清结果,采取行动。(2)Power BI 分析工具 商业智能(Business Intelligence)包括企业用于商业信息数据分析的策略和技术,可以提供业务运营的历史、当前和预测视图。商业智能技术的常见功能包括报告、在线分析处理、分析、数据挖掘、流程挖掘、复杂事件处理、业务绩效管理、基准测试、文本挖掘、预测分析和规定性分析。BI 技术可以处理大量结构化数据与非结构化数据,以帮91 助识别、开发和以其他方式创造新的战略业务机会。他们的目的是让人们能够方便地解释这些数据,发现新的机会并在洞察的基础上实施有效的战略,可以为
160、企业提供竞争的市场优势和长期稳定。Power BI 以列为单位使用 Vertipaq 技术压缩数据、存储和计算,借助于编码、数据字典和位置索引可以大幅度压缩数据,提高运算性能,在许多场景下性能优于传统的 SQL。Power BI 提供了从数据抽取、转换、加载、分析到数据可视化展示的全套解决方案,可以横跨个人电脑、网页、手机、平板电脑等多种平台工作,可以在个人电脑终端处理上亿行数据,支持处理上百种数据源,并且按月更新,其展现方式灵活,可视化对象多,除了常规的条形图、饼图、折线图、漏斗图等等之外,还支持卫星地图展示以及外部各种自定义酷炫可视化插件,并且可以对接大数据时代十分热门的两种计算机编程语言
161、 R 以及 Python。其内置的人机交互问答机制与聚类分析和机器学习可以利用 AI 快速找出数据背后的故事,减轻分析师和决策者的工作负担。4.3.2.4.3.2.机器学习模型机器学习模型 风险控制与管理是金融机构的核心能力,借助机器学习和大数据技术,金融机构可以从海量数据中及时甄别风险,并及时处置。机器学习驱动的欺诈检测系统不只是遵循风险因素清单,还能够学习和校准新的潜在(或真实的)安全威胁。应用机器学习技术,系统可以检测特殊或异常的行为,92 并为安全团队标记他们。信用评分卡模型是最常见的金融风控手段之一,他是指根据客户的各种属性和行为数据,利用一定的信用评分模型,对客户进行信用评分,据此
162、决定是否给予授信以及授信的额度和利率,从而识别和减少在金融交易中存在的交易风险。信用评分卡的开发有一套科学的、严密的流程,包括数据获取,探索性数据分析 EDA,数据预处理,到变量筛选,模型的开发和评估,生成评分卡模型以及布置上线和模型监测。坏样本对于建立风控模型至关重要,如果坏样本数量不够,建模时则无法设定理想的参数,实现模型调优。由于银行和机构严格的信贷审批机制,积累的坏样本数量较少。在建立风控模型时,掌握规模太小的坏样本,无法构建优化已有的模型和提高风控模型的泛化能力。在坏样本数量较少的时候 SVM 模型能发挥优势,由于 SVM(支持向量机)的训练过程只需要支持向量,依赖的训练样本数较小,
163、使其对小样本建模具有优势。对于使用支持向量机建模,其在小样本、非线性及高维模式识别中具有独特的优势,同时 SVM 也是努力最小化结构风险的算法。另外,在建模训练的时间开销上,支持向量机只依赖小样本,其训练时间开销也具备很大优势。逻辑回归 Logistic Regression 在风控的工业生产环节中同样表现出色。尽管现在出现了很多性能优秀的分类算法,包括 SVM,RF,GBDT,DNN 等,作为最简单的分类算法,Logistics Regression 依然是工业界主流的分类算法之一。LR 逻辑回归的开发流程包括数据获取、探索性数据分析、数93 据预处理、筛选变量、构建逻辑回归模型,以及模型评
164、价等六个步骤。4.3.3.4.3.3.深度学习模型深度学习模型 深度学习在金融领域被广泛运用,如图像识别、智能客服、智能投顾等。深度学习也越来越成为金融投资和研讨的热点。同时,作为机器学习(ML)领域的一个应用更为强大的分支,深度学习(DL)最近也开始得到越来越多的关注,主要原因在于他比经典的机器学习模型的性能更好、泛化和拟合能力更强。目前DL已经有许多不同的实现,如MLP、CNN、LSTM 等,而且广泛的研究和拓展还在继续。金融是 DL 模型开始受到关注的一个特殊领域,目前也有很多不错的理论和实际的研究成果。深度学习属于机器学习的范畴,是一种主要以深度神经网络来对数据进行高层次抽象的模型。深
165、度学习在金融中用到的模型主要包括下面几种:(1)多层感知机 深度多层感知机是首先提出的一种深度神经网络模型,同多层感知机类似,包括输入层、隐藏层和输出层,只不过要比多层感知机有更深的隐藏层数。通过增加隐藏层的深度,深度多层感知机相比于浅层结构具有更强的分类和回归效果。对于深度多层感知机的训练通常通过基于梯度的算法,如批量梯度下降、随机梯度下降等进行训练。深度多层感知机的结构以及向前计算与反向传播如下图所示:94 图 4-10 多层感知机示意图(2)卷积神经网络 卷积神经网络是图像识别领域中常用的深度学习技术,也于最近被用于金融领域,将金融时间序列转换为 2D 图像来构建交易系统和金工研报:利用
166、卷积神经网络进行多因子选股。一个典型的卷积神经网络通常包括卷积、过滤、池化以及全连接等操作,下图展现了一个常见的卷积神经网络结构。图 4-11 卷积神经网络示意图(3)循环神经网络(RNN)循环神经网络(RNN)是最为常用的处理时序数据的深度学习方法,如金融时间数据、音频数据。递归神经网络根据输入输出序列的类型不同,又被分为端到端、端到序列以及序列到序列的形式。另外,不同于深度神经网络的反向传播95 训练方式,递归神经网络的训练是通过 Backpropagation Through Time(BPTT)。通过 RNN 的介绍以及通过 RNN 进行股价预测的实现:如何用 RNN 进行股票价格预测
167、。为了便于了解其训练的过程,递归神经网络通常会被展开,一个典型的递归神经网络展开后的结构如下图所示。图 4-12 循环神经网络示意图(4)长短期记忆网络(LSTM)长短期记忆网络也是一种常用的深度学习架构,与 RNN一样,也常用于时序数据分析,与 RNN 的不同之处在于 LSTM网络具有门控结构,所以其优势在于可以记住网络的短期和长期记忆。每一个 LSTM 单元都包括输入门、输出门以及遗忘门,LSTM 单元通过这三个门控制信息流。有了这些特性,每个单元可以在任意时间间隔内记住所需的值。常见的 LSTM 的单元结构如下图所示。96 图 4-13 LSTM 示意图(5)受限玻尔兹曼机(RBM)RB
168、M 是一种特殊的神经网络模型,或者称为一种随机神经网络模型,他的神经元的输出只有两种状态(未激活、激活)。RBM 可以从输入数据中学习得到他的概率分布。RBM 常被用于降维、分类以及特征学习。从结构上看,RBM 是一种具有两层结构的神经网络,每个单元都是一个处理输入的计算点。每个单元对输入数据是否传输进行随机决策。输入乘以特定的权重,将某些阈值(偏差)添加到输入值中,然后通过激活函数传递计算值。RBM 的结构图如下所示。图4-14 RBM示意图(6)Pregel 图计算 97 图计算有很多应用场景,一个最经典的例子是 PageRank,最早用来对网页进行排序的算法。为了解决大型图的分布式计算问
169、题,Pregel 搭建了一套可扩展的、有容错机制的平台,该平台提供了一套非常灵活的 API,可以描述各种各样的图计算。Pregel 作为分布式图计算的计算框架,主要用于图遍历、最短路径、PageRank 计算等。深度学习(DL)在金融领域中的应用:(1)算法交易 基于深度学习的算法交易研究中,最常见的是与一些时间序列价格预测的模型相结合,以达到进行市场择时的目的,如通过 LSTM、RNN 等进行价格回归;或者对市场的趋势进行分类,以触发买卖信号,如用 DMLP、CNN 进行因子选股或者趋势分类;也有一些研究独立的算法交易模型,通过优化买卖价差、限制订单分析、仓位大小等交易参数来关注交易本身的动
170、态,如一些关于高频交易、配对交易的研究。(2)风险管理 深度学习可用于识别资产、公司、个人、产品、银行等风险。如破产预测、信用评分、信用评估、贷款/保险承保、债券评级、贷款申请、消费信贷终止、企业信用评级、抵押贷款选择决策、财务困境预测、企业危机预测等。由于资产定价高度依赖于这些风险评估措施。风险评估研究集中在信用评分和多头借贷的分类上,然而,也有一些关于抵押贷款违约可能性、风险交易检测和危机预测的应用。(3)欺诈检测 98 常见的金融欺诈,如信用卡诈骗、洗钱、消费信贷诈骗、逃税、银行诈骗、保险索赔诈骗等,这些也是机器学习在金融业中最广泛的应用领域之一。在机器学习中,这些类型的研究大多可以看作
171、是进行异常检测或者看作是一个分类问题。其中,一些研究主要应用于税务申报方面的财务欺诈和洗钱行为,例如通过 DL 模型如 MLP、LSTM 等做信用卡欺诈检测,通过 AE 做异常点检测等。(4)客户关系管理 客户关系管理(CRM)是一种集理念、组织、技术为一体的商业管理模式。其核心目标是让企业改善业务关系,优化交互流程并提高企业的盈利能力。自然语言处理(NLP)技术通过信息检索和语义识别帮助金融机构对客户对数据进行知识挖掘,进行摘要、分类,聚类,以及相似性检索。NLP 和深度学习在 CRM 上应用是通过对海量的语料数据进行分析和学习,可以更加精准地完成分词,识别,聚类等任务,从而实现更加准确的语
172、言理解能力。自然语言理解技术被广泛运用与智能客户关系管理当中,包括营销机器人与智能会议助手。(5)精准营销 在互联网行业,利用用户历史数据和机器学习等大数据技术,精准预测哪些人会成为该产品潜在用户的可能性高并对其进行商品的个性化推荐,以此来提高营销转化率。所以,不管是拉新还是留存,精准营销都是十分重要的用户维系方式。基于大数据的精准营销方案是利用大数据平台上的机器99 学习模型深入洞察客户行为、客户需求,客户偏好,挖掘潜出在客户,实现可持续的营销计划。4.4.数据可视化 广义的数据可视化涉及信息技术、自然科学、统计分析、图形学、交互、地理信息等多种学科,主要包括三个学科分支,分别是科学可视化、
173、信息可视化和可视化分析学。科学可视化是计算机图形学的一个子集,主要关注三维现象的可视化,目的是以图形方式说明科学数据;信息可视化研究抽象数据的交互式视觉表示以加强人类认知,抽象数据没有天然几何结构,一般通过柱状图、趋势图、流程图、树状图等形式来表达;可视化分析学通过交互式视觉界面进行分析推理。在金融领域,数据可视化主要指信息可视化。信息可视化主要包括 4 类,分别是:层次数据可视化、网络数据可视化、时空数据可视化、多维信息可视化。4.4.1.4.4.1.层次数据可视化层次数据可视化 在金融领域层次数据可视化主要是指将金融数据按层次与扁平等方式进行数据展示,主要的形式包括固定报表、嵌套报表、钻取
174、报表、树形报表、大屏、报告等形式。目前常见的组件主要有 UReport、Echarts 等。(1)UReport UReport 是一款高性能报表引擎,通过配置单元格可以实现复杂报表的展示。UReport 支持常见的报表存储与数据源配置、支持计算模型、表达式、函数、条件属性、参数、100 图表等功能,同时 UReport 中,还提供了基于网页的报表设计器,可以方便用户在页面中自助完成报表设计。图4-15 UReport报表设计模板(2)Echarts ECharts 是一款基于 JavaScript 的数据可视化图表库,提供直观、生动、可交互、可个性化定制的数据可视化图表。ECharts 提供
175、了常规的折线图、柱状图、散点图、饼图、K 线图,用于统计的盒形图,用于地理数据可视化的地图、热力图、线图,用于关系数据可视化的关系图、TreeMap、旭日图,用于多维数据可视化的平行坐标等,并且支持图与图之间的混搭。图4-16 Echarts架构图 101 Echarts 通过增量渲染技术,配合各种细致的优化,ECharts 能够展现千万级的数据量,并且在这个数据量级依然能够进行流畅的缩放平移等交互。ECharts GL 提供了基于 WebGL 的全 3D 显示功能,可以跟使用 ECharts 普通组件一样轻松地使用 3D 组件制作三维的地球、建筑群以及人口分布的柱状图等。4.4.2.4.4.
176、2.网络数据可视化网络数据可视化 网络数据可视化方法按布局策略分为结点链接法、相邻矩阵和混合法等。在金融领域网络数据可视化主要应用于企业关系图谱、反欺诈图谱、风险关系分析等场景。目前典型的组件主要有蚂蚁金服的 AntV 等。AntV Graphin,取名自 Graph Insight,是专门的图谱分析库。目前图分析已经被广泛应用在金融反欺诈、公共安全、基础设施监控、智慧医疗等领域。Graphin 提供了一个强大的图可视化引擎,提供图可视化分析的功能。图4-17 AntV 架构图 102 Graphin 针对图谱类数据支持:数据驱动、自动布局、分析组件、自定义样式等功能。图4-18 AntV配置
177、的图谱关系图 4.4.3.4.4.3.时空数据可视化时空数据可视化 时空数据可视化方法包括统计图表法、图形对比法、三维显示法、动画方法等。在金融领域时空数据可视化主要应用于总行、支行、网点位置信息的显示、圈选分析、路径检查、关联分析等场景。目前典型的组件主要有百度地图等。百度地图 API 是为开发者提供的一套基于百度地图服务的应用接口,包括 JavaScript API、Web 服务 API、Android SDK、iOS SDK、定位 SDK、车联网 API、LBS 云等多种开发工具与服务,提供基本地图展现、搜索、定位、逆/地理编码、路线规划、LBS 云存储与检索等功能,适用于 PC 端、移
178、动端、服务器等多种设备,多种操作系统下的地图应用开发。103 图4-19 百度地图接口模式 4.4.4.4.4.4.多维信息可视化多维信息可视化 多维信息可视化一般包括数据解释和数据显示两个阶段。数据解释将数据对应于可视化元素,并和数据显示长短、深度、方向、风格等可视化特征进行映射,然后通过组合不同的可视化方法进行数据显示。在金融领域多维信息可视化主要是指将金融数据按维度、指标等形式引导用户进行智慧的分析与显示,主要的形式包括多维报表、交叉报表、灵活查询等形式。目前常见的组件主要有 CBoard 等。CBoard 是一款自助 BI 数据分析产品,支持用户拖拽设计,自助完成数据多维分析与报表设计
179、。CBoard 支持用户交互式、自服务式拖拽多维分析,包括数据切块,切片,排序等,支持将一个数据集拖拽衍生出无数不同粒度的数据聚合,可以通过 20 余种不同图表进行展现形式。104 图4-20 CBoard多维分析效果 4.5.数据安全技术 4.5.1.4.5.1.数据存储加密技术数据存储加密技术 互联网的高速发展,企业的数据安全问题越来越受到重视。一是企业本身需要对自己的关键数据进行有效的保护;二 是 企 业 从 应 用 服 务 提 供 商(Application Service Provider,ASP)处获得应用支持和服务,因此,企业的业务数据存放在 ASP 处,其安全性无法得到有效的保
180、障。解决这些问题的关键是要对数据本身加密,即使数据不幸泄露或丢失,也难以被人破译。不同产品基于业务形态和客户需求,其存储加密的具体设计略有不同,但大体而言,存储加密中密钥层次会至少分为两层,并通过信封加密的机制实现对数据的加密。第一层为客户主密钥(Customer Master Key,简称 CMK),第二层105 为数据密钥(Data Encryption Key,简称 DEK),其中 CMK与 DEK 进行加解密操作和保护,DEK 为真实数据进行加解密操作和保护。在数据落盘存储时,云产品会将数据密钥密文(通过 KMS 使用 CMK 加密)在数据写入的时候,与密文数据(云产品在存储链路上使用
181、 DEK 加密)一同写入永久性存储介质中。顾名思义,信封加密中的“信封”指的是概念上数据密钥的密文和数据密文被打包在一个“信封”(Envelope)中。在读取加密数据时,数据密钥的密文也会一同被读取,并先于数据进行解密。只有在数据密钥被解密后,密文数据才能够被正常读取。4.5.1.1.常用数据库加密技术 信息安全主要指三个方面。一是数据安全,二是系统安全,三是电子商务的安全。核心是数据库的安全,将数据库的数据加密就抓住了信息安全的核心问题。对数据库中数据加密是为增强普通关系数据库管理系统的安全性,提供一个安全适用的数据库加密平台,对数据库存储的内容实施有效保护。他通过数据库存储加密等安全方法实
182、现了数据库数据存储保密和完整性要求,使得数据库以密文方式存储并在密态方式下工作,确保了数据安全。4.5.1.2.数据库加密技术的功能和特性 经过近几年的研究,我国数据库加密技术已经比较成熟。一般而言,一个行之有效的数据库加密技术主要有以下 6 个106 方面的功能和特性。(1)身份认证 用户除提供用户名、口令外,还必须按照系统安全要求提供其他相关安全凭证,如使用终端密钥。(2)通信加密与完整性保护 有关数据库的访问在网络传输中都被加密,通信一次一密的意义在于防重放、防篡改。(3)数据库数据存储加密与完整性保护 数据库系统采用数据项级存储加密,即数据库中不同的记录、每条记录的不同字段都采用不同的
183、密钥加密,辅以校验措施来保证数据库数据存储的保密性和完整性,防止数据的非授权访问和修改。(4)数据库加密设置 系统中可以选择需要加密的数据库列,以便于用户选择那些敏感信息进行加密而不是全部数据都加密。只对用户的敏感数据加密可以提高数据库访问速度,这样有利于用户在效率与安全性之间进行自主选择。(5)多级密钥管理模式 主密钥和主密钥变量保存在安全区域,二级密钥受主密钥变量加密保护,数据加密的密钥存储或传输时利用二级密钥加密保护,使用时受主密钥保护。(6)安全备份 系统提供数据库明文备份功能和密钥备份功能。107 4.5.1.3.对数据库加密系统基本要求(1)字段加密。(2)密钥动态管理。(3)合理
184、处理数据。(4)不影响合法用户的操作。(5)防止非法拷贝。4.5.1.4.数据加密的算法 加密算法是一些公式和法则,规定了明文和密文之间的变换方法。密钥是控制加密算法和解密算法的关键信息,他的产生、传输、存储等工作是十分重要的。数据加密的基本过程包括对明文(即可读信息)进行翻译,译成密文或密码的代码形式。该过程的逆过程为解密,即将该编码信息转化为其原来的形式的过程。(1)DES 算法,DES(Data Encryption Standard)是由 IBM 公司在 1970 年以后发展起来的,于 1976 年 11 月被美国政府采用,DES 随后被美国国家标准局和美国国家标准协会(America
185、n National Standard Institute,ANSI)承认,DES算法把64位的明文输入块变为64位的密文输出块,所使用的密钥也是 64 位,DES 算法中只用到 64 位密钥中的其中 56 位。(2)三重 DES,DES 的密码学缺点是密钥长度相对比较短,因此,人们又想出了一个解决其长度的方法,即采用三重 DES,三重 DES 是 DES 的一种变形。这种方法使用两个独108 立的 56 位密钥对交换的信息(如 EDI 数据)进行 3 次加密,从而使其有效密钥长度达到 112 位或 168 位,对安全性有特殊要求时则要采用他。(3)RSA 算法是第一个既能用于数据加密也能用于
186、数字签名的算法。他易于理解和操作,也很流行。算法的名字就是发明者的名字:Ron Rivest,AdiShamir 和 Leonard Adleman,但 RSA 的安全性一直未能得到理论上的证明,RSA的安全性依赖于大数的因子分解,但并没有从理论上证明破译 RSA 的难度与大数分解难度等价。即 RSA 的重大缺陷是无法从理论上把握其保密性能如何,而且密码学界多数人士倾向于因子分解不是 NPC 问题。RSA 算法是第一个能同时用于加密和数字签名的算法,也易于理解和操作。RSA 是被研究得最广泛的公钥算法,从提出到现在已近二十年,经历了各种攻击的考验,逐渐为人们接受,普遍认为是目前最优秀的公钥方案
187、之一。(4)AES 是美国高级加密标准算法,作为新一代的数据加密标准,汇聚了强安全性、高性能、高效率、易用和灵活等优点。AES 设计有三个密钥长度:128,192,256 位,相对而言,AES 的 128 密钥比 DES 的 56 密钥强 1021 倍。AES 算法主要包括三个方面:轮变化、圈数和密钥扩展。在理论上,此加密方法需要国家军事量级的破解设备运算 10 年以上时间才可能破译。加密领域主要有国际算法和国密算法两种体系。国密算法是国家密码局认定的国产密码算法。国际算法是由美国国109 家安全局发布的算法,上述算法属于国际算法,但由于国密算法安全性高等一系列原因。国内的银行和支付机构都推荐
188、使用国密算法,例如 SM1、SM2、SM3、SM4。SM1 对称加密算法,分组长度为 128 位,密钥长度都为128 比特,算法安全保密强度及相关软硬件实现性能与 AES相当,算法不公开,仅以 IP 核的形式存在于芯片中。采用该算法已经研制了系列芯片、智能 IC 卡、智能密码钥匙、加密卡、加密机等安全产品,广泛应用于电子政务、电子商务及国民经济的各个应用领域(包括国家政务通、警务通等重要领域)。SM2 为非对称加密,基于 ECC。该算法已公开。由于该算法基于 ECC,故其签名速度与密钥生成速度都快于 RSA。ECC 256 位(SM2 采用的就是 ECC 256 位的一种)安全强度比 RSA
189、2048 位高,且运算速度快于 RSA。国家密码管理局公布的公钥算法,其加密强度为 256 位。SM3 消息摘要。作用类似 MD5/SHA 系列。该算法已公开。SM4 对称加密算法。主要用于软件加密。4.5.2.4.5.2.数据脱敏、去标识化技术数据脱敏、去标识化技术 4.5.2.1.数据脱敏定义 数据脱敏是指从原始环境向目标环境进行敏感数据交换时,通过一定的方法消除原始环境中数据的敏感性,并保留目标环境业务所需的数据特性或内容的数据处理过程,常用的数据脱敏方法技术见下表。例如在中华人民共和110 国个人信息保护法中,对个人信息的安全处理措施包含加密和去标识化两种。加密是指对数据进行密码变换以
190、产生密文的过程(GB/T 39786-2021);去标识化是指建立在个体基础之上,保留个体颗粒度,采用替换(假名)、散列(哈希函数)等替代个人信息的标识(GB/T 35273-2020)。表4-8 数据脱敏方法对照表 序号 脱敏方法 脱敏技术 描述 举例说明 1 泛化 规整 将数据按照大小规整到预定义的多个档位 客户产生的业务费用按照金额多少分为高、中、低三个级别 如:0-10 万、10-30万、30 万及以上低、中、高 2 偏移取整 数据或者日期进行向上或者向下取整 将时间按照 10 秒钟粒度向下取整 如:20200322 18:08:1920200322 18:08:10 3 截断 将数据
191、尾部截断,只保留前半部分 保留收集号码前七位,截断剩余部分 如:1350001 4 抑制 掩码屏蔽 保持数据长度不变,但只保留数据信息 掩盖手机号码的第四位到第七位 如:135*0001 5 扰乱 重排 将原始数据按照特定的规则重新排列,对于跨行数据,采用随机互换来打破其与本行其他数据的关联关系,从而实现脱敏 大数据集合且需要保留待脱敏数据特定特征场景下,对数据进行重排 如:22,31,2731,27,22 6 加密 对脱敏数据进行对称加密算法、非对称加密算法等加密算法处理,使外部用户只能看到无意义的加密后数据,同时在特定场景下,可提供解密能力,使具
192、有密钥的相关方可获得原始数据 常用对称加密算法,如DES、3DES、AES 等 常用非对称加密算法,如 RSA、DSA 等 如:123456U2FsdGVkX19yci4oGpXvMfQJmzBfe9jV 111 序号 脱敏方法 脱敏技术 描述 举例说明 7 替换 如统一将女性性别替换为F,对内部人员可完全保持信息完整性,但易破解,常见的替换方式包括常数替换、查表替换、参数化替换 敏感数据都替换为唯一的常数值;从中间表中随机或按照特定算法选择数据进行替代;以敏感数据作为输入,通过特定函数形成新的替换数据;如:女F 8 散列 对原始数据取散列值,使用散列值来代替原始数据 常用 hash 算法,如
193、SHA-256、HMAC 等 如:123456ebe56e057f20f88310adc3949ba59abe 9 重写 参考原数据的特征,重新生成数据。重写与整体替换较为类似,但替换后的数据与原始数据通常存在特定规则的映射关系,而重写生成的数据与原始数据则一般不具有映射关系 对员工工资,可使用在一定范围内随机生成的方式重新构造数据;对手机号码,可在一定范围内按照规则随机生成构造数据 10 固定偏移 将数据值增加 n 个固定的偏移量,隐藏数值部分特征 根据数据值的业务场景,增加 1 个固定偏移量;如:2531253 11 局部混淆 保持数据中的 n 位不变,混淆其余部分 保持座机号码区号不变的
194、情况下,对其余部分进行混淆 如:-328192 12 均化 针对数值性的敏感数据,在保证脱敏后数据集总值或平均值与原数据集相同的情况下,改变数值的原始值 保持余额的总额不变的情况下,对数据进行脱敏 13 有损 限制行数 仅返回可用数据集合中一定行数的数据 后台系统不具备开放式查询能力,严格限制批量查询 14 限制列数 仅返回可用数据集合中一定列数的数据 查询人员基本信息时,不返回如余额、消费记录等敏感列 112 4.5.2.2.数据脱敏基本原则 数据脱敏要尽可能平衡数据脱敏花费的代价、使用方的业务需求等多个因素。所以,为了确保数据脱敏的过程及代价可控,得到满足业务
195、需要的结果,在实施数据脱敏时,遵循以下原则:(1)有效性:指数据脱敏过程的有效性,原始数据经脱敏处理后,原始信息中包含的敏感信息已被消除,无法通过处理后的数据得到敏感信息,防止使用非敏感数据进行推断、重建、还原敏感原始数据。(2)高效性:指数据脱敏过程的高效性,通过借助计算机程序实现脱敏自动化,并可重复执行,在不影响有效性的前提下,平衡脱敏的力度和代价,将数据脱敏工作控制在一定的时间和经济成本内。(3)可重现:即相同原始数据在配置相同算法和参数的情况下,脱敏后的数据具有一致性,随机类的算法除外。(4)关联性:对于结构化和半结构化数据,在同一数据表中某字段与另外字段有对应关系,如果脱敏算法破坏了
196、这种关系,该字段的使用价值将不复存在,通常在进行数据统计需要参考量的情况下,数据的关联性较高。(5)可配置性:指数据脱敏过程的可配置性,由于不同场景下的安全需求不同,数据脱敏的处理方式和处理字段也不尽相同,因此需通过配置的方式,按照输入条件不同,生成不同的脱敏结果,从而可按数据使用场景等因113 素为不同的需求提供不同的脱敏数据。4.5.2.3.数据脱敏实施方式 根据业界最佳实践,数据脱敏技术在实施方面主要通过两种方式实现,即静态数据脱敏和动态数据脱敏。这两种数据脱敏方式在功能和价值上区别不大,但两者在使用场景、技术路线和部署方式等方面有着显著的区别。(1)静态数据脱敏(Static Data
197、 Masking)静态数据脱敏(下文简称静态脱敏)是提前将生产数据变形后再提供给非生产环境使用的操作,从而可以阻止开发、测试、分析人员在测试、培训、分析过程中对敏感数据的非正当使用。静态脱敏通常是使用脱敏工具,提前在生产环境进行完整数据集的抽取和一次性整体数据变形处理,脱敏后的数据是以脱敏后的形式存储于外部存贮介质中,实际上已经改变了存储的数据内容。(2)动态数据脱敏(Dynamic Data Masking)动态数据脱敏(下文简称动态脱敏)是作用于生产数据的实时脱敏。动态脱敏工具针对数据库访问请求或请求结果进行监控和干预,分析用户权限,并运用脱敏规则对访问请求或请求结果进行改写。动态脱敏常用
198、于业务操作、运维管理、监管报送等场景,其主要功效在于一是避免生产环境中暴露敏感数据;二是实现快速响应。经过动态脱敏后,实际存储于生产库114 的数据未发生任何变化。(3)静态脱敏与动态脱敏的区别 综上所述,静态脱敏与动态脱敏在典型使用场景、技术路线、部署方式等方面的区别如下表所示:表 4-9 数据静态脱敏和动态脱敏对照表 静态脱敏 动态脱敏 技术路线 进行完整数据集的抽取和一次性整体数据变形处理 针对数据访问请求或请求结果进行监控和干预,分析用户权限,并运用脱敏规则对访问请求或请求结果进行改写 技术成熟度 相对成熟,有较多产品支持 初步发展阶段,成熟产品较少 典型使用场景 生产数据在研发、测试
199、等环境中的保护 生产敏感数据在页面展示方面的保护 部署方式 生产环境部署脱敏设备,在生产环境完成脱敏后,导入研发、测试环境。在生产应用服务器和数据库之间以代理模式部署脱敏设备,以及在应用服务器部署插件。数据内容 产生一个脱敏的数据副本,副本数据已改变 仅对展示数据进行脱敏,不产生副本,原始数据本身未改变 4.5.2.4.数据脱敏应用场景 数据脱敏的应用场景主要分为技术场景和业务场景,技术场景主要包括开发测试、数据分析、数据科学研究、生产、数据交换、运维等场景,业务场景包括但不限于信贷风险评估、骗保识别、精准营销、消费信贷等场景,常用数据脱敏应用场景见表 4-10。表 4-10 数据脱敏应用场景
200、 115 序号 场景分类 脱敏场景 场景描述 动态脱敏 静态过敏 1 技术场景 开 发 测试 应 用场景 金融行业开发使用的业务系统中存在大量的客户敏感信息,如姓名、年龄、手机号码、银行卡号码、地址、工作信息等,在系统建设前期,往往需要使用上述信息进行开发测试,此时需要使用脱敏技术来保证客户敏感信息不被泄露。2 数 据 分享 应 用场景 数据分享应用场景在一些特定需求下,部分隐私数据需要提供给其他机构或企业,但对其他隐私数据可进行抑制、扰乱等操作。3 数 据 科学 研 究应 用 场景 数据科学研究应用场景,其主要目的是通过数据进行研究,因此需要保留数据本身的一些特征。研究时需要保留的数据特征可
201、能是用户的年龄信息、性别信息、地区信息、行为记录等。但不需要保证保留用户身份信息和全部的敏感字段,只需要保留研究所必需的内容即可。4 生 产 应用场景 生产场景主要指各类业务场景,当涉及访问敏感数据时,需要对部分敏感数据做脱敏,这种场景下往往采用掩码屏蔽的方式对数据进行脱敏。5 数 据 交换 应 用场景 数据交换场景主要是通过 API 接口方式向特定平台提供数据,与生产应用场景相比,数据请求时会附带用户信息,需要对部分用户信息进行脱敏。6 运 维 应用场景 运维人员需要对数据库进行监控、维护,但对内部数据是不需要进行了解的,对于高敏感的数据采取脱敏的措施。7 业务场景 精准 营销 融合金融业务
202、数据和外部可信数据,借助大数据技术构建金融个人客户画像(人口统计学特征、消费能力数据、兴趣数据、风险偏好等)和企业客户画像(企业的生产、流通、运营、财务、销售和客户数据、相关产业链上下游等数据),并有效地开展精准营销,包括根据客户的实时状态来进行营销;不同业务或产品的交叉推荐;根据客户的喜欢进行服务或者产品进行个性化推荐等。这类大数据应用前台一般采用掩码屏蔽的方式对数据进行脱敏,后台一般采用干扰等方式对数据进行脱敏。116 序号 场景分类 脱敏场景 场景描述 动态脱敏 静态过敏 8 骗保 识别 借助大数据手段,保险企业可结合内部、第三方和社交媒体数据进行早期异常值检测,包括了客户的健康状况、财
203、产状况、理赔记录等,通过建设保险欺诈识别模型,大规模的识别近年来发生的所有赔付事件,并及时采取干预措施,减少先期赔付,显著提升骗保识别的准确性与及时性,这类大数据应用前台一般采用掩码屏蔽的方式对数据进行脱敏,后台一般采用干扰等方式对数据进行脱敏。9 风控 管理 基于企业内外部交易和历史数据,利用客户基本信息、账号基本信息、交易历史、客户历史行为模式、正在发生行为模式等,结合智能规则引擎,实时或准实时预测和分析欺诈等非法行为,主要用于信贷业务和欺诈防范,并与目前的征信建设相结合,如商户评分模型及审批规则、行业风险识别模型、人民银行征信报告评分模型、个人信用分析模型、风险客户预警模型、贷后实时监控
204、模型、反欺诈模型等。这类大数据应用前台一般采用掩码屏蔽的方式对数据进行脱敏,后台一般采用干扰等方式对数据进行脱敏。10 智能 投顾 基于客户的风险偏好、海量个人投资者真实投资交易信息的深入挖掘分析、交易行为分析,依靠大数据量化模型,洞悉交易个人投资者交易行为的变化、投资信心的状态与发展趋势、对市场的预期以及当前的风险偏好等信息,给客户更高的投资方案和投资产品推荐等投资顾问服务。这类大数据应用前台一般采用掩码屏蔽的方式对数据进行脱敏,后台一般采用干扰等方式对数据进行脱敏。4.5.3.4.5.3.联邦学习、隐私计算相关技术联邦学习、隐私计算相关技术 4.5.3.1.隐私增强计算技术 隐私增强计算(
205、Privacy-Enhancing Computation)亦可称为隐私计算、机密计算、加密计算,“隐私”也即是信息安全中的“机密性”。“隐私计算”即在保护数据隐私性117 的前提下,完成对数据的计算分析任务。面向金融行业敏感数据有使用需求而又不能明文出域的情况,隐私计算保障数据的隐私性,并使得数据参与了计算但是所有的参与者无法获取到敏感数据明文,达到数据“可用不可见”的效果。4.5.3.2.隐私增强计算主流技术 (1)多方安全计算 多方安全计算(Multi-Party Secure Computation,MPC)由中国科学院院士姚期智教授在 1982 年提出。主要研究在无可信第三方情况下,
206、利用密码学的方式,让各方数据安全地进行计算,而各自又不会得到对方的信息。多方安全计算包含多种底层密码学技术,包括不经意传输(Oblivious Transfer)、混淆电路(Garbled Circuit)、同态加密(Homomorphic Encryption)等。多方安全计算的定义可以通过下图描述:118 图4-21 多方安全计算示意图(2)可信执行环境 可信执行环境(Trusted execution environment,TEE),是指构建一个可信空间用于进行计算,这个空间独立于操作系统而存在,是一个可信的隔离环境,数据仅在这个安全环境内进行计算,通过空间隔离来保障其安全性,即使是平
207、台的管理员也无法访问该空间。目前可信执行环境的代表性硬件产品主要有 Intel 的 SGX、ARM 的 TrustZone 等,在中心化的大数据平台场景有极佳的适配性。4.5.3.3.联邦学习 联邦学习(Federated Learning,FL),是机器学习的一种延伸,使用分布式的方式让模型在不同数据源进行训练,实现共同建模,而数据又不会离开其生产环境。联邦学习最初由 Google 在 2016 年提出,早期主要针对安卓设备,通过利用用户的终端设备对本地数据进行本地模型训练,再将训练过程中的模型参数在中央服务器中聚合成一个全局模型,然后分发给终端设备使用。在实践中,联邦学习通常与其他隐私计算
208、技术相结合,以提升整体技术方案的安全性,保护数据提供方的原始数据以及训练过程中交互的中间参数的安全性。例如,联邦学习可结合差分隐私技术,对中间交互的参数加入噪声进行混淆加密,或使用同态加密或多方安全计算等技术使得中间参数的交互与计算以密文形式执行,以避免恶意方基于被交互的119 中间参数对其他方数据原始信息进行推断,从而保护各参与方的数据隐私。在金融应用中,联邦学习被认为是打破行业数据孤岛的有效工具,赋能金融机构间、金融机构与其他行业机构以安全合规的方式进行数据共享与数据价值挖掘,实现数据的可用不可见。具体到金融场景,联邦学习可应用于智能风控、智能投顾、精准营销、企业信审、金融反欺诈、反洗钱等
209、,解决多个参与方数据进行建模活动的隐私保护和数据安全问题。4.5.4.4.5.4.其他相关技术其他相关技术 随着数据要素的重要性日益提升,社会各界对于数据保护的要求也越来越高,随之,相关技术也得到长足发展,除了上述技术之外,还有促进数据共享的隐私保护集合求交技术(Private Set Intersection,PSI),实现高效加密的不经意传输(Oblivious transfer)技术、基于混淆电路(GC)、同态加密(HE)、秘密共享(SS)、Diffie-Hellman 等原理的加密技术等。120 第五章 风险挑战与应对 5.1.顶层设计和政策 5.1.1.5.1.1.风险挑战风险挑战
210、党中央、国务院高度重视数据产业在推进经济社会发展中的地位和作用。2014 年,大数据首次写入政府工作报告,自此,政府数据开放共享、数据流通与交易等概念深入人心。此后国家相关部门出台了一系列政策鼓励支持大数据产业的发展。2019 年,党的十九届四中全会决议通过的中共中央关于坚持和完善中国特色社会主义制度推进国家治理体系和治理能力现代化若干重大问题的决定(以下简称决定)中,首次将数据增列为生产要素,要求建立健全由市场评价贡献、按贡献决定报酬的机制。我国人口众多,经济体量庞大,如果能将“人口红利”转化为“数据红利”,有助于在数字经济发展的赛道上抢占先机。然而数据作为数字经济时代的全新生产要素,其独特
211、的属性使得数据要素市场在建立和发展过程中充满了挑战。首先,在数据统筹方面,我国数据资源开放共享刚刚起步,各行各业思想认识不一致,数据开放整体制度尚不成熟。中央和地方层面由于缺乏统筹,各地大数据机构设置和职能范围五花八门,有的属于省政府主管,有的隶属办公厅、发改委、经信委等职能部委,机构性质的多元带来运行机制各有差异。121 其次,在数据应用立法方面,数据作为一种虚拟环境物品,其权利体系的构成与界定与传统现实物品差异很大,需要对传统民事权利体系理论进行扩充和完善。数据权属和交易生成过程多元、多变且复杂。如在数据交易方面,数据权属、数据交易市场准入、市场监管以及纠纷解决等机制尚未立法规定。最后,在
212、数据安全防护方面的发展跟不上需求。数据显示,2019 年美国网络安全市场规模为 447 亿美元,我国同期网络安全产业规模只有 608 亿元,仅是美国的五分之一,与我国 GDP 的体量不符。在我国数字经济发展中,有关公民、企业。社会组织的海量信息被大规模的整合存储,这些数据一旦泄露,对个人而言会造成隐私泄露问题,对企业而言会造成商业秘密外泄的问题,对国家而言会造成国家安全隐患。5.1.2.5.1.2.应对措施应对措施 建议我国加强数据应用方面的顶层设计和政策扶持力度。首先,需要加强数据资源开放共享方面的顶层设计和统筹管理,构建超大规模数据市场所必须匹配得更加专业、更加精细的统筹决策和落地执行细则
213、。其次,建议进一步完善数据开放、数据交易和数据安全层面的立法,并完善数据安全防护方面的实施细则和落地手段。122 最后,建议加强在数据安全保障方面的政策扶持力度,用来鼓励和支持金融机构和金融科技公司加强制度流程、技术工具、人员能力等方面的数据安全能力建设。5.2.法律法规与标准 5.2.1.5.2.1.风险挑战风险挑战 “十四五”规划明确提出要统筹数据开发利用、隐私保护和公共安全,加快建立数据资源产权、交易流通、跨境传输和安全保护等基础制度和标准规范。然而,目前金融行业在数据治理、数据应用、数据安全方面的可遵循、可参考的法律法规和行业标准尚待完善。在涉及数据安全的法律法规方面,近年来,随着数据
214、安全保护浪潮的兴起和各国数据安全保护实践的深入,我国在数据安全方面陆续推出了系列法律法规及标准规范,在 2021年 6 月颁布的中华人民共和国数据安全法,其重点关注了数据安全保护和监管,为规范网络空间不同主体的行为提供了法律依据。尽管目前数据安全法的出台奠定了国家数据领域综合性的专门立法的基础,但其关于数据分类分级等内容的具体实施工作仍有待落实。在涉及数据安全的行业标准方面,我国网络数据安全标准化工作仍存在三方面问题:一是标准体系性不强,标准制定工作缺乏统筹协调,术语定义、分类分级等基础性标准尚不完善;二是部分关键标准亟须制定,数据安全评估、重要数据保护等重点标准进展缓慢;三是部分重点领域相关
215、标准123 仍存在空白,网络数据安全标准对 5G、移动互联网、车联网、物联网、工业互联网、云计算、大数据、人工智能、区块链等重点领域高质量发展的支撑作用有待加强。在数据资源产权确立以及数据流通应用等方面,目前相关的法律法规与行业标准仍是一个巨大缺口。尽管目前各地政府均加大了对数据资源的开发与利用,一些城市成立了大数据交易中心,但各大交易所的运营情况不尽如人意。这主要是因为在数据采集、数据流通、数据共享、数据交易等方面缺乏合理有效的统筹规划,当前的标准体系不完善、配套法律不健全,尚未形成安全、有效的数据共享机制。5.2.2.5.2.2.应对措施应对措施 加强数据要素的确权、立法工作,引导数据要素
216、安全、有序地互联互通将会成为数据要素市场化发展的下一步工作重点方向。商业银行、保险公司、证券机构等金融行业是数据的重要产出单位,尤其需要对数据质量、数据流通、数据安全保护等方面重视,强化数据安全治理的标准化体系,进一步提升数据的开发利用效率。一方面,需要通过构建自上而下、协调统一的数据安全治理规范,来建立可量化的数据质量管理指标、高效的数据生命周期管理流程、安全的数据存储和应用方案,进一步提升银行数据资产管理水平,提高数据应用效率,满足银行内部全面风险管理要求。另一方面,也需要构建高水平、规范124 化的数据安全治理架构,形成赢得客户、监管和社会信赖的基础。5.3.业、技、数的融合 5.3.1
217、.5.3.1.风险挑战风险挑战 金融行业是指经营金融和金融服务的特殊行业,包含银行业、保险业、证券业、信托业、租赁业。无论是哪一个细分行业,金融业的本质都是中介,其核心功能在于解决供需双方信息不对称或供需双方缺乏信任的问题。一方面,金融业的经营活动离不开对供需双方多方面信息的收集,以评估其信用质量等。另一方面,金融行业的产品开发、客户营销、风险控制等环节,也需要对其收集到的信息进行技术处理。因此,随着信息技术的迅猛发展,各行各业的数字化转型已经是大势所趋,在当前产业都在积极探索数字化转型战略,积极尝试数字化转型思路的热潮下,金融业也不能置身事外,需要利用数字技术对自身的经营活动进行转型升级。实
218、际上,随着大数据、云计算、人工智能等信息技术和移动互联网生态的发展成熟,数字技术已经在各类金融产品和金融服务上有所应用,特别是可以帮助金融机构撬动以小微客群为代表的长尾客户或利基市场。新一轮生态产业的变革,使得技术与业务的界限逐渐模糊,相互影响,并具有了深度融合的趋势。在技术影响业务方面,大数据技术从Oracle 到 hadoop 的进步,使得金融业的数据存储系统,由传统关系型数据库演变到大数据分析平台,进一步衍生出互125 联网征信、大数据风控等业务场景;在业务影响技术方面,业务应用场景也将成为驱动技术发展的新动力,比如由数据孤岛现象所引发的数据共享困难问题,其所涉及的用户隐私泄露等业务痛点
219、,促使联邦学习等技术的出现。5.3.2.5.3.2.应对措施应对措施 未来,技术与业务的融合发展必将成为金融行业转型的主要趋势,不可忽视的是,无论是业务场景的扩展还是技术手段的成熟,都离不开数据这一生产要素的支撑。可以预料的是,在数字技术助力金融业转型的过程中,数据、业务和技术是三位一体、缺一不可的。因此,需要加强业务、技术和数据的融合。首先,在数字化转型之后,金融业大量的线上业务,如获客营销、产品定价等对数据的依赖程度大幅提高。需要在业务和技术中,充分应用好数据,充分发挥数据的价值。其次,通过技术搭建场景的方式吸引客户从而被动收获数据,相比于单一的基于场景主动获取数据,其效果更好,成本更低,
220、可持续性更强。因此,既需要从业务场景中提炼数据,也需要将数据反馈应用到业务场景,实现数据在业务场景中的增值。最后,数据的价值在于分析和挖掘,当有了海量的数据,金融机构必须依赖数据分析、人工智能等技术进行处理,进一步得出有价值的决策依据。可以通过技术,将数据应用到业务场景中,提升业务成效。126 5.4.数据资产管理 5.4.1.5.4.1.风险挑战风险挑战 随着数字经济的蓬勃发展,数据在各个产业中的地位逐渐趋向核心。金融业作为数据密集型行业,对于数据质量的依赖程度尤其强烈,基于此,数据经营的意识在金融业不断增强,进一步地对数据管理提出了更高的要求。银行业金融机构数据治理指引中提出,“要树立数据
221、是重要资产的理念与准则”。当前的金融行业,由于技术积累薄弱、历史遗留问题难以解决等原因,往往对于数据资产的基础建设工作不够扎实、全面,从而导致数据的标准难以统一、质量参差不齐、应用水平较低等问题。当前金融业仍然存在整体数据质量不高现象,造成数据深入挖掘与高效应用的困难。部分金融机构在缺乏统一的数据治理体系,在数据采集、存储、处理等重要环节可能存在不科学、不规范等问题,容易产生错误数据、异常数据、缺失数据等脏数据,无法确保数据的完整性和准确性。在金融业数字化转型过程中,金融机构重点关注隐私保护和数据安全问题,同时积极通过有效手段解决数据价值挖掘欠缺、数据质量较差、数据治理缺乏顶层设计、数据孤岛现
222、象等突出问题。总之,目前金融业在数据资产的管理水平方面,还需要进一步提高。127 5.4.2.5.4.2.应对措施应对措施 建议金融机构和金融科技企业进一步加强和提升对数据资产的管理水平。首先,需要加强数据资产的基础建设工作,统一数据资产管理的标准,统一和加强数据资产的质量管理,提升数据资产的应用水平。其次,建立科学、统一的数据管控治理体系,形成数据管理和质量控制方面的基础规范、制度流程与技术方案。最后,需要形成数据资产管理的管控工具,通过管控工具,促进数据规范体系的落实,实现有效数据治理。5.5.数据安全与合规 5.5.1.5.5.1.风险挑战风险挑战 数据在不断创造价值的同时,其安全保护、
223、合规应用等问题也成为政、产、学、研、用等各界关注的焦点。一是数据发挥价值需要融合应用。数据跨层级、跨地域、跨系统、跨部门、跨业务的融合应用才能推动新模式、新应用、新业态的不断涌现,加速数字经济创新发展。二是数据可复制、可传输等特性期待多元创新的安全合规手段。数据的应用会涉及政府、社会、企业、个人等多方主体权益,关系到国家安全、经济运行、社会治理、个人权益等多主体,需要创新安全管理模式。三是数据的价值发挥和安全合规需要寻求动态平衡点。数据治理体系搭建需要兼顾发展和安全的平衡,128 既要保护数据主体的权益,也要实现公共利益和社会福利的最大化。数据安全和合规仍是多方主体数据协作过程中的痛点问题。一
224、方面缺乏能够兼顾安全合规和数据协作的合作机制与技术路径,无法消除数据主体之间对商业秘密泄露风险、商业利益分配等方面的信任鸿沟,传统的数据保护方案往往适用于单一的信息系统或者有可能降低数据可用性,导致无法满足现有的金融风控、金融营销等涉及跨系统的业务形态。另一方面黑灰产、隐私保护等问题也为不同主体的数据协作带来挑战。由于黑灰产的存在,不但加大了企业的数据保护成本,也扩大了数据泄露的风险。此外,由于企业的数据也会包含用户个人信息,在协作过程中如何有效进行个人信息保护也是数据价值挖掘的难点。5.5.2.5.5.2.应对措施应对措施 首先,需要金融行业的数据安全治理从合规驱动逐步走向自驱动。金融机构除
225、了满足数据安全合规要求以外,还需要通过数据安全治理,促进数字资产的价值挖掘与实现,促进金融结构的数字转型升级,实现自驱动。其次,需要建立持续迭代的数据安全治理体系。数据安全治理体系包括数据、业务、安全、技术、管理等多个方面,需要遵循循序渐渐的原则,充分了解金融行业的合规要求,对数据资产的运行情况、风险分布、数据流转需求等进行持续监管和分析,不断完善技术防护措施和管理体系。129 最后,需要加强隐私计算等新兴技术的发展与应用。基于隐私计算等新兴技术,可以促进金融机构在履行数据安全和合规责任的前提下,实现数据可用不可见,促进金融行业的数据协作与融合应用,促进金融行业数据价值的最大化。130 第六章
226、 发展展望与保障体系 6.1.市场主体发展多元化 在数据要素化的时代,以政府为首,企业及其他机构乃至个人皆参与其中,市场主体趋于多元化,各主体各司其职为市场做出相应贡献,进一步促进数据市场发展。一是政府将提升数据开放共享水平,促进数据市场交易流通。从数据存储的体量来看,政府是最大的数据生产者和拥有者,政府基础数据率先作为公共资源让各方共享,同时政府作为连接各方的纽带和平台,就能带动更多企业、团队、组织加入数据要素市场化配置的大潮中。从国家安全的角度来看,数据的特定用途或者特殊场景的数据归集与应用,必须由国家进行监管,政府在数据领域的监管不可缺位,如:在疫情防控当中通过三大运营商信号形成的行程轨
227、迹信息,是涉及个人隐私甚至有可能是国家安全的重要数据,只能由国家用于特定的疫情防控场景。政府在数据归集、流通、服务、保护上都做出了相应的贡献。二是企业将充分发挥市场主体作用及技术优势,推动数据要素市场及大数据产业蓬勃发展。数据的生产和挖掘为企业和社会带来巨大价值,逐渐形成以数据为导向的思维方式和生产方式。一切社会价值及其表现都可以数字化、数据化,并最终商品化。数字时代常见的企业平台可分为 B2C 和 C2C两类,数据依托互联网分布式结构不断生产,以更加碎片化的形态存在,边界难以精确划分,都可以产生直接或间接的131 价值,个人(用户)作为“数据源”、“数据生产者”、“平台服务使用者”的多重身份
228、加入其中。B2C 平台,作为信息技术的平台可以以近于零的边际成本与众多开发者/服务提供者分享,产生的价值与数据将随着规模增加而递增,但平台并非由开发者拥有。C2C 平台,使互联网公司完全变成“平台”,由服务提供者和用户进行交易,自己仅提供信息匹配和支付等基础服务,因此可以调动更大范围内的数据。这一模式的特点是,平台利用用户间交易持续获得数据,将用户的“免费劳动”转变为自身数据资产的一部分,通过简单的用户使用协议与交易各方保持灵活的服务关系。数据作为用户线上与线下活动被追踪记录后形成的副产品,凝结了用户和平台双方的共同努力,并在此过程中创生或挖掘了更多的数据。对于平台来说,集体性的数据池(Dat
229、a Pool)通过算法挖掘,可以促成更多的商业落地,推动更多交易达成;对于个体(用户)而言,通过提供更多的数据,享受到更加定制化、精细化的服务,但同时也希望隐私能够获得相应的保障,甚至期望对自身的数据拥有更进一步的收益权。三是数据交易机构、科研院所及产业孵化场所等第三方机构将为数据要素市场良性运转提供保障。大数据交易所、数据经济商等数据交易平台将积极发挥作用,参与构建数据价值评估体系,通过数据资产评估、登记结算、交易撮合及争议仲裁等形式保障市场行为自发有序进行;科研院所将积极研发数据交易流通过程核心技术,探索新型交易模式及安全保障制度,为数据要素市场运转提供技术支撑;产业孵化132 场所等将培
230、育更多合格的市场主体,丰富大数据供给侧企业规模,实现数据要素市场多元化发展。6.2.数据应用新业态 数据应用向着新业态、新模式发展。主要体现在多元场景、无感连接以及数据共享共建。6.2.1.6.2.1.多元场景多元场景 金融数据应用逐步在多元场景中探索。在精准营销方面,传统金融产品市场营销过程中,产品与用户金融需求存在较大差距、产品同质化严重、促销方式和促销渠道老化等问题。相较于传统金融营销手段来说,依托于大数据技术的精准营销手段能够更加准确、实时、动态掌握到更多用户细节,基于用户行为数据例如用户搜索、浏览及购买等预测用户的偏好和兴趣,从而构建用户 360 度立体画像,并通过客户细分来推荐合适
231、的金融产品达到精准营销、实时营销等个性化智慧营销;在服务创新方面,摒弃同质化的服务,通过大数据的分析应用,针对不同特征及需求的客户提供个性化的服务,改善与客户之间的交互、增加客户粘性,为客户与企业提供增值服务,不断增强金融企业业务核心竞争力;在产品创新方面,传统的银行理财业务流程繁琐,对理财周期要求也比较高。基于大数据技术并依托银行自身优势,对一些优质的网络金融理财产品进行功能改善,例如促进活期余额理财业务发展,通过高端数据分析和综合化数据共享,有效对接银行、保险、信托、基金等各类金融产品,例如借鉴余额宝等133 网络理财产品,提高客户活期存款价值,为用户提供更加多样化的金融产品;在金融风控方
232、面,依靠大数据与金融风控的融合,对金融风险管理起到很好的补充作用。运用大数据技术,可以整理、分析出各信息的内在关系,挖掘出数据信息所映射的风险,从而提高风险的甄别能力和控制能力。通过对各类信息进行量化,大数据技术可以实现对各类风险的识别分类,并进行实时监控。而基于用户数据来预测客户的未来行为,可降低信息不对称所带来的风险,更好地实现对金融风险的控制管理。未来银行是智能化、个性化、有温度且无处不在的,永远贴心陪在客户身边,服务无处不在。例如,某行信用卡以数字孪生理念和技术为抓手,以其独特的“双向交互”、“实时交互”、“全周期模拟”,通过物理、数据、模型、功能、连接,五维构建数字孪生闭环生态,高效
233、模拟预测未来,实现数据驱动的经营决策,支撑精细管理和创新发展。围绕产品获客、风险管理、客户经营、移动 APP 及场景生态,不断深化优质服务,助力客户追寻美好生活。6.2.2.6.2.2.无感连接无感连接 目前金融大数据在各个银行、金融机构、政府之间是完全独立的,形成各个机构间的“数据孤岛”。因此,基于数据共享理念,对数据进行整合形成大数据金融生态圈是金融数据应用发展的必然趋势。然而企业数据是每个企业的核心竞争力,尤其在金融数据方面,想要实现完全的数据共享几134 乎是不可能的。因此,无感连接被提出,他是指各个生态圈内的用户可以使用生态圈内的数据,却又无法访问数据的具体细节,即这些数据对用户是透
234、明的,无法看到的,用户也无法感知到这些数据被连接在大数据金融生态圈内。在不暴露数据的情况下分析和学习多个数据拥有者的数据,这就是机器学习中的联合学习方法。云计算、大数据、人工智能和区块链等新兴技术并非彼此孤立,而是相互关联、相辅相成、相互促进的。大数据是基础资源,云计算是基础设施,人工智能依托于云计算和大数据,推动金融科技发展走向智能化时代。区块链为金融业务基础架构和交易机制的变革创造了条件,他的实现离不开数据资源和计算分析能力的支撑。例如,针对教育信息化的转型升级,中国银行与腾讯微校就高校市场达成深度合作协议,将构建银行、企业和高校师生多方共赢的生态格局,为高等教育的信息化进程树立新的标杆。
235、双方将会同各地高校,以智能化为引领,以数字化为驱动,率先在校园建立起一码通行校园,一卡连接未来的校园服务新体验,在移动教学、智慧办公、便捷生活、金融服务、安全管理等领域持续探索创新,推动数字校园建设,助力教育现代化进程。6.2.3.6.2.3.共建共享共建共享 通过联合学习技术使得大数据技术实现金融数据应用上的无感连接成为可能。其中许多用户在中央服务器的协调下实现数据的共建共享,同时保持数据的去中心化及分散性。135 联合学习在不暴露数据的情况下分析和学习多个数据拥有者的数据,使机器学习在世界上最受监管,最具竞争力和最有利可图的行业中应用变得更容易,更安全,更便捷。他是当前非常活跃的研究领域,
236、在隐私,安全,个性化和其他领域也存在很多开放性问题。从未来发展趋势看,云计算、大数据、人工智能和区块链等新兴技术,在实际应用过程变得越来越紧密,彼此的技术边界在不断削弱,未来的技术创新将越来越多的集中在技术交叉和融合区域。尤其是在金融行业的具体应用落地方面,金融云和金融大数据平台一般都是集中一体化建设,人工智能的相关应用也会依托集中化平台来部署实现。新一代信息技术的发展正在形成融合生态,并推动金融科技发展进入新阶段。例如,“共建共享”的流通理念及双层运营机制推动数字人民币生态建设。一方面,科技企业可以为数字货币流通提供丰富的应用场景。另一方面,科技企业可以发挥特色优势,为数字人民币提供持续的技
237、术支撑和创新活力。科技企业在国家开放包容的政策环境中发展壮大,并在各自领域积累了特色优势和技术经验,可在场景层面为数字人民币的稳妥推进提供持续的技术支撑和创新活力。6.3.数据应用保障体系 一般而言,数据应用的保障体系包括数据战略、数据文化、组织建设、制度建设、数据标准、基础设施、人才培养等等。本文重点介绍从组织建设、人才培养以及内外部合作136 等措施来完善体系建设,后提出数据应用新业态对数据应用保障体系的新要求。6.3.1.6.3.1.组织保障组织保障 组织建设包括组织架构、岗位设置、团队建设、数据责任等内容,是各项数据管理职能工作开展的基础。根据银行业金融机构数据治理指引,组织架构需要明
238、确董事会、监事会、高级管理层和相关部门的职责分工,建立多层次、相互衔接的运行机制设。表 6-1 金融业数据治理组织架构 组织架构 数据责任 团队岗位 董事会 制定数据战略,审批与数据治理相关的重大事项,督促高级管理层提升数据治理有效性,对数据治理承担最终责任 监事会 负责对董事会和高级管理层在数据治理方面的履职尽责情况进行监督评价 高级管理层 负责建立数据治理体系,确保资源配置,制定和实施问责和激励机制,建立数据质量控制机制,组织评估数据治理的有效性和执行情况 根据实际情况设立首席数据官 数据管理部门 牵头负责实施数据治理体系建设,协调落实数据管理运行机制,组织推动数据在经营管理流程中发挥作用
239、 设立满足工作需要的专职岗位 业务部门 负责本业务领域的数据治理,管理业务条线数据源,落实数据质量控制机制,加强数据应用,实现数据价值 设置专职或兼职岗位 金融业数据能力建设指引(JR/T 02182021)中也有上述组织建设的相关能力要求与工作措施建议,其中“建立覆盖管理、技术、运营等的复合型数据团队”对于数据应用工作开展格外重要。金融机构数据治理组织架构基本都符137 合上述指引建议与要求,以中国银行集团数据治理架构为例,其组织架构如下图。图6-1 中国银行数据治理组织架构 中国银行近年推进数据治理体系改革,通过上述组织架构,持续完善集团数据治理能力,包括:加强董事会、监事会和高级管理层在
240、集团数据治理决策层面的统筹职责,深化金融数字化委员会作为数据治理专业决策和协调机构的领导作用;夯实数字资产管理部作为集团数字资产统筹管理部门的职能定位;在总行其他部门配置从事数据管理和分析应用工作的专门人员;在境内分行建立数字资产管理中心或团队,负责落实本机构范围内的数据管理和应用工作;在海外机构、综合经营公司指定部门或专门人员负责数据治理工作等。建设银行数据治理架构与中国银行类似,主要的不同之138 处是在数据管理部下设置了大数据智慧中心。建设银行大数据智慧中心的设置即体现了 金融业数据能力建设指引“建立覆盖管理、技术、运营等的复合型数据团队”能力建议。通过打造业务和科技融为一体的实体组织架
241、构,建立符合数据类项目快速敏捷要求和螺旋式迭代优化特征的管理机制,智慧中心每年实施 250 余个大数据应用项目,服务总行近 30多个部门以及分行及子公司,实现对业务发展的有力支撑。6.3.2.6.3.2.人才培养人才培养 随着数字化转型的日益深入,大数据分析将不仅仅应用于产品和业务的创新改进,还将进一步发挥创新催化剂和转型助推器的作用,推动金融行业经营理念、组织架构、管理模式等的全面调整和深度整合,驱动金融行业数字化转型不断深化。海量数据的分析处理过程需要大量专门从事数据搜集、整理、分析,并依据数据做出研究、评估和预测的专业人员。金融行业现有数据分析师队伍难以有效支撑规模化、急迫性、持续性的分
242、析需求,亟需充实队伍、打造一支数字化转型的生力军。6.3.2.1.6.3.2.1.数据分析处理人才能力要求数据分析处理人才能力要求 与传统的数据分析师相比,互联网时代海量规模的金融交易数据、客户数据无法通过自动化软件工具快速完成撷取、管理、处理、并整理成为帮助金融单位经营决策,而是需要139 大批具备较宽知识储备、较强实践能力、较高创新意识和团队合作意识的数据分析师协同完成。数据分析处理人才首先应具备获取大数据的能力,例如能根据任务的具体要求,综合利用各种计算机手段和知识,受理整理海量数据并加以存储,为支撑相关的决策和行为做好数据准备。数据分析处理人才还应具备大数据分析的能力,例如对于经过预处
243、理的各类数据,能够根据具体的需求,进行选择、转换、加载,采用有效方法和模型对数据进行分析,并形成分析报告,为实际问题提供决策依据。综合来看,数据分析处理人才的要求是比较高和全面的,需要具备较好的数学功底,良好的统计学知识、数据分析、商业分析和自然语言处理等较宽知识背景的人运用掌握的计算机辅助分析相关技能。6.3.2.2.6.3.2.2.人才培养管理探索人才培养管理探索 建立数据分析师多层级组织架构,明确职责和边界分工。建立核心数据团队、部门业务团队和区域综合团队多层级、多类型数据分析师团队,各团队协作联动。核心数据分析师团队牵头企业级大数据分析工作,承担分析师队伍建设统筹、重难点数据分析项目实
244、施、企业级数据分析服务支持等职能;部门业务分析师团队主要负责需求发现、成果落地工作,同时自主实施本领域小型数据分析项目;区域综合分析师团队负责推广应用企业级分析项,同时开展本地化特色数据分析140 应用。在实际工作中数据部门和业务部门横向互动,组成柔性团队,各自发挥“懂数据、会分析”和“懂业务、能落地”的天然优势,实现“业数”融合;各团队上下级联动,核心数据团队向下传导数据分析经验、知识、技能等,区域综合团队快速复制推广企业级数据分析成果。健全数据分析师人才梯队架构,确保人才成长周期性和队伍稳定性。数据分析师是社会热门的复合型金融科技人才,不仅技能要求高(要精通专业的分析算法、模型、工具,更要
245、熟悉金融行业的业务、数据和系统)、培养周期长(至少需要 1-2 年),作为一个团队,还需要建立一定的人员梯队,给予分析师足够的职业成长空间,才能保持队伍的稳定性、激发工作活力。完善数据分析师流程机制和管理要求,是工作开展的前提和基础。需要制定相关制度办法,明确了各级各类分析师的准入标准、职能定位和培养模式等。建立分析师联动工作机制,加强分析师技能培训。建立企业级数据分析师人才库,对分析师实行“名单制”管理,明确分析师准入标准、职能定位,强化考核和激励。转变数据分析师数据理念,提高数字化洞察力,挖掘深度数据价值。金融行业既是数据的生产者,又是数据的消费者,只有深入参与“管数据”,才能“懂数据”,
246、进而逐步具备“用好数据”的能力。数据分析师团队需要转变数据理念,既要应用数据做分析,又要在分析过程中发现数据问题、141 推动数据治理、提升数据质量,逐步形成数据应用的生态价值链闭环,更好地发挥数据对业务的服务支撑作用。6.3.2.3.6.3.2.3.人才培养能力提升人才培养能力提升 (1)跟班学习。通过学习有新意、贴近工作且有代表性的数据分析处理典型案例,让分析师们更清晰地理解大数据的概念、含义及思维方式。以完成实际项目、解决实际问题为目标去学习,培养数据分析师掌握专家规则、机器学习等数据分析的基本方法和流程,积极开展数据分析师岗位资格考试。(2)项目驱动。通过高级数据分析师“老带新”,持续
247、带动初级分析师成长,通过核心数据团队、部门业务团队、区域综合团队联合开展数据分析项目的方式,要求每位数据分析师每年至少深度参与一个数据分析项目,在项目实践中,边赋能,边提升,变“新手”为“熟手”。(3)培训交流。为了针对初级、高级数据分析师进行分层培养,开设专题数据分析训练营,以实战培训班帮助数据分析新人快速入门数据分析工作,开展专题培训帮助高级数据分析师拓展思路。打造数据分析师分享会等平台,宣讲大数据分析用数理念、传导数据分析前沿方法和技术,有组织地为分析师日常“充电”。(4)知识共享。核心数据团队数据分析师掌握数据分142 析核心能力,在大量的项目实践中积累了丰富的数据分析实战经验,并以模
248、型库、特征库、案例库等形式将其沉淀形成知识库,面向全行共享,提升分析师工作效率。(5)技能竞赛。通过举办数据分析大赛,设置数据建模赛和成果评选赛两个赛道,以此激发数据分析师用“数据+算法”解决业务问题的意识,以赛促学、以赛带练,并为数据分析师经验交流搭建舞台。6.3.3.6.3.3.内外部合作内外部合作 金融行业是数据密集型产业,已在多年发展中积累了大量的各类数据,近年随着数字化转型的需求,对数据的需求愈渐增长,内部数据已无法满足应用多样化、服务智能化的情况下,外部数据对于银行的重要性逐步凸显。从画像构建到行为预测,从精准营销到风险防控,银行通过内外部数据融合,打破信息壁垒,发挥数据赋能,实现
249、数据驱动业务发展。6.3.3.1.6.3.3.1.外部数据合作方式外部数据合作方式 在实际业务中,外部数据并不能轻易获取,一方面是线上场景大多被头部互联网公司占据且易形成生态闭环,无论从商业利益角度或是客户隐私的角度出发,都不会轻易共享数据;另一方面是与第三方进行数据公司合作。目前外部数据服务包含以下几类:(1)数据库直连,对于一些部署在Oracle、SQL Server、143 Hive、PostgreSQL 等主流数据仓库的数据源,可以实现直接对接。(2)数据接口对接,供应商提供接口如 API 或 SDK:API接口是通过 HTTP 的方式提供服务对接,对接方发起 HTTP 请求,解析第三
250、方服务返回的数据;SDK 开发包要求对接方将第三方服务提供的 Java 方法进行调用,不再对第三方服务发起 HTTP 请求。在设计初期需要明确接口地址、请求/返回参数、数据格式等技术方案,经过接口开发、数据测试、数据获取环节实现数据对接。在与外部数据服务合作过程中,各业务系统对数据需求多样多变,可能导致数据重复采购、重复调用,同时计费难、没有对账,业务成本无法分摊等问题。为应对以上问题,可通过建立外部数据管理平台及数据统一服务体系,提供统一的供应商管理、数据测试、采购管理及付款记录等全流程管理,兼容多厂商的接入驱动、加密策略及服务模板,零代码实现与供应商接口对接。同时随着数字经济的高速发展,各
251、类信息泄露和滥用事件频发,对数据安全和隐私保护的需求越来越迫切。国家也制定各类政策法规,从法律制度上完善对数字经济和数字社会的保障。数据安全法和个人信息保护法等法律法规的颁布实施,对数据安全和隐私保护也提出了更高的要求。基于以上背景,多方安全计算,或者说隐私计算成为解决这一问题的另一路径。通过隐私计算让“数据孤岛互联”、“数据隐私保护”和“业务反战”三者之间取得平衡。144 6.3.3.2.6.3.3.2.内外部数据应用场景内外部数据应用场景 对商业银行来说,数据的作用集中体现在精准营销和业务风控。银行内部数据有很高的金融价值属性,可通过引入运营商、司法、税务、工商等外部数据提升风控和营销效果
252、。精准营销角度,可包含客户管理为方向的分析与建模,包括客户画像、流失挽回、价值提升、交易分析等细分场景,可引入:身份标签、交易、地域等外部数据。以及以产品视角的分析与建模,如产品推荐、精准营销、交叉销售等细分场景,可引入:身份标签、社交、通讯、电商、APP 使用等外部数据。风险管理方向的分析与建模,包括信用评估、欺诈预警、风险定价、行为评估、贷后监控等细分场景,引入:公安、征信、司法、税收、票据、多头、行业黑白名单、企业经营流水等外部数据。其他管理方向的分析与建模,如:利率预测、舆情分析等细分场景,在利率预测中引入宏观数据进行预测。6.3.3.3.6.3.3.3.内外部合作保障措施内外部合作保
253、障措施 为了构筑安全合规的数据合作新模式,需要在数据合作中对数据的应用采取一定措施来保障数据合作的安全和合作的可持续性。(1)健全数据合作标准规范与制度体系,加大数据合作安全的监督检查力度 145 加快对于金融数据合作标准规范和合作管理制度建设等基础工作,加紧研究制定和完善当前急需的金融数据合作相关的标准规范,配合国家和行业监管部门,重点加强交易反欺诈、反洗钱、内控审计和营销反欺诈等相关技术法规与标准。密切结合本单位信息化发展实际,借鉴国内外先进经验和做法,加紧建立和完善集中式数据合作运营的规范和制度体系,加强数据安全各项规章制度建设,健全岗位责任制度,全面落实“让标准说话,按制度办事”的数据
254、合作安全管理准则。建立健全数据合作安全检查和责任通报机制,依据已确立的技术法规、标准与制度,定期开展数据合作安全的检查工作,确保数据合作安全保障工作落到实处,对检查中发现的违规行为,按规定处罚相关责任人,对检查中发现的安全问题和隐患,明确责任部门和责任人,限期整改。(2)以密码技术应用为基础,加快数据合作信任体系建设 根据国家密码管理相关规定,合理运用密码技术和产品,规范和加强以身份认证、授权管理、跟踪审计等为主要内容的数据安全合作信任体系的建设。对数据合作过程中,重要信息的传输、存储要采取一定强度的加密措施,规范和强化密钥管理。通过身份认证、访问控制、内容过滤、信息加密、网络隔离等措施,防范
255、来源于内部和外部的网络威胁。严格网络安全配置管理,制订合理的网络服务策略和强制路径策略,强化外部连接用户认证,加强远程诊断接口的保护,146 优化网络结构,划分网络安全域,利用国际互联网提供金融数据服务的信息系统要与办公网实现安全隔离,加强网络边界防护,保证重要数据不被泄露、篡改或非法利用,保证交易双方的身份真实性并防止抵赖行为的发生。(3)推进合作企业的风险评估,实施对外部合作商的分类分级 根据国家风险评估有关标准,采取以自评估为主,委托评估和检查评估为辅的方式,在数据合作的全过程中实施必要的合作企业的风险评估。要适时、有效开展风险评估,重要系统的合作企业至少每2年进行一次评估,并根据合作企
256、业的评估结果,及时研究整改存在的问题,实施安全加固。严格控制对合作企业的风险评估过程,规避评估风险,采取预防性应对措施,审慎选择外部商业评估队伍,同时做好评估全过程的安全保密工作。6.3.4.6.3.4.数据全面安全保障数据全面安全保障 在数据安全保障体系上,包括技术和管理两大部分,各部分既有机结合,又相互支撑。预计未来更多金融企业将更加着力提升数据网络安全、数据系统安全、数据传输安全,以满足不断提升的数据隐私保护意识和监管对于安全性不断提升的要求。6.3.4.1.6.3.4.1.数据网络安全数据网络安全 (1)洞悉复杂性 147 当下,我们生活在一个网络无处不在的世界,其中,数字化转型连续加
257、速,远程办公日趋普及。科技创新及其驱动的创新文化,似乎已远远超出我们能够认知、衡量并应对这些成倍增长的风险的能力。尽管风险环境日益严峻,数字化转型和迁移上云仍是客户的首要任务。当下,企业为保持竞争力,采用融合自建基础设施与混合 IT 架构,并与第三方云供应商开展合作等一系列信息技术举措。这些复杂的集成环境需要不同于传统内部 IT 架构的新型管理形式。如何转型以及了解日益复杂的混合生态系统是其面临的最大挑战。新冠疫情不仅造成市场压力,还宣告着远程办公时代的到来。无论大型还是小型企业,都在迅速变革工作环境,随之而来的就是网络攻击面大大增加,但企业往往很少甚至没有时间思考安全问题。毫无意外,攻击事件
258、频繁发生。得益于近期计算能力的提升,企业中零信任架构的出现和采用到企业中广泛的文化变革,揭示了网络安全的角色如何转变,其重要性如何提升。零信任不仅仅是一种技术修复,他是一套相互交织、洞悉敌对活动及相关业务风险、并变革与消减风险的方案集合。这种洞察需要 IT 部门和业务部门之间的协调,以及整个企业的安全意识提升和培训。(2)重构网络防御 黑客变得越来越老练,也越来越了解资产的市场价值。无论是医药、知识产权、工程和产品专利、客户或其他关键数据,企业将继续增加其网络防御预算。148 随之而来的挑战是,如何确保这些投入能够提高在日益复杂的混合网络生态系统中被放大的风险的透明度。除获得技术和经验外,还要
259、求企业进行组织变革,以推动从企业到合作伙伴和第三方供应商的有计划地治理。技术在发展,首席信息安全官的职责也在变,随着网络在企业中蔓延渗透,必须重新定位首席信息安全官在企业架构中的位置。除简化汇报线外,增进与首席执行官的关系,也有利于加强首席信息官对业务优先事项的理解,并及时捕捉创新。首席信息安全官,这一新的运营角色在企业内更高的参与度,能够确保网络安全团队将必须满足的要求、技术方案和控制措施完全切入到创新举措中,这不仅在一开始就将风险降到最低,还能将产品和服务开发的整体风险降到最低。展望未来,尽管没有简单的组织或技术解决方案能够洞察支撑现代企业日益复杂的集成网络生态,但是却有许多组织、文化和运
260、营方面的措施一旦结合使用,可以促使企业将安全网络嵌入其业务举措和上海品茶的核心,嵌入其不断发展的技术生态系统。下一代技术发展将继续打造更加互联互通的世界。(3)网络安全及转型挑战 在任何行业保持竞争力,都需要快速开发新产品和服务,并推向市场。创新型业务模式不仅仅是简单地将现有流程数字化,其正在覆盖供应链并打造新颖的客户体验。这种转型也使企业面临新的网络风险,要求企业采用新的网络战略,保护不断发展的业务模式。为管理这些风险,公司高管和董149 事会成员需拥抱变革,实施跨业务线的有效治理,并引进风险管理流程,以实现对所有新接入业务的端到端可见度洞察,也包括由第三方承接运营的业务领域,能否成功取决于
261、企业高级管理层的承诺,以及在网络安全方面有效投入及他们理解网络安全风险的能力。由于网络威胁会影响整个企业,可能使业务瘫痪并迅速摧毁来之不易的声誉,因此,董事会务必要以他们能够理解的方式评估网络风险。他们需要将网络威胁与其擅长处理的风险进行比较,熟练分析网络风险情况,就像其了解资产负债表的健康情况一样。一旦他们能够理解其所面临的网络风险的性质和规模,他们才知道如何分配资源才能最好的减轻风险。6.3.4.2.6.3.4.2.数据交易安全数据交易安全 数据是数据驱动型经济的一项核心资产,其日益重要的作用推动了数据交易产业的快速发展。数据交易过程依赖数据交易平台作为数据买方和数据卖方的纽带,数据卖方的
262、数据在数据交易平台的帮助下流向数据买方。数据交易平台虽然一定程度上加速了数据的共享和流通,但是目前数据交易平台仍然存在很多问题:(1)不诚实的数据买方在获得数据卖方的源数据之后,可能会将数据卖方的源数据转卖给其他人,损坏数据卖方的利益。150 (2)由于数据卖方的源数据流经数据交易平台,不诚实的数据交易平台可能在未经数据卖方允许的情况下缓存数据卖方的源数据并对其进行转卖,进而损坏数据卖方的利益。(3)部分数据交易平台是中心化系统,存在单点故障的问题,如果数据交易平台发生故障,那么多个数据卖方和数据买方都会受到影响。目前缺乏一种可靠的数据交易生态系统来同时解决以上三个问题,最早的数据交易中心同时
263、存在以上三个问题,贵阳大数据交易所以及 INFOCHIMPS 虽然不会缓存卖方的源数据,但是他们都是中心化系统并且数据买方会转卖数据卖方的源数据。公信宝虽然使用区块链作为去中心化系统来提高系统的容错性,并且数据交易平台本身不缓存数据,但是同样无法防止数据买方对数据源的二次售卖。综上,目前迫切需要一种新的解决方案能够做到保护数据卖方源数据不会被数据交易平台或者数据买方进行二次转卖以及针对单点故障具有良好的容错性。为了解决数据交易平台中存在的安全问题,基于区块链的安全数据交易生态系统(Secure Blockchain-based Data Trading Ecosystem,SDTE)实现了一种
264、数据安全交易机制。首先,在 SDTE 中,数据卖方将数据发送给数据买方在区块链上部署的智能合约进行处理,SDTE 也对输出数据的大小进行额外计费以及禁用智能合约之间的调用来防止恶意智能合约输出源数据,买方无法直接获得源数据,保证了源数据的安全;其次,通过对源数据以及执行结果进行加密并且使用151 Intel Software Guard Extensions(SGX)技术保护加解密以及智能合约的执行过程,保障智能合约从输入到执行再到输出结果过程中的数据买卖双方数据的安全性,防止数据交易平台窃取隐私数据并进行二次转卖,不但如此,为了防止系统中角色的抵赖和欺诈,SDTE 中部署了数据交易管理合约来
265、约束交易过程中的抵赖行为。大数据服务平台基于区块链数字实名身份及区块链大数据交易平台的订单信息及支付情况,向大数据客户交付大数据商品。通过客户身份信息、数字签名、安全因子等请求凭证数据验证客户身份的真实性、锁定交易法律责任主体,拒绝非法调用。通过双向安全传输层协议(Transport Layer Security,TLS)商定加密传输算法及密钥确保交付数据传输安全。将交付过程写入区块链,使数据流转具有可追溯性。6.3.4.3.6.3.4.3.数据传输安全数据传输安全 数据生命周期安全问题。伴随着大数据传输技术和应用的快速发展,在大数据传输生命周期的各个阶段、各个环节,越来越多的安全隐患逐渐暴露
266、出来。比如,大数据传输环节,除了存在泄漏、篡改等风险外,还可能被数据流攻击者利用,数据在传播中可能出现逐步失真等问题。又如,大数据传输处理环节,除数据非授权使用和被破坏的风险外,由于大数据传输的异构、多源、关联等特点,即使多个数据集各自脱敏处理,数据集仍然存在因关联分析而造成个人泄漏的风险。152 通过区块链信息的不可篡改、不可抵赖保证非对称密码学算法公钥的不可篡改、不可抵赖,从而保证基于非对称密码学算法的数字签名机制的可信性,最终保证数据源的身份可信。由数据源自行生成非对称密码学算法的公钥与私钥,数据源将公钥及全网唯一的数据源标识发送到区块链网络,由区块链智能合约保存数据源标识及公钥,建立数
267、据源标识与公钥之间一一对应的关系,验证者通过数据源标识向区块链网络上的智能合约查询公钥,然后验证签名是否合法。理论上,数据源不需要公布私钥,只需自己保管好私钥即可,这样就避免了私钥在网络传输过程中被窥视、被截取的风险。与基于单点信任的审计模型相比,在区块链技术环境下,利用共识机制、智能合约等技术,以数据为导向开展审计,确保数据完整性、一致性及流转过程中的可追溯性。综上所述,数据应用新业态新模式的发展与对数据治理体系建设提出了更高更符合发展的要求,而数据应用的好坏或成果依赖于数据治理体系的整体建设。除了组织建设、人才培养、内外部合作需要加强外,数据战略顶层设计、夯实数据治理基础、开展数据文化建设
268、等保障措施也都是数据应用的基础工作,“夯实数据治理基础”工作任务艰巨,任重道远。153 第七章 典型案例 7.1.数据要素价值案例 7.1.1.7.1.1.案例案例 1 1 工商银行数据资产管理平台建设工商银行数据资产管理平台建设 7.1.1.1.7.1.1.1.案例背景案例背景 工行具有业界领先、体量最大、数据最全的金融大数据体系。从数据体量上看,行内数据湖、数据仓库、搜索索引、知识图谱等数据汇总容量达到 PB 级;从领域上看,行内数据覆盖数据服务类、智能模型类、基础数据类等全域大数据资产;从场景使用上看,行内数据涉及客户营销与服务、风险管控、经营管理、监管报送等多方位场景;从用户上看,行内
269、数据使用方囊括总行、境内境外分行、子公司业务用户,以及数据分析师、数据科学家、科技条线研发人员等多机构、多角色用户。本项目旨在强化本行数据管理和运营工作,让大数据创造大价值。7.1.1.2.7.1.1.2.案例概况案例概况 该平台从技术架构方面上,为做好全局性数据资产的统筹管理,打造了两类资产、三类用户、六大能力的数据管理和运营体系。“一个体系”:数据管理和运营体系;“两类资产”:数据资产、数据服务资产(Data API);“三类用户”:业务人员、数据分析师、科技人员;“六大能力”:154 数据资产盘点、数据资产分析、数据资产治理、数据资产安全、数据资产运营、数据资产应用。从业务功能方面,建立
270、覆盖数据全生命周期的数据治理保障,实现“数据可控”;统一数据资源编码,建立和完善数据资源目录,实现“资产可见”;强化数据资产安全保护,全方位守护好数据安全,实现“资产可信”;对数据资产信息的全面采集和融合创新使用,实现“资产易用”;通过数据资产运营和流通,盘活数据资产价值,实现“资产增值”。7.1.1.3.7.1.1.3.解决方案解决方案 本平台在技术和业务分别做出了解决方案创新。在技术方案上,实现了如下创新点:(1)自动盘点:建设业务部门易懂、易管、易用的数据资产目录。(2)智能治理:建立数据质量全流程闭环管理,实现数据质量问题可追溯、可跟踪、可闭环。(3)科学运营:建立以“数据驱动”的数据
271、资产迭代运营机制。(4)溯源分析:建立数据资产全链路分析机制,实现数据产生路径的可溯源。(5)高效洞察:以数据资产画像为媒介,打通技术元数据和业务元数据,全面洞察数据资产信息。(6)数智融合:面向全行各业务场景和需求,提供即插即用的数据管理和运营服务,屏蔽底层技术细节和业务逻155 辑,快速将数据生产要素管理和运营的能力输出,助力各专业有效利用可信、可用、易用的数据资产开展业务创新和转型发展。在业务方面,实现了如下创新点:(1)数据全生命周期管理机制:建立先登记注册、后设计开发、重管控运营的全流程管理机制,实现数据资产全生命周期管控。(2)数据治理科学评价机制:建立数据质量健康评价体系,实现数
272、据质量治理情况可量化、可度量。(3)科技与业务融合机制:打通数据资产中业务和技术的融合通路,将数据以业务语言交付给业务,以此形成“数据驱动业务”的长效机制。(4)数据资产价值评估机制:建立数据资产价值评估体系,形成数据资产价值化管理能力。(5)普惠用数机制:数据资产一站式应用,降低用数门槛,创新“普惠”用数新模式,全面提升数据应用效率。(6)数据资产可视化运营机制:数据资产大屏动态展现,创新数据资产运营新模式。7.1.1.4.7.1.1.4.案例成果案例成果 在经济效益方面,通过建设覆盖全行的数据资产管理平台,提高数据资产的管理水平,深入挖掘数据价值,赋能工商银行经营的数字化转型发展,为工商银
273、行全集团的业务发展提供新引擎和新动力,全面提升全集团的经营业绩。在社156 会效益方面,数据资源作为重要的生产要素,是各行各业发展的核心因素之一。数据资产管理平台建设过程中沉淀和形成的数据管理能力实践经验,将对整个金融行业以及我国的国际竞争优势带来巨大的收益。7.1.2.7.1.2.案例案例 2 2 浦发银行数据资产目录建设浦发银行数据资产目录建设 7.1.2.1.7.1.2.1.案例背景案例背景 目前在浦发银行数据资产管理平台上,有三类数据的数据资产目录需要重点梳理和建设,分别是外部数据、非结构化数据、指标数据。外部数据以行业分类,从数据的范围考虑,外部数据以行业分类可以保证在范围上没有遗漏
274、。但是以行业分类仍然存在一些问题,比如很多数据没有特定行业难以归类,无法达到以业务视角切入的目的等。非结构化数据目前散落在各个业务系统中,全行没有统一存储和管理非结构化数据的系统和部门。所以需要对全行系统进行非结构化数据内容收集。指标数据的查询需求日益增加,但仍缺乏对全行指标的管理,所以需要增加指标数据目录。7.1.2.2.7.1.2.2.案例概况案例概况 外部数据的需求要点包括:以业务口径设计目录;金融市场数据可以按金融工具分类;数据可以标注上应用场景标157 签;数据可以区分数据范围是分行还是针对全国;据所属行业可以清晰分辨。非结构化数据目录以全行公认的板块划分为切入点进行设计,便于分批次
275、按系统进行资产盘点。并且,目录与基础数据目录保持一致,便于管理和用户使用。指标数据的数据目录建设,除了建立指标的基础信息(包含业务信息和管理信息)和模型信息以外,还建立以指标服务为目的的技术信息,包括连接信息和缓存信息。7.1.2.3.7.1.2.3.解决方案解决方案 对于外部数据,使用者业务视角出发建立,以外部数据使用者的实际使用习惯为基石,并且做到在表的粒度上满足“相互独立,完全穷尽”。根据以上原则,针对各级目录确定了目录建设的参考和方法:表7-1 数据目录建设的参考和方法 目录层级 参考 方法 二级二级 行内业务板块划分 专家经验 以业务视角出发建立 三级三级 GB/T 35273202
276、1 JR/T 019720212 行内公共标签 数据之家概念模型 专家经验 从标准出发,确保相对稳定 结合行内实际,符合业务习惯 对于非结构化数据,由源系统填写的字段包括序号、系统编号、系统名称、文件内容、业务类型、内容要素、文件类型、文件格式、源系统存储路径、索引中英文名、数据库名称等。如果数据湖设定统一的索引表格式,则数据湖回传158 的字段包括数据湖存储路径、数据湖索引中英文名、数据湖数据库名称。对于指标数据,基于报表的多维模型主题框架,按照“板块业务分类业务细分”建立分类目录。另外,还需要建立比较完善的对于指标的运营机制,包括指标上报、模型信息、上游依赖、板块分类等。7.1.2.4.7
277、.1.2.4.案例成果案例成果 建设完成对于外部数据、非结构化数据、指标数据的数据资产目录建设。对于外部数据,数据资产目录部分结构如下:图7-1 外部数据的数据资产目录结构 对于非结构化数据,数据资产目录设计如下:外部数据目录全景视图15债券股票商品指数外汇基理财产品贵属货币市场衍品细分业信息宏观经济信息业险信息政府政策信息节假信息物流信息地理信息法律法规诉信息发票验真疫情信息IP地址查询催告票据信息地区安全险预警信息天信息新闻舆情信息图例:例:159 表7-2 非结构化数据的数据资产目录结构 按顺序填写序号 行内系统编号 行内系统名称 简短描述该类非结构化文件的内容 描述该类非结构化文件包含
278、哪些业务类型,以逗号隔开 描述该类非结构化文件包含哪些要素,如表格的字段等,以逗号隔开 例 ZH-0059 影像管理平台 身份证影像 开户办理 身份证号,姓名,性别,出生,住址 填写具体的文件类型 填写该类数据所涉及的所有文件格式,以逗号隔开 填写该类数据的具体存储路径 填写存储该类非结构化文件信息的索引表英文名 填写存储该类非结构化文件信息的索引表中文名 填写索引表所在的数据库名称 图像 JPEG,PNG,TIFF nas.bpmp22018 nas.bpmp22019 DOCUBPMP2_S 业务流程管理平台_电子账户开户表 DM_SPDB_DOCBASE_01 对于指标数据,将指标数据描
279、述分为“板块业务分类业务细分”三级目录,如下表:表7-3 指标数据的数据资产目录结构 板块 业务分类 业务细分 零售板块 存款 零售_存款 零售板块 贷款 零售_贷款 公司板块 存款 公司_存款 公司板块 贷款 公司_贷款 金融市场板块 存托管 金融市场_第三方存管 金融市场板块 存托管 金融市场_托管 运营管理 网点运营 运营_网点管理 内部管理板块 财务管理 内部管理_总账分析 公共维度 公共维度 公共维度 160 7.1.3.7.1.3.案例案例 3 3 某集团全域数据资产治理某集团全域数据资产治理 7.1.3.1.7.1.3.1.案例案例背景背景 某集团是国际领先的综合金融服务商,建设
280、本项目的背景由两部分驱动。外部驱动:金融监管机构为确保金融业健康发展和有效风险控制,对数据治理的监管要求日趋严格。如银行业金融机构数据治理指引中要求,需要全面遵循的全覆盖原则,如构建覆盖各层级的数据治理组织、制度、规范和考核评价体系,建立覆盖内外部的全域数据资产和全生命周期的数据治理能力,覆盖各项业务和数据的质量监控体系和整改机制,覆盖全域数据的资产目录等要求,进一步明确了金融业数据治理建设要求。内部驱动:随着互联网金融等新型金融业态的快速崛起,更多商业银行、传统金融机构面临更多挑战。全面开展数字化转型成为刚需,如何制定数据驱动战略,建设高质量数据资产,推动数据流通,体现数据价值,是新时期金融
281、业数据治理的内在核心动力。本项目旨在如何有效建设数据治理体系,开展各类数据治理活动,盘活数据资产,形成数据驱动力,高效赋能业务。7.1.3.2.7.1.3.2.案例案例概况概况 构建完整的数据治理顶层设计,3+1 总体架构。即 3 个体系规划+1 个技术平台底座。(1)数据治理组织体系规划:形成三层数据治理组织,决策、高级高管理层、执行层,并分别赋予不同的权利、履161 行不同的职责,权责一致保障数据治理组织结构的稳固性和可行性。(2)数据治理制度体系规划:根据惯例组织的服务层次和决策次序,制度框架分为政策、制度、指引细则三个梯次,覆盖协调机制、考核机制、数据合规管控、数据需求管理、数据标准落
282、地、数据质量保障、监督检查等方面。(3)数据治理流程体系规划:包括管理流程、数据标准相关流程、数据质量相关流程、认责考评流程、数据治理实施流程等方面规划。基于 3 个体系的总体架构规划,结合数据治理平台的技术底座支撑,同步开展具体数据治理工作的实施和运营。7.1.3.3.7.1.3.3.解决方案解决方案 (1)流程管理:数据治理平台的核心功能,需要支持各项数据管理流程线上化运行,包括数据标准、数据质量、元数据、数据需求管理、数据治理考核、数据治理自评估等流程,可以将各项维护和管理工作嵌入流程,实现数据治理的常态化。(2)数据标准管理:基于数据标准的落地情况分析,依赖于数据标准与数据字段的映射关
283、系。支持数据标准线上维护、版本管理、标准码值的落标比对等功能。(3)数据质量管理:包括数据质量规则知识库,自动管理数据字典和数据标准的映射关系,生产质量核验规则;162 自动化数据质量规则调度和检核功能;流程上支持自动质量问题派发和结果反馈跟踪功能;质量统计和问题分析等功能。(4)元数据管理:衔接数据质量与数据标准等管理领域,建立数据加工链路、支撑源数据的血缘分析和影响分析、展示全域数据地图等功能。(5)数据需求管理:提供面向业务用户的数据需求通道、跟踪反馈机制、线上需求审批、问题跟踪等功能。支持发起数据需求申请、审批和退回流程,数据需求可以包括取数、用数、数据分析应用需求等。7.1.3.4.
284、7.1.3.4.案例成果案例成果 提高了该集团数据管理水平,提升了数据质量,发挥数据价值,为后续数据资产持续运营增值,提供保障。7.1.4.7.1.4.案例案例 4 4 某公司数据标准管理某公司数据标准管理 7.1.4.1.7.1.4.1.案例背景案例背景 由于公司业务快速发展,不同业务环节产生的数据内容越来越多,不同业务环节之间数据交互越来越频繁,某公司逐渐产生了数据项名称、数据定义、数据的业务理解及技术理解出现差异等问题。通过建立数据标准,该公司有利于消除业务和技术理解偏差,有助于促进数据交互及使用,更好地支持数字资产的有效利用,以及公司整体数字化转型战略。因此有必要建立数据标准,从管理、
285、业务、技术等角度规范数据项的命名、定义、规则及使用统计口径等。163 7.1.4.2.7.1.4.2.案例概况案例概况 数据标准工作目标是根据数据盘点和数据标准调研工作结果,梳理应用频繁以及各系统之间交互使用的数据项,借鉴行业上成熟的数据标准工作方法,建立该公司数据标准框架、编制各类数据标准、形成数据标准台账。7.1.4.3.7.1.4.3.解决方案解决方案 数据标准框架包括对基础数据的业务属性、技术属性、管理属性进行定义的一套统一的规范,保证各业务系统对数据的统一理解、对数据定义和使用的一致性。(1)业务属性 业务属性是从业务层面对数据的统一定义,包括业务领域、业务子领域、业务对象、维度中文
286、名称、维度中文别名、维度业务定义。业务领域是具有共同业务特征、属于某一宏观业务领域的数据项集合,参考业界的仓库主题模型划分,分为协议领域、参与人领域、产品领域等。业务子领域,用于区分同一领域下不同产品/不同类别的信息,比如产品业务领域下又有子产品业务子领域,普通债融等,参与人领域下又有投资人、融资人等业务子领域。业务对象是核心业务实体或子流程的维度集合,比如资金账号。维度中文名称是对当前数据库中维度中文名称的一个标准化命名。164 维度中文别名是当前数据库中维度的中文名称。(2)技术属性 技术属性是从技术实现层面对数据的统一规范和定义,包括维度英文名称、数据类别、数据长度。维度英文名称是当前数
287、据库中维度的英文名称。数据类别是维度取值参考类别,包括字符、数字、日期、时间、字典类别。数据长度是对维度的长度和精度的定义。(3)管理属性 管理属性是从标准的管理层面对数据的统一规范和定义,包括各类编码、负责业务部门、相关业务部门、权威系统、状态、维护时间。各类编码为各分类或维度的唯一识别码。负责业务部门为维度产生的主责部门。相关业务部门为维度使用部门。权威系统描述维度内容以哪个来源系统为最权威。状态描述维度标准目前是生效还是已失效。(4)字典维度取值 针对字典维度取值定义了定义原则、编码规则、引用规范、代码值、代码值对应名称。其中定义原则分四种情况,第一种是有外部标准,源系统无相关代码;第二
288、种是有外部标准,源系统有相关代码;第三种是无外部标准,源系统有相关代码;第四种是无外部标准,源系统也无相关代码。第一种和第四种是适用于新增字典维度,第二种和第三种是适用于已有字典维度。对于新增字典维度,有外部标准,参考外部标准,无外部标准,如果有行业经验可供参考,即参考行业经验,无行业经验可供165 参考,根据专家意见制定。对于已有字典维度,有外部标准和源系统相关代码,先整合源系统相关代码,再判断是否符合业务要求,如果符合,沿用整合后的源系统相关代码,如果不符合,参考外部标准。无外部标准,源系统有相关代码,参考源系统。编码规则,指几位几级编码,对于新增字典维度,无外部标准,一级,采用两位顺位编
289、码方法,“01、02、”。多级,第一级,为便于检索,用一位英文字母表示其顺序,二级、三级等采用两位顺位编码方法。引用规范指引用的国家标准/行业标准哪个规范。7.1.4.4.7.1.4.4.案例成果案例成果 通过数据标准的制定和执行,规范了公司业务数据、业务内涵以及外延,形成管理人员、业务人员、技术人员统一认识的标准化术语,规避了由于各方理解不一致引起的信息不对称问题;实现了不同系统间数据共享、数据与外部的交互、各级人员对数据使用口径的一致性。7.2.数据能力建设案例 7.2.1.7.2.1.案例案例 5 5 农业银行数据分析挖掘平台农业银行数据分析挖掘平台 7.2.1.1.7.2.1.1.案例
290、背景案例背景 在大数据时代,通过海量信息收集、数据处理和数据分析,纷繁复杂的人类行为变得有规律可循。开展分析挖掘工166 作是为了更好地利用数据,发掘大数据价值,将数据价值转变为企业利润。为满足全行数据分析师对大数据资产的深度挖掘及价值转化的需要,农业银行于 2017 年正式上线农业银行数据分析挖掘平台。7.2.1.2.7.2.1.2.案例概况案例概况 农业银行的数据分析挖掘平台定位为面向数据分析师的专业化工作平台和数据分析建模实验平台。致力于构建开放融合、计算高效、服务专业、功能全面、体验友好的企业级平台,为全行数据分析人员提供专业的工作台、良好的用户交互界面、便捷的操作风格、丰富的分析挖掘
291、工具、集成的算法库,以及开放的交流社区和共享的数据分析知识库,支撑数据分析挖掘的全流程,让数据分析人员更直观地进行数据探索,挖掘数据价值,为全行数据价值的深度挖掘和综合应用提供有效利器。7.2.1.3.7.2.1.3.解决方案解决方案 农业银行的数据分析挖掘平台主要包括以下模块:(1)数据接入与预处理中心。实现跨平台批量数据接入,提供数据同步及预处理过程,根据特征库加工形成特征数据集;(2)智能模型训练环境。提供数据探索、特征加工、特征工程、模型构建、模型评估、模型验证、模型发布等全流程建模支撑;167 (3)智能模型运行中心。提供模型上下线、模型运行监控、灰度测试、模型跑批等模型运行功能,实
292、现跨平台模型的统一运行;(4)AI数字资产中心。积累AI建模过程形成的特征库、模型库等数字资产,形成模型训练和运行的共同基础,实现特征、模型的共享和复用。(5)分析挖掘平台管理体系。实现数据权限管控、工具管理、业务流转、系统安全等方面的管理功能。为解决运行与训练流程隔离、各应用独立搭建运行环境费时费力、业务需求响应慢、系统资源重复部署等问题,平台建立了模型运行中心。模型运行中心提供模型上下线、模型运行监控、模型跑批等模型运行功能,实现跨平台模型的统一运行。7.2.1.4.7.2.1.4.案例成果案例成果 该平台中的数据分析不仅可以帮助银行进行日常业务运作和管理,更重要的是可以作为战略资产,与管
293、理决策相结合,帮助银行改进业务流程、提升业务绩效、促进业务创新。目前,我行数据分析已覆盖了主要业务领域,在服务全行产品创新、精准营销、案防风控、管理决策的同时,带动了数据分析工具、队伍、管理等的滚动发展,让大家感受到了数据“金矿”的巨大价值,促进了全行大数据分析生态的逐步养成。168 7.2.2.7.2.2.案例案例 6 6 中国银行企业级数据字典建设中国银行企业级数据字典建设 7.2.2.1.7.2.2.1.案例背景案例背景 中国银行经过系统大集中后,经过几年的发展,建立了以核心交易系统为中心,外围系统丰富、数据集市成熟的系统架构。随着数字化时代的发展,越来越多的海量数据积累以及大数据应用需
294、求的提升,对系统的数据提出了越来越高的要求。不同系统间数据的统一规范和互联互通,数字资产的统一定义和管理等等,是我行在大数据时代要面临和解决的新课题。中国银行在2019年进行数据治理体系改革后,决定开展企业级数据字典建设,通过建立我行“全面、统一、规范、通用”的一本全集团统一的数据字典,为我行系统开发建设、数据分析应用提供一致的数据标准及规范,形成集团准确、可视化的数字资产地图,充分发挥数字资产的价值。7.2.2.2.7.2.2.2.案例概况案例概况 企业级数据字典是对中国银行全部数据的标准化释义和统一规范,是适用于该行系统建设、产品设计、数据分析的“中行百科”。数据字典项清单作为企业级数据字
295、典的核心内容,规范了全行业务用语,明确了技术开发时的数据库字段规范,是全行系统落标的重要依据。企业级数据字典内容建设方面,2020年该行分三批完成249个业务交易系统数据项的梳理和整合,并经过专项数据169 字典质量提升计划后,最终形成并发布企业级数据字典。目前,企业级数据字典包括基础数据、指标数据、技术数据、外部数据共16万余个数据字典项。数据字典平台建设方面,2021年5月投产上线集数据字典管理、数据质量与安全管理等功能为一体的数据字典平台,实现了数字资产管理、数据需求管控、全文检索、中行百科等功能,提升用户体验,使用户更方便、快捷、全面地获取企业级数据字典信息。7.2.2.3.7.2.2
296、.3.解决方案解决方案 企业级数据字典内容建设:全面梳理交易系统数据项,识别“同义不同名”“同名不同义”项,进行统一整合优化,形成标准规范的企业级数据字典项,企业级数据字典包括基础数据、指标数据、技术数据、外部数据共16万余个数据字典项。根据“谁主管,谁负责”的原则,明确字典项业务主管部门,明确字典项安全级别信息等,进一步丰富企业级数据字典属性。同时,构建企业级数据字典的词根词库,建立数据字典最细粒度的通用规范。数据字典平台功能:数字资产管理方面,实现企业级数据模型、企业级数据字典、业务系统数据项等内容的线上统一管理;数据需求管控方面,完善数据字典为核心的数据需求管控流程,实现数据需求生成、管
297、理、应用数据项登记配套服务;数据质量管理方面,实现数据质量检核、数据治理评估、数据质量检查等工作的线上统一管理;提升用户体验170 方面,实现全文检索、中行百科功能,提升用户体验,使用户更方便、快捷、全面地获取企业级数据字典信息。中国银行系统数量众多,各应用系统间无统一的数据标准和规范,全行数据资产盘点工作难度较大、困难较多、需要投入大量的人力资源,同时,更需要探索科学的方法论。该行按照“边建边用、以用促建”的原则,精心制定方案,总分行、各条线广泛参与,以敏捷迭代的方法不断优化工作方法论,经过一年左右的时间初步建成企业级数据字典。7.2.2.4.7.2.2.4.案例成果案例成果 企业级数据字典
298、是提升全行数据资产管理的基石,通过企业级数据字典,可以展示集团数字资产地图,对数据管理和数据应用都起到不可或缺的作用。同时,企业级数据字典能够实现对数据的追踪溯源,为全行提供统一的标准与规范,不断提升数据对业务的服务支持能力,提升数据分析挖掘能力,实现数据价值的逐步释放和发挥。7.2.3.7.2.3.案例案例 7 7 腾讯云隐私计算隐匿查询接口在信贷风控腾讯云隐私计算隐匿查询接口在信贷风控中的应用中的应用 7.2.3.1.7.2.3.1.案例背景案例背景 当个人客户向银行申请信贷申请的时候,银行需要审核用户质量,评估个人违约还贷的风险;亦被称为个人信贷风171 控。风控评分 A 卡模型是个人信
299、贷风控的经典模型之一。7.2.3.2.7.2.3.2.案例概况案例概况 当银行客户向银行提出借贷申请时,银行需要整合各种方面的资讯来评估违约风险。传统模式下,银行如果需要引入外部数据来提升效果,需要分享明文的还款表现数据给合作数据方用以建立评分卡。这样的做法一定程度上泄漏了客户隐私,也违背了监管要求,因此未能普遍采用。为了发挥外部数据价值,提升模型预测的准确性,银行现在可以联合其他数据方进行联邦建模,在保护客户隐私数据不泄漏的情况下,利用外部数据建立模型。7.2.3.3.7.2.3.3.解决方案解决方案 图 7-2 腾讯云隐私安全计算框架 当客户向该银行提出车贷申请时,银行将使用申请评分172
300、 卡(A 卡)评估用户逾期还贷风险,但仅使用人行征信数据和行内积累的数据,对好与坏客户的区分能力有限。为了提升评分卡的区分能力,银行联合其他数据方建立新的评分卡。同时,为了保障客户信息安全,使用了联邦学习技术进行建模。并在实际生产应用时,银行通过在线打分接口结合匿踪查询服务提供用户借贷逾期风险评分,以避免客户 ID 的泄漏。7.2.3.4.7.2.3.4.案例成果案例成果 某银行在做房贷车贷风控模型的时候,与某移动互联网综合数据服务创业公司合作;银行放提供样本标签,数据服务公司提供样本特征,双方构建联邦逻辑回归和联邦梯度提升树模型,对客户进行信贷风控评估。在不暴露数据明文的前提下,模型的特征维
301、度被数据服务方丰富优化,风控模型准确性得以提升。7.2.4.7.2.4.案例案例 8 8 客户画像与行为分析:农业银行“智挽客”客户画像与行为分析:农业银行“智挽客”数据产品数据产品 7.2.4.1.7.2.4.1.产品背景产品背景 农业银行信息管理部通过数据分析发现,全行个人客户存款余额从春节前到年中呈现急增急降的趋势。以江苏分行为例,2020 年除夕前夕个人存款比年初新增 1248 亿元,一个月后个人存款较峰值流失 507 亿元,流出存款占比为40.63%,整体流失趋势直到 5 月或 6 月才结束。而通过对基173 层网点的走访调研发现,基层管理人员和客户营销人员无法对需要挽留的客户进行精
302、准营销。尤其在春节前后,面对行内个人存款的大额流入又流出现象,客户经理无法及时定位需要重点营销的客户,从而无法提前采取针对性营销策略挽留客户资金,丧失了最佳营销时机。针对这样的现状,急需设计一款移动端营销工具,发挥数据的力量,提前预测有大额资金流失的重点客户,帮助客户经理采取适当的挽留措施降低个人存款的流失率,并通过智能匹配金融产品,推送差异化的金融服务方案至客户经理,辅助其高效地开展精准营销活动。7.2.4.2.7.2.4.2.产品简介产品简介 “智挽客”深入运用大数据技术,通过精准识别易流失客户、预测大额资金流入及分析客户行为偏好智能化推荐金融产品等方式,找到对的客户,并且在对的时间里推送
303、对的金融产品,之后依托农行统一的数据中台和营销中台完成数据的加载和应用,将数据中台与 DCRM 的能力较好衔接,打通了数据“筛选加载展示回收优化”的营销闭环,助力客户经理及时洞察易流失客户并实施资金挽留,提升客户资金归行率,为我行智慧营销树立应用标杆。同时,“智挽客”基于全行统一的营销工具,部署在营销宝“数据产品”专区,便于在全行快速推广复用。174 7.2.4.3.7.2.4.3.产品功能产品功能 (1)易流失客户预测。利用大数据技术,根据客户金融行为特征,每月末预测下个月易流失客户清单供客户经理重点关注和营销。(2)客户挽留。建立多个机器学习和专家经验规则模型,分别预测易流失客户存款、基金
304、、理财、贵金属的购买概率,并对高购买概率客户匹配相应的金融产品,通过精准营销的方式挽留客户资金。(3)客户详情展示。客户经理点击某个客户进入客户详情展示页之后,可查看脱敏后的客户基本信息、当前持有产品信息、资产结构、近几个月的交易对手等信息,便于客户经理了解客户资产持有偏好。(4)客户营销。提供短信、掌银两种方式作为客户经理触达客户的渠道。其中,通过掌银营销成功之后,客户经理可实时收到营销捷报。7.2.4.4.7.2.4.4.产品收益产品收益 (1)江苏分行应用效果:智挽客上线后应用于江苏分行 2021 年“春天行动”营销,在春天行动期间累计营销客户 22.37 万户,成功营销 4.73 万客
305、户购买我行产品,综合营销成功率为 21.13%,总营销成功金额 666.87 亿元,挽客成效显著。(2)全行推广效果:目前正由总行个人金融部和信息管理部牵头在 19 家分行推广应用。“智挽客”对全行流失175 客户的预测准确率较随机选取客户提高约 4 倍,截至 9 月末,共有 878 个网点的 1511 名客户经理应用产品,累计营销客户 1.28 万人次,营销后客户金融资产规模(AUM)流失率降低 1.6 个百分点。7.2.5.7.2.5.案例案例 9 9 获客与活客:农业银行“智迎客”数据产品获客与活客:农业银行“智迎客”数据产品 7.2.5.1.7.2.5.1.产品背景产品背景 尽管当前客
306、户离行趋势愈发明显,但等级越高的客户越倾向于到网点办理业务,来行客户的营销价值仍然十分宝贵,尤其是大量客户来行次数变少后,难得的“面对面、有温度”的营销机会更加值得珍惜。然而,由于缺乏数据分析工具和产品,网点营销还停留在传统的人工营销方法上,需要花费大量时间了解客户需求和匹配金融产品,营销精准度和成功率较低。7.2.5.2.7.2.5.2.产品简介产品简介 中国农业银行“智迎客”通过实时分析多维度客户画像标签,在网点营销人员侧精准推荐迎客任务,大大提高了“面对面”营销的成功率。同时该产品支持各分行根据需求个性化定制迎客活动。7.2.5.3.7.2.5.3.产品功能产品功能 (1)客户身份感知。
307、立足于网点,客户通过超柜、叫号机、柜面等渠道办理业务时,可实时精准识别来行客户176 身份,并通过 PAD 推送给大堂经理和客户经理。(2)客户筛选。“智迎客”根据客户画像标签,筛选目标客户,目前已支持掌银未注册或非月活客户以及数字人民币钱包未开立客户的自动筛选。(3)客户营销。网点营销人员在营销 PAD 的“智迎客”数据产品中,可查看迎客任务。点击迎客任务,根据客户画像,可弹出营销活动二维码,引导客户参与营销活动,完成掌银拉新/促活及数字人民币钱包开立的营销。(4)统计查询。各级网点负责人,管理员可查看辖内各网点明细流水、统计报表、排行报表,指导网点开展智迎客业务。(5)分行特色消息展示。支
308、持分行自定义配置和维护分行专区特色产品、服务或优惠链接信息,以及展示分行特色信息,满足分行特色化营销需求。7.2.5.4.7.2.5.4.产品收益产品收益 (1)福建分行应用情况:福建分行辖内 600 多网点通过“智迎客”有效识别客户 154 万名,推送各类营销消息118 万条,带动掌银月活客户数 44.54 万户,来行掌银客户促活率达 63.35%。(2)全行推广应用情况:9 月全行累计拉新客户240.96 万户,来行客户当月累计掌银拉新率、促活率分别为 21.72%和 20.47%。累计成功营销 12.6 万名客户开立数字人民币钱包,营销成功率为 7.7%。177 7.2.6.7.2.6.
309、案例案例 10 10 精准营销:建设银行“信标灯精准营销:建设银行“信标灯 2.02.0”客户直”客户直营产品营产品 7.2.6.1.7.2.6.1.产品背景产品背景 为进一步做好数字化直营工作,中国建设银行开展了“信标灯 1.0”项目,以公众号作为主战地,以“龙易选”、“客户投资理财偏好”等数据产品、智能大数据平台作为数字化工具,以综合提升客户价值为目标,通过开展活动权益,有序经营客户,提升客户价值。2021 年建设银行坚持以客户为中心,在“信标灯1.0”的基础上不断优化,升级了“信标灯 2.0”项目,实现以下突破:(1)以客户需求为核心、模型+数据洞察客户,基于全方位多维度的用户画像,主抓
310、客户偏好和敏感属性;(2)更智能的触达、更便捷的体验,多渠道、场景+条件的触发方式,多平台用户引流/活动入口更便捷;(3)更贴近客户价值主张的客群策略,结合客户晋升指标/产品目标;(4)更吸引更周密的活动部署,更简单更直接、领取更及时更便利的权益激励。7.2.6.2.7.2.6.2.产品简介产品简介 该产品以客户需求为导向,细分为“代发客群”、“线上活动客群”、“装修分期客群”等客群,差异化经178 营,实现跨部门、精细化运营。同时,产品实现线上线下协同推进标准化,全流程闭环,便于项目标准化运作。7.2.6.3.7.2.6.3.产品功能产品功能 (1)千人千面展示。公众号上线“特定客群可见与不
311、可见”功能,实现活动展示上的千人千面,做到同一个界面,但不同的客户可以看到不同的内容,为差异化权益展示奠定基础。如目标客户可见特邀专享活动,其他标准较低的类似活动不可见。对于普通客户,只能看到普通活动,看不到特邀专享的活动。(2)差异化权益。不同客群执行不同激励标准,将好钢用在刀刃上。通过大数据判断的重点客群可以享受到更高的激励标准,已达标的客户不再显示这一活动,或予以显示但激励标准较低。(3)多渠道触达。通过 AI 电话机器人、精准短信、到店短信、上行短信、手机银行、朋友圈广告、硬广投放、电话钢印等方式,加大项目的推广力度。7.2.6.4.7.2.6.4.产品收益产品收益 项目充分应用公共数
312、据产品和数据建模,精准定位细分客群,差异化权益、差异化触达,精细化经营客群,并以公众号为主战地,持续迭代运营私域流量。179 7.2.7.7.2.7.案例案例 11 11 运营优化:建设银行“龙易选”产品运营优化:建设银行“龙易选”产品 7.2.7.1.7.2.7.1.产品背景产品背景 (1)宏观背景:一方面信息过载时代,信息消费者难以从大量信息中找到自己感兴趣的信息,信息生产者也难以让自己生产的信息脱颖而出。基于此,“推荐系统”应运而生,并成为新时代互联网企业的标准配置与增长引擎。另一方面深度个性化的金融服务将成为主流,金融机构将实现营销服务的精准化与个性化,优化营销的质量与效率。(2)业务
313、背景:一是数据智能不普及,模型普及率不够,一线业务人员习惯于凭借自身经验选择标签;二是大量长尾客户处于被忽视状态,无法进入各类营销活动清单,未充分利用低成本线上渠道,不利于普惠客户经营;三是缺少从客户视角出发的营销新模式,筛选出客户后,难以准确定位适合营销的产品,缺少整体服务方案,不支持组合产品营销。7.2.7.2.7.2.7.2.产品简介产品简介 中国建设银行“龙易选”是一款基于客户多维特征进行客群划分的公共数据产品。通过考察客户所属客群的整体产品偏好,对该客户的产品偏好进行推断,依托协同过滤,方便快捷地产生多个产品的客户营销清单,进而实现客户与产品的适配。180 7.2.7.3.7.2.7
314、.3.产品功能产品功能 “龙易选”产品基于科学的客户分群,利用多维度特征,为每个客户精准计算持有某种产品的相对浓度数据,浓度越高表明客户对该产品偏好程度越高。当面对多款产品时,首先对客群的整体产品偏好进行考察,旨在面对单一客户时,通过匹配最相似的已知客群,进而推测该客户的产品偏好,实现为客户找产品的目标。当面对单一产品时,通过匹配偏好程度较高的已知客群,进而定位高概率的潜在客户,实现为产品找客户的目标。7.2.7.4.7.2.7.4.产品收益产品收益 “龙易选”数据产品支持客户洞察、智能推荐、权益匹配等多种业务场景,通过双向适配实现客户与产品的精准对接,提升客户与产品的匹配精度。项目充分应用公
315、共数据产品和数据建模,基于内外部数据,量化个人及小微客户信用风险,实现智能营销与风控。7.2.8.7.2.8.案例案例 12 12 精准营销:浦发银行智慧票据经营产品精准营销:浦发银行智慧票据经营产品 7.2.8.1.7.2.8.1.产品背景产品背景 服务实体经济是金融的根本使命,在当前疫情困境181 下,票据贴现能降低企业融资成本,纾解中小企业的资金周转压力。因此,票据经营已成为商业银行的重要业务。然而,一线人员在经营实践中,面临着找不到目标客户、找不到潜在业务、难以识别非实体客户等挑战。为解决这些问题并助力票据业务高质量发展和数字化转型,我行立项启动智慧票据经营项目,借助大数据分析等手段,
316、深挖票据链路数据价值,提出了一套业界领先的票据经营算法体系。“穿透经营+闭环管理”双重并举,推动业务融合精准滴管中小微企业,形成数字飞轮助推产业金融服务实体经济,降低社会融资成本。7.2.8.2.7.2.8.2.产品简介产品简介 (1)构建票据全景图谱,刷新市场认知。在数据上,重点解析票据全生命周期流转信息,把脉企业贸易模式,辅以行内的企业基本信息、信贷信息、财报信息、资金流水,融合外部的工商、征信等,由点及面,深加工 15 种关联关系,形成了个人企业银行间多维度、可视化的票据全景链网知识图谱。(2)业界首创票据全线上一体化闭环解决方案,实现了全流程数据赋能票据智慧经营。依托行内外海量数据,利
317、用前沿算法,形成模型体系,实现了潜在新客、待提升客户的精准识别,风险客户的前置筛除,额度定价的智能配置。并将模型结果通过移动端穿透式推送至主办客户经理执行营销任务,转化进展则通过“智慧票据”模块实时182 查看,从而总结经验优化营销逻辑,形成全线上闭环经营模式。7.2.8.3.7.2.8.3.产品功能产品功能 运用知识图谱和协同过滤思想,挖掘出行内潜在票据客户,进行激活转化;另一方面,依托票据链路图谱和网络分析技术,找到票据网络中影响力、传递信息能力高的客户,以及最短触达路径,深度挖掘行外新客,开展主动营销。在风控合规方面,一是预警具有可疑特征或与可疑客户有紧密关联的客户;二是提取骨干资金票据
318、网络,进行特征解读固化,借助模式匹配算法,挖掘具有类似特征的其他可疑客户网络,实施预警清退,降低票据业务合规风险。在同业首创提出了基于“SMOTE 采样+STACK 模型集成+PD/SHAP 解释”的票据中介识别模型构建定义、思路和方法体系,分行实际验证成效显著,填补票据风控业务领域行业空白。成功在移动端上线两大模块,客户推荐以任务方式直达客户经理,对票据业务量和拓客进展情况实现逐日统计与跟踪,实现票据贴现业务预见式穿透经营管理双向并举,推动总、分、支行三级联动闭环营销应用。7.2.8.4.7.2.8.4.产品收益产品收益 数字科技打破了部门墙,应用效果显著。总行统一部署,金融市场条线与公司条
319、线联动,以客户为中心,细分客群,183 定制产品经营方案,自动化穿透式派发潜在客户营销名单。借助票据全景图谱,挖掘出银票贴现潜在客户近5.8万户,联动有贸易背景的行外对公客户近138万户,不仅洞悉了票据业务的市场前景,为各分行业务目标的制定提供了依据,更是打开了公司客户链网式营销拓展的大门。票据中介模型准确率56%,覆盖率61%,准确率较随机抽查提升10倍,大数据助力票据业务快速且合规发展。7.2.9.7.2.9.案例案例 13 13 经营决策:浦发银行章鱼认知推荐服务平经营决策:浦发银行章鱼认知推荐服务平台台 7.2.9.1.7.2.9.1.产品背景产品背景 传统的银行业零售客户经营体系普遍
320、面临着长尾客户多、需求变化快、经营靠经验、管理成本高四大痛点问题。针对上述问题,浦发银行启动了章鱼认知推荐服务平台项目,以“智能、专业、个性”为目标,打造数据驱动持续进化、线上线下融合的智慧零售新经营体系。7.2.9.2.7.2.9.2.产品简介产品简介 浦发银行章鱼认知推荐服务平台秉持“面向全客户、贯穿全时域、提供全服务、实现全智联”的全景银行核心理念,以客户体验为中心,为每位客户提供从产品、权益、内容到资配的一站式全景服务推荐,实现了全场景数据赋能和生态化协同发展的双重目标。184 7.2.9.3.7.2.9.3.产品功能产品功能 章鱼认知推荐服务平台基于浦发银行企业级数据中台,构建以“认
321、知引擎+服务引擎”为推荐应用主轴,以“客户智见、产品智营、渠道智投和管理智控”为核心驱动支撑,形成“双引擎四核驱动”的数据化经营智慧中枢。7.2.9.4.7.2.9.4.产品收益产品收益 章鱼认知推荐服务平台成果广泛应用在浦发银行六大经营领域,在全国37家分行推广落地,助推行内零售业务高质量发展转型,精准服务客户1.22亿人次,促动财富成交2280亿元,贷款投放320亿元,支付交易700亿元,数据营收20亿元。7.2.10.7.2.10.案例案例 14 14 风险控制:微众银行分布式机器学习建风险控制:微众银行分布式机器学习建模平台(模平台(Quick MLQuick ML)7.2.10.1.
322、7.2.10.1.产品产品背景背景 在运用传统机器学习平台进行超大规模数据建模时,面临客户信息泄露、模型调优不及时、核心工具外包等风险,基于此,微众银行启动了分布式机器学习建模平台(Quick ML)的项目。7.2.10.2.7.2.10.2.产品简介产品简介 微众银行推出的 Quick ML,是一款服务于金融机构风险185 管理建模人员的产品,不仅可以有效提升风控建模人员的工作效率,也可以有效辅助建模人员分析、把控模型本身风险,功能架构覆盖机器学习建模全流程,在定位和功能上与 SAS类似,是支撑智能风控的机器学习建模平台。7.2.10.3.7.2.10.3.产品功能产品功能 Quick ML
323、 支持决策树、随机森林、GBDT、逻辑回归、分箱等经典算法,支持模型解释、AutoML 等最新技术,进一步促进传统风控建模技术发展。Quick ML 可实现 PB 级的数据建模,自研的调度管理平台可支持快速的交互式建模和批量建模,并支持模型数据鉴权、隔离和高可用能力。基于 Native 客户端计算使得平台可支持大规模数据的可视化和交互操作。目前该平台已在微众银行内部使用,支持贷前、贷中和贷后各个阶段的机器学习建模,模型性能与 SAS 等商业软件一致,且具有更好的用户体验,支持更大的数据容量。7.2.10.4.7.2.10.4.产品收益产品收益 Quick ML 产品通过交互式操作大大降低业务人
324、员的模型操作成本,无需编写代码也可快速搭建风险模型。目前 Quick ML 已在微众银行各风险管理团队广泛应用,并已全面替代了 SAS,逐步建立了自主可控的国产化机器学习建模平台体系。186 7.2.11.7.2.11.案例案例 15 15 风险控制:网商银行“亿亩田”智能化风险控制:网商银行“亿亩田”智能化农村金融服务农村金融服务 7.2.11.1.7.2.11.1.产品背景产品背景 在当前,农村行业缺数据已经是公认的难点,如何生长出新维度的低成本的数据供风控模型策略使用,成为农村金融业务必要技术能力。2019 年开始,经过多轮业务和产品技术讨论,选用了结合卫星遥感、视觉算法和时空数据分析等
325、多种创新的技术,来对农户的种植信息进行核验,过程进行监测,结果进行预测,打造出在 2020 年 9 月正式商用落地的贷前贷中贷后全生命周期物理感知的智能农村金融技术,构建了第一个将遥感传感等另类数据成功应用在金融领域的产品“亿亩田”。7.2.11.2.7.2.11.2.产品简介产品简介 “亿亩田”产品应用了多个风控模型来识别农村金融中的贷款风险。(1)基于深度神经网络、图神经网络等 AI 模型算法建立了 28 个卫星遥感影像识别模型。涵盖水稻、小麦、玉米、苹果、猕猴桃等作物的全生长周期语义分割图像识别模型,地块识别、云块识别等模型,以此来解决农户种的是什么,种多大,种得好不好等问题。(2)基于
326、大数据、人工智能技术,搭建农业特色行业的专属风控模型。187 通过认真研究农业行业产业化发展趋势及行业特点,深入了解分析不同区域、不同行业种植成本的差异,结合对种植户的风险识别以及生产经营判断实现对农户的精准授信。结合各地的农忙时间,对农户申贷时间的合理性做出评价,在不同季节节点给予差异化的授信方案,在满足各周期生产经营所需的情况下,防止过度授信以降低风险。利用时间序列等模型对各地的历史气候数据进行深度挖掘,并对未来一段时间内的气候情况进行预测,形成基于“地域气候作物农户”的全方位种植评价体系,根据历史温度、湿度、降水、风速、光照等预测农作物的产量和损益,从而进一步精准识别贷款风险。7.2.1
327、1.3.7.2.11.3.产品功能产品功能 “亿亩田”通过在数据源、风控模型和授信策略等方面全流程降低贷款风险,主要创新点包括:(1)创新风控数据来源。将卫星遥感技术应用于农业信贷领域,获得种植作物全成长周期影像,为“三农”客户融资风险评估增加可信数据源。(2)完善“三农”客户风控模型。利用人工智能技术,对卫星影像进行图像识别,建立多品类、全周期的作物种植监控模型。(3)实现差异化精准授信。深度结合种植行业特点,依托大数据风控技术,基于优质产区种植品类的长势分析,建立不同区域、不同季节、不同行业种植成本的差异化风控188 体系,使用合法合规数据源进行模型训练,提高风控准确度。(4)遥感数据多维
328、应用。贷前阶段识别作物种类及面积给出授信额度;贷中阶段识别作物长势监控潜在风险,动态调整授信额度,有效提高风险抵御能力,增强客户满意度。7.2.11.4.7.2.11.4.产品收益产品收益 网商银行作为专注服务小微和三农群体的科技银行,成立六年,已累计服务 2000 万涉农用户,并与全国超过 850 个涉农区县深度合作。“亿亩田”基于卫星遥感和人工智能技术的智能化农村金融服务于 2020 年底试运行,原理是通过解析卫星影像,判断农户耕种面积和品类,预测产量产值,从而给予合理的贷款额度。项目一期支持识别水稻、小麦等粮食作物,二期升级覆盖到苹果、猕猴桃等经济作物,并在 2021 年 9 月投产。截
329、至2021年10月,全国超过160万农户因此成功获得贷款,人工成本大幅度降低。利用卫星遥感技术,每一笔贷款的成本可以降到几元钱。“310”实时风控解决农户贷款需求:3分钟申请贷款,1 秒钟发放,全流程 0 人工干预。7.2.12.7.2.12.案例案例 16 16 搜索与推荐:腾讯云基于联邦学习技术搜索与推荐:腾讯云基于联邦学习技术的金融广告投放的金融广告投放 RTARTA 7.2.12.1.7.2.12.1.产品背景产品背景 在传统投放模式下,广告主向媒体定向投放广告时,如果直接依赖媒体的投放能力进行定向投放可能会导致对用189 户精准定向的需求无法满足。例如,金融行业广告主可能更看重能通过
330、风控审核的最终转化率,仅靠点击率优化等传统手段无法满足客户需求。7.2.12.2.7.2.12.2.产品简介产品简介 在广告投放过程中,媒体平台将流量的必要信息(例如设备号)实时同步给广告主,广告主根据自身需求和企业数据判断用户价值以及是否参与广告投放竞价,并将决定反馈给媒体平台,以实时接口响应的方式实现广告主和媒体平台双方定向。7.2.12.3.7.2.12.3.产品功能产品功能 广告主和媒体双方需要以实时接口响应的方式进行定向,即RTA(Real-time API)。具体过程如下:在广告投放过程中,媒体将流量的必要信息实时同步给广告主(例如设备号),广告主根据自身需求和企业数据判断用户价值
331、并决定是否参与广告投放竞价,并将决定反馈给媒体。在安全性方面,联邦安全学习保障广告主与媒体平台提供的数据均被安全加密,所有信息不会被泄露。例如该金融机构的客户是否转化成为通过风控审核的客户不会被数据方得知,避免了珍贵的客户资源被撬走。数据方的客户信息也被很好地保护,避免用户信息泄漏。190 7.2.12.4.7.2.12.4.产品收益产品收益 某金融服务机构广告主自身的数据常常缺乏特征多样性,RTA模型效果欠佳,因此需要与其他数据方合作。与此同时,该机构出于对自身企业数据的信息安全保护,引入联邦建模来完成数据合作。建模完成后,金融机构可查询用户打分,在广告媒体引来的流量中筛选出通过风控审查概率
332、更高的人群进行广告投放,从而实现对用户的精准定向。7.3.技术现状与安全防护案例 7.3.1.7.3.1.案例案例 17 17 某银行信用卡系统全闪化升级某银行信用卡系统全闪化升级 7.3.1.1.7.3.1.1.案例背景案例背景 中国经济趋势正在从高速度增长不断转向高质量发展,新旧动能不断接续转换,最终消费支出增长成为经济增长的第一拉动力,服务消费在居民消费中的比重不断上升,以信用制度为依托的数字化金融成为城镇居民消费的主要力量,信用卡、互联网金融、电子货币等业务迎来井喷式发展。同时,随着数字金融业务的快速扩张,小额、高频交易成为新常态,银行 IT 系统的交易频率提升 10 倍以上,尤其是在
333、双11 等业务高峰期,交易频度和系统压力更是百倍激增。庞大的业务压力对数据基础设施提出更高的要求。191 7.3.1.2.7.3.1.2.案例概况案例概况 某银行于 2018 年启动信用卡系统智能升级,期望升级后的新系统能满足全国联网用户快速增长的刷卡交易需求,处理能力可达日均处理固定格式交易 3.5 亿笔/日,联机交易超过 3.7 亿笔/日,尤其是在诸如双 11 等业务高峰期,及时响应交易请求并保障风险控制水平。为实现预期性能和安全目标,该银行选择华为公司的全闪存解决方案,以期实现其业务诉求。7.3.1.3.7.3.1.3.解决方案解决方案 华为公司全闪存解决方案,针对该银行信用卡中心对于性能、可靠性和节能环保诉求,包含以下几点产品功能:(1)介质全闪存化:采用全高性能闪存硬盘,使存储性能大幅提高,并降低硬盘数量,使数据中心整体大幅节能。(2)端到端 NVMe:通过前端高性能存储网络,搭