上海品茶

用时:32ms

互联网金融报告-PDF版

您的当前位置:上海品茶 > 金融证券 > 互联网金融
  • 清华五道口:2023国内外助贷业务实践、发展与监管研究报告(55页).pdf

    研究报告 (2023 年 第 10 期 总第 130 期)2023 年 12 月 15 日 国内外助贷业务实践、发展与监管研究国内外助贷业务实践、发展与监管研究 金融发展与监管科技研究中心 【摘要】【摘要】中国助贷业务发展已有近 15 年历史,以互联网平台为代表的助贷机构与金融机构在信贷业务方面持续深入合作,逐渐形成了 B 端线上线下相结合、C 端纯线上为主的互联网贷款业务助贷模式,极大程度地助力了金融普惠、促消费稳增长等目标的实现。以 P2P 网贷为主要对象的互联网金融风险专项整治工作结束以后,大型互联网公司提供的各类线上金融产品和服务,包括助贷业务,成为了互联网金融风险防范和金融科技监管的核心内容和关键所在。近年来监管机构密集出台了多项政策以规范第三方机构与金融机构的信贷业务合作,给各市场主体带来的机遇和挑战不尽相同。课题组在广泛调研访谈的基础上,对国内外助贷业务的实践和发展情况进行回顾和分析,重点梳理国内外有关部 门对助贷业务模式的监管思路与实践,提出我国助贷业务发展所面临的金融机构与助贷机构权责边界模糊、集中度风险管理不利于降本增效、金融消费者融资成本高企、征信管理与数据流转、以及金融业务与风险向商业银行倾斜等主要问题,并结合当前的监管政策提出相应的完善建议。目录目录 1 我国助贷业务发展情况分析我国助贷业务发展情况分析.1 1.1 助贷的定义.1 1.2 国内助贷业务模式演变历程.2 1.3 国内助贷业务整体发展现状.3 2 助贷业务模式理论基础与现实意义助贷业务模式理论基础与现实意义.5 2.1 助贷业务模式的理论基础.5 2.2 现阶段助贷业务模式的价值与现实意义.8 3 国外助贷业务发展模式与实践经验国外助贷业务发展模式与实践经验.13 3.1 美国助贷模式演化历程.13 3.2 国外助贷业务中各环节合作内容与收费模式.17 3.3 美国助贷模式出现以“先买后付”为核心的线上全流程链条式服务.20 3.4 国外助贷业务监管思路与实践.28 4 当前国内助贷业务监管政策与主要问题分析当前国内助贷业务监管政策与主要问题分析.35 4.1 国内互联网贷款助贷模式监管政策梳理.35 4.2 当前互联网贷款助贷模式主要问题分析.39 5 政策政策建议建议.49 1 国内外助贷业务实践、发展与监管研究 张健华 张伟 朱诗怡 李昱彤 (金融发展与监管科技研究中心)1 我国助贷业务发展情况分析我国助贷业务发展情况分析 1.1 助贷的定义助贷的定义“助贷”(Partnership lending),顾名思义,是指互联网科技公司等第三方机构与持牌金融机构基于优势互补原则,合作为金融消费者提供所需信贷服务的业务模式。值得一提的是,部分文献资料将“助贷”翻译解释为“Co-financing”,意为联合贷款,而目前监管部门已经明确金融业务必须持牌经营,则没有相关金融资质的信贷第三方机构不能涉及放贷、融资担保等服务。为了严格区别于联合贷款,本报告重点探究由持牌金融机构独立出资、助贷机构主要负责引流获客、辅助风控、贷后催收等的狭义助贷(“纯助贷”)。同时,为进一步聚焦研究内容,研究对象具体为,在互联网贷款业务中为 C 端客户提供线上信贷服务的助贷业务模式,在整个服务过程中,金融机构作为出资方,几乎承担全部资金成本和风险,是整个信贷业务的核心与主导方,而助贷机构的权利与责任具体由商务合同约定。2 1.2 国内助贷业务模式演变历程国内助贷业务模式演变历程 1.2.1 2007-2012 年:助贷业务模式以联合贷款形式出现年:助贷业务模式以联合贷款形式出现 我国助贷业务模式的出现以 2007 年“国家开发银行深圳分行与中安信业创业投资有限公司合作微贷款业务”为标志,该模式下,商业银行拓展了微贷款业务规模,小贷公司通过表外融资变相得到了资金支持,而低收入人群和小微企业以合理、可支付成本获得了所需的信贷支持,最终多方市场主体达成共赢。早期助贷业务模式的底层逻辑在于银行的规模效应、专业服务和助贷机构的服务下沉、了解客户的优势互补,但受经济金融与社会发展整体水平以及业务模式效能有限的制约,并没有在全国范围内得到迅速推广。1.2.2 2013-2017 年:互联网贷款业务发展带动助贷模式迅年:互联网贷款业务发展带动助贷模式迅速拓展速拓展 随着互联网从 PC 端转移至移动端,助贷业务迎来黄金发展期,助贷机构从具有信贷资质的非银行金融机构逐渐拓展至科技公司、数据经纪商和数据分析公司;助贷业务形式从线下线上结合更多地转换成以纯线上为主,再进一步借助大数据分析技术等向数字化转型;助贷业务范围和服务对象,也从局部地区和小微企业向全国范围和个人客户扩张。该阶段助贷业务主要有两种合作模式:一是商业银行与小额 3 贷款公司、消费金融公司、金融租赁公司等非银行金融机构采取共同出资放贷的模式,按出资比例共担风险、共享收益;二是金融机构与科技公司等非金融机构采取“保证金模式”进行合作,即放贷资金由金融机构承担,而助贷机构提供获客、风控、运维、催收等服务,同时向金融机构支付一笔保证金,此举实质是助贷机构以“兜底风险”促成与金融机构的合作。1.2.3 2018 年至今:助贷业务模式进入整改期年至今:助贷业务模式进入整改期 2017 年 12 月,人民银行、银监会联合发布关于规范整顿“现金贷”业务的通知(整治办函2017141 号),规定助贷业务中的授信审查、风险控制等核心环节须由金融机构负责,并且不允许助贷机构有兜底承诺等变相增信行为,或者由无担保资质的第三方机构提供担保服务。随后监管部门和行业协会陆续发布了一系列的相关政策与规定,除了联合贷款模式之外,金融机构与无放贷资质助贷机构的合作逐渐回归“助贷”本质,即金融机构是信贷资金的提供方,而助贷机构在客户引流、风控辅助、贷款催收等方面提供数据和技术支持,并依据商业合同从金融机构处获取相应助贷服务报酬。1.3 国内助贷业务整体发展现状国内助贷业务整体发展现状 国内助贷业务市场参与主体包括信贷需求者、助贷机构、个人征信公司、商业银行为主的金融机构等。图 1.1 展示了国内互联网贷款助贷模式的业务流程:信贷需求方经由助贷机构向金 4 融机构发起贷款申请;助贷机构根据自身优势和实力会不同程度地参与到引流获客、反欺诈、授信审批、贷后催收等各环节当中,其中,包括互联网科技平台、数据经纪商、数据分析服务商等在内的各助贷机构在向金融机构传输信用数据产品时,根据征信业务管理办法的规定,须增加个人征信机构审查环节;而纯营销导流和辅助风险管理(反欺诈、授信审批、贷款支用、贷后催收等)所涉及的非信用数据或服务,在满足数据安全和个人隐私保护要求的前提下,可直接提供给金融机构;金融机构基于多环节审查结果向信贷需求者发放资金,在整个信贷服务过程中不断强化独立风控能力,承担主体管理责任。值得一提的是,消费金融公司与数据经纪商等机构合作信贷业务时,充当资金提供方角色,但同时其在经营中通过自有渠道积累了一定的客户和数据资源,故也会在与中小银行合作信贷业务时承担助贷机构的职责。图图 1.1 国内助贷业务流程国内助贷业务流程 金融机构与助贷机构根据双方合作的具体内容商定收费模金融机构与助贷机构根据双方合作的具体内容商定收费模式。式。一般来看,助贷机构提供纯导流获客服务会根据贷款投发信 5 息展示次数、用户点击量以及客户实际转化率等指标按比例收取费用(如字节、百度);反欺诈服务根据数据调用次数或者放贷规模的一定比例收取费用(如同盾科技);通过个人征信公司间接提供的信用评分服务基于查询量、订阅量以及调用量收取相应费用(征信中心、百行和朴道);贷后委外催收按照催回贷款金额的一定比例收取费用(如青岛联信)。此外,部分大型科技平台在多个业务环节与金融机构进行合作,显著提升了信贷业务整体经营效率,这种情况下则按照贷款利息收入的一定比例收费,根据多家机构调研信息来看,结合助贷机构自身经营情况、合作银行类型、合作业务规模与经营情况等因素,收费比例在283%之间。综上,国内助贷机构与金融机构基于各自比较优势开展信贷业务合作,以提升信贷经营绩效为目标,总体采取“激励相容”的市场化分润协定。2 助贷业务模式理论基础与现实意义助贷业务模式理论基础与现实意义 2.1 助贷业务模式的理论基础助贷业务模式的理论基础 金融业发展本质上是一部科技应用史,传统互联网金融发展已达到阶段性顶部,未来商业银行互联网金融业务需要从“线上化”向“数字化”升级。在数字经济时代,金融与数字技术持续深入融合是大势所趋。具体来看,一项贷款业务通常涉及引流获客、初步筛查、信用评估、风险识别、授信放款、动态监测、贷 6 后催收、不良处置等诸多环节,基于金融专业化分工理论,这些流程较难在单一金融机构内部形成闭环,而是鼓励包括科技公司在内的第三方市场机构参与到金融服务的部分节点中,充分发挥各机构主体的比较优势,从而促进市场公平竞争,提升信贷服务质效和金融普惠性。从金融机构的角度来看从金融机构的角度来看,随着市场经济发展和居民财富的不断积累,有信贷需求的人群持续扩张,同时,在可持续发展目标指引下,金融机构也需要下沉信贷服务以提升市场占有率。商业银行等金融机构资金实力雄厚、信贷服务专业化程度高,但农户、城镇低收入人群、小微企业等往往被排斥于传统金融服务体系之外,存在严重信息不对称,则根据成本效益理论,金融机构采用传统自有渠道触达和服务下沉客户群体,将面临成本和风险双升的境遇。反之,若借助互联网科技平台力量发展互联网信贷业务,一方面能快速扩大信贷服务覆盖面,并做到线上同时服务千万级数量水平的客户1,达成范围经济和规模经济;另一方面有助于运用消费、交通、社交等外源替代数据进行大数据分析,更加准确地评估借款人的还款意愿和能力,从而有效降低信贷风险。从助贷机构的角度来看,从助贷机构的角度来看,随着信息技术的不断更新迭代,中国互联网普及率在过去 20 年间飞速提升,居民已经养成通过互联网获取各类服务的习惯,其中,广覆盖、低运营成本、便利性强的互联网金融服务一定程度上满足了中低收入人群的信贷需 1 资料来源:部分股份制商业银行调研访谈结果。7 求。互联网平台机构普遍掌握专业的数字技术,拥有广覆盖的业务场景,同时在多年经营中积累了大量的用户数据信息,这些优势使得其相比金融机构能更有效率地触达客户、更准确地进行风险定价。值得一提的是,助贷机构与金融机构的关系并非替代和竞争,两者在促进金融信贷发展方面应是互补协作的关系。助贷机构为金融机构提供外包服务,具体到数据层面主要有搜集、处理、加工、价值挖掘等,能够很大程度上促进数据要素价值释放,这也是经济与金融增长理论的体现。从金融消费者的角度来看,从金融消费者的角度来看,传统金融体系的信贷服务具有较高门槛,缺乏信用记录、无抵押资产群体的信贷需求难以得到有效满足。有关数据显示,2022 年全国居民按照人均收入进行五等分:低收入组人均可支配收入 8601 元,中间偏下收入组人均可支配收入 19303 元,中间收入组人均可支配收入 30598 元,中间偏上收入组人均可支配收入 47397 元,高收入组人均可支配收入 90116 元2。换言之,除收入最高 20%人群之外,其余 80%居民的年人均可支配收入为 26474.8 元,平均到每月为 2206 元。助贷业务模式下,信贷供需双方的交互性大大增强,金融消费者基于预算约束的传统主观偏好逐渐被互联网大数据和算法推荐所影响,金融消费者的信贷需求将在数字经济网络正外部性的作用下,随着信贷获取规模的增加而增加。此外,金融机构与互联网平台机构合作,有利于创新金融产品和服务模式、以更低搜索 2 资料来源:中华人民共和国 2022 年国民经济和社会发展统计公报,网址:http:/ 8 成本满足更多消费者小众、个人化的信贷需求,即“长尾效应”。图图 2.1 助贷业务模式主要理论依据助贷业务模式主要理论依据 2.2 现阶段助贷业务模式的价值与现实意义现阶段助贷业务模式的价值与现实意义 2.2.1 助贷模式与国家普惠金融发展战略相契合助贷模式与国家普惠金融发展战略相契合,帮助中低,帮助中低收入群体以可支付成本从正规收入群体以可支付成本从正规渠道获得所需信贷服务,助力实现渠道获得所需信贷服务,助力实现金融健康稳定发展金融健康稳定发展 一方面,金融机构通过与互联网消费、社交、娱乐平台等有场景优势的助贷机构合作拓展了线上场景触达并服务客户的范围,对传统银行线下网点渠道以及自有网站与 app 线上渠道形成了有利补充。从调研的部分股份制银行情况看,通过互联网助贷业务服务的客群更加下沉,户均贷款余额仅为通过自有渠道服务客群的十分之一左右,同时服务的客户数量在千万级水平,显著高于自有渠道服务客群十万级的数量水平。如图 2.2 所示,在2014-2021 年互联网贷款快速发展时期,中国低收入人群从主流金融机构获得贷款的占比从 9%提升至 31%,提升幅度显著高于 9 世界平均水平、发展中国家平均水平以及印度、德国、英国等国家。图图 2.2 2014-2021 年低收入人群从年低收入人群从主流主流金融机构借贷变化情况金融机构借贷变化情况 数据来源:World Bank Global Findex Database 另一方面,金融机构通过与有数据优势的助贷机构合作,对用户各类消费交互行为、特征画像等替代数据进行大数据分析,在传统金融征信数据之外更好地判断借款人的信用情况,尤其是对大量难以获得贷款服务、缺少征信数据的低收入人群,从而让金融机构有依据、有能力向低收入人群提供贷款服务。广大被排斥于传统金融体系之外的人群通过助贷模式获得了安全、可负担的信贷服务,促使民间借贷纠纷显著减少(详见图 2.3),极大地推动了我国金融健康可持续发展。10 图图 2.3 中国民间借贷纠纷案件占总民事案件中比例中国民间借贷纠纷案件占总民事案件中比例 数据来源:中国司法大数据服务网 2.2.2 助贷业务模式推有助于加快我国金助贷业务模式推有助于加快我国金融机构数字化转型融机构数字化转型进程,进而进程,进而强化金融行业长期竞争力强化金融行业长期竞争力 互联网贷款相比传统线下贷款,需要满足海量客户全天候、实时、无间断的服务需求,便捷化、智能化、个性化的用户体验要求,以及多维立体、精准直接的大数据风控能力要求。当技术、资金、人才资源不足的情况下,金融机构通常选择与第三方科技公司等合作以提升信贷服务质效,在与各类助贷机构通过 IT 系统传输数据信息的过程中潜移默化地提升了综合利用行内数据和外源替代数据开展大数据风控的能力,并逐步改善自身 IT 系统的稳定性和灵活性。此外,金融机构通过与助贷机构合作,利用替代数据为主的大数据风控模型,服务了大量过往因为缺乏征信数据而无法获得贷款服务的“信用白户”,这些“信用白户”通过使用互联网贷款产生的个人信贷数据,最终会通过上报征信 11 系统成为全金融行业通用的信用数据资源,对于构建多层次广覆盖的全国征信体系具有积极意义,最终全面提升我国金融业市场竞争力。2.2.3 在消费信贷业务数字化和场景化发展大趋势下,助贷在消费信贷业务数字化和场景化发展大趋势下,助贷业务模式客观上有助于满足日益增加且多元化发展的居民消费业务模式客观上有助于满足日益增加且多元化发展的居民消费及相应的信贷融资需求及相应的信贷融资需求 国家统计局数据显示,中国社会消费品零售总额从 2014 年的 26.2 万亿元增长至 2022 年的 43.97 万亿元,其中在数字化场景中实现的实物商品网上零售额规模从 2.4 万亿元增长至 13.79万亿元,贡献了社会零售额增量的 64.1%,这反映出数字化场景是消费增长的重要驱动因素,而数字化和场景化亦是消费信贷业务未来发展的重要趋势。随着经济与社会发展水平的稳步提升,人民生活水平也逐渐提高,我国居民消费呈现出一些新特点:消费分级化。消费分级化。阿里、京东、拼多多,凭借着不同的市场定位与客群划分,走上了各自成功发展之路,从侧面说明我国消费并不是单一的升级化,而是分级化,具体包括一二线城市与三四线城市的消费分级化、城市与农村的消费分级化。消费年轻化。消费年轻化。80 后、90 后和 00 后占据了我国较大比例的人口基数,这部分人群具有较强的消费购买能力和提前消费理念,并且培养了通过移动互联网进行消费的习惯与技能,因而我国场景消费金融群体年轻化趋势非常明显。消消 12 费定制化。费定制化。随着物质文化生活的不断丰富,人们已经不再满足于程序化、模板式的产品和服务消费,小到手机壳、水杯,大到学历教育、出国旅行,都有更多个性化的消费需求。综上,我国居民消费需求日益多元化发展,对相应的消费信贷产品与服务有更高的要求,而助贷业务模式客观上能更精准识别并满足居民消费信贷需求。2.2.4 现阶段居民消费已成为拉动经济增长的主要力量,助现阶段居民消费已成为拉动经济增长的主要力量,助贷业务模式有助于激发贷业务模式有助于激发居民消费潜力,进而强化消费对经济的刺居民消费潜力,进而强化消费对经济的刺激激 受到长、短期经济因素的影响,居民消费的市场格局正在发生重大变化。短期看,受三年疫情与国际局势冲击,当前经济下行压力大,收入就业情况不太乐观,导致居民资金压力上升,消费意愿下降,需要通过提振消费来助力经济企稳回升。长期看,我国经济韧性强、潜力足、回旋余地广、长期向好的基本面没有改变,中等收入群体规模也在继续扩大。据统计,当前我国中等收入人群占比 35%,对消费贡献达到了 50%,未来随着中等收入人群规模的日益扩大,会有巨大的消费金融需求释放出来。助贷模式下的金融机构信贷服务与数字化场景深度融合,可以极大地激发居民消费潜力,同时为之提供便捷的贷款申请、支用等服务。此外,助贷模式能更准确地预测借款人违约行为,有效降低诈骗、套现、虚假交易等风险,确保信贷资金用于真实消 13 费交易,从而提高消费金融质效,更好地支持实体经济发展。3 国外助贷业务发展模式与实践经验国外助贷业务发展模式与实践经验 3.1 美国助贷模式演化历程美国助贷模式演化历程 美国助贷业务模式长期普遍存在,体系较为成熟,其早期助贷业务所利用的数据,涵盖了传统征信信息、线下实体各行业经营数据。不同于我国助贷业务市场随着移动互联网迅速发展而引来爆发式增长,网络社交数据、平台查询数据、消费行为数据等互联网大数据信息进入助贷领域,对美国传统金融体系的冲击相对更缓和。原因在于,美国传统金融体系相对完善,原本居民对正规渠道的金融服务就有较强可得性,尽管互联网助贷模式提升了信贷服务的可触达性和便利性,但居民对传统金融服务方式仍保有一定程度的惯性依赖。通过梳理,本报告将美国助贷业务模式的演化过程大致分为以下三个阶段。3.1.1 第一阶段:美国信用数据机构作为“信息中介”,帮助第一阶段:美国信用数据机构作为“信息中介”,帮助金融机构完善客户信用评估金融机构完善客户信用评估 早在 20 世纪 60 年代,美国商户以地区为单位设立了非营利性的私营征信机构,之后随着消费信贷业务的不断扩张,以及信用卡的出现及推广,地区性的私营征信机构无法适应全国性的客户数据要求,导致信息收集成本较高、没有足够竞争实力的部分小型地区性私营征信机构逐渐被收购、兼并,最终经过几十年的 14 充分竞争,在 21 世纪初形成了 Equifax、Experian 和 Trans Union三家全国性金融征信报告机构垄断的局面3。除金融征信报告机构之外,美国信用评估体系中还包括专业征信报告机构、数据经纪商和数据分析服务机构三类信用数据机构。三家金融征信报告机构主要出具包含个人基本信息、传统信贷数据、极端负面信息和征信查询记录在内的征信报告;专业征信报告机构一般面向某一个行业,某一种服务或某一种人群,聚焦于特定市场或消费者细分领域,提供定制化的分析工具或信用报告;数据经纪商主要从政府来源、商业来源和其他公开可用来源三个渠道搜集、购买消费者个人信息,并对这些原始信息及衍生信息进行整理、分析和加工后,向金融机构输出该信息用于产品营销、验证个人身份或检测欺诈行为等目的;数据分析服务机构则根据外购的数据和征信报告等信息资源进行相关分析,向外输出数据分析产品和服务。3.1.2 第二阶段:大型实体经济企业进入助贷领域,与金融第二阶段:大型实体经济企业进入助贷领域,与金融机构合作开展依托具体经营场景的联名信用卡业务机构合作开展依托具体经营场景的联名信用卡业务 在美国信用评估体系中,依靠分散化的公司及主体收集整合个人信息,再通过信用信息共享来帮助金融机构进行信贷决策。但随着实体经济发展,在某些重要领域中出现了资产规模超大的龙头企业,在经营中逐渐积累了多维度的客户个人信息,凭借客 3 资料来源:“美国个人征信行业发展研究”,方正证券,网址:http:/ 15 户、数据、场景和增信等优势,与金融机构合作开展信贷服务。20 世纪 80 年代,实体行业品牌商开始与金融机构发行联名信用卡,向金融机构提供营销渠道与权益、品牌增信等服务。如表 3.1 所示,1985 年,连锁超市 Sears 进入和信用卡公司合作,发行 Discover Card。Sears 曾经是美国最大的零售商,直到 1990年才被沃尔玛超越,在上世纪中叶拥有超过 35 万名员工,留存了大量客户购买信息记录;1990 年,电信巨头 AT&T 成立子公司 AT&T Universal Card Services Corp 进军信用卡市场,发行AT&T Universal Card。AT&T占据美国50%的电信服务市场份额,拥有多年积累的庞大客户信息库及长途电话卡的消费场景;同样是 1990 年,26 家航空公司进入信用卡行业;1992 年,通用汽车进军信用卡行业。这些交通巨头开展联名信用卡业务有三方面优势:一是有消费者行为数据,例如交通出行数据、个人的基础信息等,能够更精准刻画个人画像;二是由于航空出行和汽车购买属于相对高端消费,公司能够更信任自身客户,为客户带来较低价格;三是公司拥有消费场景,能够深入触及到客户,利用场景推广自身的信用卡产品。表表 3.1 80 年代年代-90 年代进军联名信用卡行业的代表企业年代进军联名信用卡行业的代表企业 公司名称公司名称 跨界时间跨界时间 公司行业公司行业 企业企业 信用卡品牌信用卡品牌 Sears 1985 连锁超市 Discover Financial Discover Card 16 AT&T 1990 电信 AT&T Universal Card Services Corp AT&T Universal Card 26 家航空公司 1990 航空 AirPlus International UATP 通用汽车 1992 汽车 Household Finance Corp GM Card 数据来源:企业官网、华泰证券研究院 值得一提的是,大型实体经济企业数据与社会整体信用评估系统并非是独立的两套体系,二者之间也会相互进行信息的共享交流。例如,大型实体经济企业在信用卡发放时也会查询金融征信报告机构数据、参考专业征信报告机构数据,而大型实体经济公司的数据也会部分售卖给数据经纪公司等,从而流入社会整体信用评估体系。3.1.3 第三阶段:第三阶段:随着互联网消费贷款行业的发展,传统助随着互联网消费贷款行业的发展,传统助贷模式开始数字化转型,涌现出拥有大规模替代数据的新兴助贷贷模式开始数字化转型,涌现出拥有大规模替代数据的新兴助贷机构机构 随着移动互联网的快速普及,美国传统助贷模式受到巨大冲击转而进行数字化转型。首先,许多互联网数据出域,加入到社会整体信用评估体系的建设中。例如,FICO 于 2016 年推出引入传统征信数据之外的替代数据的 FICO Score XD 产品,而美国三大征信局也利用大规模替代数据作为征信报告的重要补充参考信息。其次,互联网平台机构也开始利用自身数据与场景优势参 17 与到金融服务中。例如,2016 年互联网平台 Amazon 与 Synchrony发行联名信用卡,主打线上电商场景的信用卡消费;分别成立于1998 年与 2007 年的 Lending Tree 与 Credit Karma 推出线上贷款超市,为金融机构提供线上贷款营销引流服务。除传统助贷模式参与主体机构寻求线上化、数字化合作与发展之外,互联网贷款领域也涌现出多家新兴助贷机构,为金融机构提供数字化和全链条式助贷服务。例如,成立于 2012 年的Upstart 向合作金融机构提供从营销引流、风控、贷款支用还款到贷后催收的全链条式服务;Affirm,Klarna,Afterpay 等公司也通过全贷款流程的合作与金融机构推出“先买后付”信贷产品,并于 2017 年开始兴起。3.2 国外助贷业务中各环节合作内容与收费模式国外助贷业务中各环节合作内容与收费模式 助贷环节按照其性质可以分为引流、辅助风控与贷后催收,而辅助风控环节又包括了反欺诈、征信服务、信用评分和科技外包。引流是指第三方机构利用其与客户之间的密切联系,将有贷款需求的客户推送到金融机构;辅助风控是第三方机构利用其自身数据优势,精准刻画客户,将客户的相关信息、用自身模型计算出来的信用分推送给金融机构;贷后催收是第三方机构利用自身对客户的数据优势、服务优势与客户联系,提醒客户还款。各个环节都在助贷中扮演重要的角色,对金融机构而言都能够帮助其更好地进行贷款。18 当前国外助贷业务市场中存在多元化的收费模式(详见表3.2)。单业务环节合作与前述国内收费模式大体相似:单业务环节合作与前述国内收费模式大体相似:营销环节的合作是为了提升贷款业务获客效果,因此助贷机构一般按照推荐客户数量与新增贷款服务业务规模的一定比例收费;催收环节的合作是为了提升贷款催收效果,因此助贷机构一般按照催回贷款金额的一定比例收费。在反欺诈环节,中美助贷机构收费模式有所差异:国内同盾科技按照金融机构反欺诈的调用次数收费,美国 Riskified 则按照贷款审批的贷款规模一定比例收费。在多环在多环节节的全链条助贷服务中:的全链条助贷服务中:国内助贷机构一般按照合作贷款业务利息收入的一定比例收费;美国金融机构 Synchrony 则按照合作贷款业务利息收入扣除资金、运营、风险成本后的利润的一定比例向联名信用卡的合作助贷机构付费;美国助贷机构 Upstart 则将助贷服务拆成两种模式收费4,对于向金融机构提供的贷款营销与风险初筛服务,按照贷款发放规模的一定比例收取一次性费用,而对于贷款存续期内的客服、还款服务、催收服务等服务,则按照存续贷款规模每年收取一定比例的费用。表表 3.2 国外助贷合作代表性机构及收费模式国外助贷合作代表性机构及收费模式 服务内容服务内容 单环节代表单环节代表 全流程代表全流程代表 收费模式收费模式 定价案例定价案例 引流引流 Credit Karma Upstart,Amazon,Klarna,基于展示、点击量与转化率 11.5%(Upstart 年报与 招 股 说 明 书,referral fee)4 由于 Upstart 所推荐的客户中有许多来自引流平台 Credit Karma,例如 2019 年有 38%的客户来自 Credit Karma,而 2020 年则达到了 50%。所以 Upstart 助贷服务在引流和平台费用(辅助风控)的拆分上相对清晰。19 反欺诈反欺诈 Riskified Afterpay 收费:按贷款规模一定比例 基于审批贷款发放金额的一定比例 2.5贷款发放金额(Riskified 年报)征信服务征信服务 Equifax,Experian,Trans Union 基于数据使用量 6.7%(Upstart 年报与 招 股 说 明 书,platform fee)信用评分信用评分 FICO,VantageScore 基于使用产品类型和订阅量 科技外包科技外包 nCino 按使用人数收取订阅费 贷后催收贷后催收 TrueAccord,PRA Group 基于催回金额比例 低于 5%(Upstart 年报 与 招 股 说 明书,service fee)在各环节的费用方面,因为涉及到商业机密,各助贷机构公布相对较少。本报告以 2019 年 Upstart 的招股说明书数据为例对各环节进行说明(详见表 3.3)。Upstart 将自身的助贷环节分为了三个部分:referral fee(对应国内引流费)、platform fee(对应国内辅助风控费用)和 service fee(对应国内贷后催收费)。其中,引流费为贷款本金的 3%4%;辅助风控费用为贷款本金的 2%,辅助风控具体包括风险评估、担保、反欺诈等服务。此外,Upstart还向贷款持有人收取 0.5%至 1%的年度服务费(service fee),作为提供跟踪、催收等服务的费用。对 Upstart 收取的助贷服务费率进行测算:整体通过 Upstart发放的贷款平均期限在 4.6 年(约 55 个月)。Upstart 受美国各个州的最高利率法案监管,其对客利率在 6.56%区间内浮动,对客的贷款加权平均利率为 19.01%,最终 Upstart 助贷服务收费占贷款利息收入比例为 18%。20 表表 3.3 2019 年助贷机构年助贷机构 Upstart 收取的助贷服务费收取的助贷服务费 Upstart 引流及平台费收益率 6.10%Upstart 服务费收益率 0.75%发起贷款的加权平均贷款期限 55 个月 发起贷款的加权平均贷款利率(对客)19.01%Upstart 助贷收费占贷款利息收入比例 18%数据来源:公开数据 3.3 美国助贷模式出现以“先买后付”为核心美国助贷模式出现以“先买后付”为核心的线上全流程的线上全流程链条链条式服务式服务“先买后付”(Buy now pay later,BNPL)是近年来兴起的助贷模式,消费者金融保护局(CFPB)将 BNPL 定义为“分期付款”产品,具体为分四期付款的无息消费贷款,首付通常为 25%,剩下的三期每两周到期一次。BNPL于 2010 年代中期开始使用,作为在线零售购买的另一种短期信贷形式崭露头角,在全球各个国家都有许多代表性公司,例如欧洲的 Klarna、北美的 Affirm等(详见图 3.1)。21 图图 3.1 BNPL 模式的全球分布情况模式的全球分布情况 图片来源:Fincog 主页 根据美国银行估计,BNPL 的消费规模持续增长,预计到2025 年 BNPL 消费市场交易总额将达到 1 万亿美元,而随着市场规模的逐步壮大,未来 BNPL 也将摆脱所谓的“新兴支付方式”,转而成长为消费者的常规支付选项。2020数字/移动钱包信用卡借记卡银行转账现金到付收费和延期借记卡先买后付借记预付卡后付款提前付款其他 2024 图图 3.2 银行和金融科技公司发起的无抵押贷款占比银行和金融科技公司发起的无抵押贷款占比 BNPL 公司通常以购物平台的形式集成在 APP/网站中。用户可以定制自己的喜好,平台会根据个人信息推送相关商品,同时用户也可以搜索商品进行全网比价。BNPL 平台利用“先买后付”的模式放贷,与银行、商家合作,在促进交易的同时帮助金融机构提升贷款业务规模。因此,其收入主要包括两大部分,一方面是商家为促成贷款,会给平台公司折扣费用;另一方面是 BNPL公司为金融机构提供引流、辅助风控、贷后跟踪与催收等服务,22 放贷的金融机构会根据审核后放款的实际金额与贷款质量支付合作费用。此外,BNPL 公司会通过自身的支付渠道发放虚拟信用卡,也会带来一部分收入。BNPL 公司的 APP 与网页会集成众多购物公司的链接,点击后会跳端到商户自身的购物网站。选择商品后,消费者如果想使用 BNPL 模式付款,则需要进行以下流程:(1)选择支付方式:用户首先需要确认选择 BNPL 付款方式,随后在先买后付 APP 或者 H5 对应的支付页面会显示出对应的还款计划,包括期数、每期应还款额等信息,并且需要勾选支付服务协议,点击确认并完成安全验证即可完成消费。大部分的BNPL 公司仅提供用户一种分期形式,例如 Affirm 目前支持 4期,但也有公司提供多种选择项,如 Klarna 的部分公司提供三期或四期的分期选项,消费者也可以选择 14 天、30 天或者 60天的先买后付不分期服务。(2)绑卡与身份信息填写:用户第一步应进行绑卡授信,在 APP 端会根据已有账号信息填充,在互联网端则以 H5 小页面填写身份信息(手机号、地址等)并注册绑卡,主要支持借记卡与信用卡。(3)风险核查与审批放款:用户需要提供当地国家或地区唯一的身份 ID,BNPL 公司会查询内部或外源的征信信息进行风险核查,如果通过自身模型,则会进行放款,或者推给银行,让银行进行审批放款。BNPL 公司是基于每一笔订单做实时授信,23 消费者也针是对该订单申请延期付款或分期,而不是基于账户做授信。图图 3.3 BNPL 购买及分期还款交易流程购买及分期还款交易流程5 以四期为例,如果采用 BNPL 支付模式,具体的交易流程与资金流动情况如图 3.3 所示。在具体实践中,不同公司可能有差异化的做法,具体取决于金融机构与助贷机构的合作方式与权责划分。本报告以欧洲与北美的 BNPL 巨头Klarna 与 Affirm分别举例。Klarna 模式分析模式分析 Klarna Bank AB,通常被称为 Klarna,是欧洲 BNPL 业务规模最大的金融科技企业。2017 年 6 月,Klarna 获得瑞典金融监 5 网址:https:/ 24 管局(SFSA)颁发的全银行牌照,跻身欧洲最大银行之列。Klarna 通过 APP 与网页的形式进行展业,其中 APP 形式使用较多,是其生态的核心。Klarna 平台会集成多家网购平台的众多商品,用户可以根据商品类别进行检索,并找到最优价格。如图 3.4 所示,在选择商品时,用户虽然还是在 APP 内操作,但是其界面顶部会显示已经跳转到其他商户界面;如果在网页版,则跳转到其他网站。图图 3.4 Klarna 购买流程购买流程 若使用 APP,用户只能选择 Klarna 支付方式,但是在网页版则可以以其他方式支付,例如 Paypal 等。在绑定付款卡方面,通过 Klarna 支付可以绑定借记卡、信用卡与苹果支付,当决定分期之后,借款界面会跳出提示,显示出借款背后的资金方。在美国,Klarna 支付方式背后的资金方是 WebBank(一家犹他州的区域性银行),并且即使客户绑定使用信用卡进行支付,其背后的实际资金来源仍为 WebBank,而不是信用卡的开户行。此外,25 Klarna 并未披露是否会对贷款承担责任,即。在欧洲,Klarna 并没有标注合作方,可能是因为 Klarna 在德国与丹麦已开始推出存款账户,逐渐使用自有资金放贷。图图 3.5 Klarna 德国网页选择分期支付界面德国网页选择分期支付界面 Affirm 模式分析模式分析 Affirm 平台与 Klarna 平台在经营模式上区别不大,但 Affirm对与银行合作细节披露较多。Affirm 绝大部分贷款由 Cross River Bank(一家犹他州的区域性银行)与 Celtic 银行(一家犹他州的行业贷款公司“Industrial Loan Company”)提供资金支持。这些银行拥有审批、发放贷款的最终权力,并可以将贷款出售给Affirm。Affirm 和商业合作伙伴所签协议规定:Affirm 有义务回购所有通过平台发放的贷款,并以自己在合作银行的现金存款作为担保。在实际操作中,Affirm 会回购 80%经自身平台放出的贷 26 款6。尽管银行是贷款的实际持有方,但大部分时候并不直接服务客户,而是由 Affirm 直接对接客户,提醒客户支用还款等。此外,Affirm 设立多家子公司,获得加拿大和美国许多州的贷款许可证,可以直接发放自营贷款,目前规模已达到 6 亿美元7。从助贷机构角度看,全链条助贷模式的利润空间更大,也能从助贷机构角度看,全链条助贷模式的利润空间更大,也能够吸引用户留在自有场景中。够吸引用户留在自有场景中。一方面,全链条助贷模式相较于单环节助贷合作而言,服务内容更全面、连贯,促使助贷机构相对金融机构有更强议价能力;另一方面,全链条助贷模式下,引流、授信、辅助风控、贷款催收等各业务环节将形成闭环,信贷消费者数据回流有助于助贷机构迭代用户信息,进而保持提供精准服务的能力以吸引用户留在自有场景中,形成良性循环。从助贷业务整体效率来看,全链条助贷模式有利于大型互联从助贷业务整体效率来看,全链条助贷模式有利于大型互联网平台机构充分发挥场景、数据优势,从而保证服务质量。网平台机构充分发挥场景、数据优势,从而保证服务质量。由于不同机构掌握的客户群体及信息维度不完全一致,单一金融机构在不同业务环节接受不同机构的助贷服务,需要将数据进行匹配和链接,则可能出现部分上游环节机构提供信息无法被下游环节机构识别并用于客户信用判断的情况。例如,拥有真实业务场景的 BNPL 公司、大型互联网公司对特定金融机构提供纯引流服务,但在辅助风控环节接受 Credit Karma(税务数据)、Lending Tree(贷款经纪)等数据来源相对单一机构的信用评估服务,则 6 数据来源:Affirm 公司 2021 年度报告 7 数据来源:Affirm 公司 2022 年度报告 27 难以基于更多维度信息对 BNPL 平台推送客户的信用进行补充性判断,从而造成变相的信息资源浪费。从信息传输的合规要求从信息传输的合规要求来看,全链条式助贷减少了个人信息来看,全链条式助贷减少了个人信息在不同机构间的传输频次,一定程度上降低了助贷合规成本以及在不同机构间的传输频次,一定程度上降低了助贷合规成本以及信息泄露潜在风险。信息泄露潜在风险。根据2020 年加州隐私权法,美国在个人信息收集方面具有较为宽松的政策环境,但对个人信息传输行为有更强的约束。例如,苹果公司与谷歌都会收集电子邮件地址、联系信息(包括实际地址)、付款信息(包括银行详细信息)、交易信息、财务信息(包括工资、资产等)、政府身份证数据等8,但科技巨头们在数据使用上较为谨慎。具体来看,在做广告推送时,Apple 会在 App Store、新闻应用程序和股票应用程序上投放广告,但不会将数据出售给第三方广告商,转换至助贷服务模式中,Apple 和谷歌会根据其内部数据来帮助金融机构识别用户身份,但他并不会将用户原始数据直接向外分享。根据亚马逊的“隐私声明”,该公司“不从事将客户的个人信息出售给他人的业务”。亚马逊会使用它收集的数据来更好地判断客户偏好,进而提供定制化的产品服务,但与 Apple 和谷歌不同的是,亚马逊某些不以盈利为目标的情况下会与参与交易的第三方共享客户的部分数据,例如星巴克、AT&T 等,亦或是与其他企业组织交换客户信息以进行反欺诈、管理客户信用风险,但涉及数据传输始终会有诸多限制。因此,全链条助贷模式有利 8 网址:https:/ 于降低数据传输合规成本,并降低个人信息泄露机率。3.4 国外助贷业务监管思路与实践国外助贷业务监管思路与实践 3.4.1 国际上对互联网机构助国际上对互联网机构助贷服务持鼓励态度贷服务持鼓励态度 从实际效果来看,互联网平台助贷服务大幅促进了消费者的金融可得性,因而国际上监管机构对其业务经营整体上持鼓励态度。以美国为例,美国消费者金融保护局(Consumer Financial Protection Bureau,CFPB)于 2012 年推出了“催化剂计划”(Project Catalyst),旨在促进有利于消费者的金融创新。根据美国人工智能借贷平台 Upstart 及相关研究机构的测算,Upstart 的 AI 模型使服务的借款人群增加了 43.4%,批准贷款的平均年利率降低43.2%,贷款的便捷性也显著提升9。凭借对金融消费者的帮助,Upstart 于 2017 年获得 CFPB 首次出具的不行动函(Non-action Letter)。不行动函由政府机构向被监管机构发出,意为不推荐监管机构对其采取法律或其他监管行动,此举有助于降低 Upstart创新产品的监管成本。随着规模不断扩张,助贷业务出现了掠夺性贷款、银行风控责任缺失等问题,不仅损害了消费者权益,而且危及金融系统的稳健性。有鉴于此,美国、英国、欧盟自 2021 年开始加大对互联网助贷业务的关注,对平台机构与金融机构合作开展信贷活动 9 资料来源:Upstart 2022 年报 Value Proposition to Consumers 部分 29 提出了相关监管指引。在美国,CFPB 于 2022 年 9 月发布报告,对“先买后付”(Buy Now Pay Later,BNPL)这一信贷形式的市场趋势及其对消费者的影响进行了分析,明确并特别指出其潜在的市场风险;美国财政部在 2022 年 11 月向白宫提交了新兴非银行机构对消费金融市场冲击的评估报告,内含对银行与金融科技公司合作发放贷款的监管建议。在英国,财政部于 2021 年 2 月宣布将对 BNPL 业务进行监管,并于 2023 年 2 月就 BNPL 业务法律草案公开征求意见,建议由英国金融行为监管局(Financial Conduct Authority,FCA)承担 BNPL 监管职责,预计草案将在2023 年底前成为正式法律。在欧盟,欧盟委员会于 2021 年 2 月向欧盟银行业管理局(European Banking Authority,EBA)征求对非银行互联网贷款业务的监管意见,后者在 2022 年 4 月发布的回应报告中提出了监管建议。3.4.2 重视人工智能在互联网助贷业务上的潜在风险重视人工智能在互联网助贷业务上的潜在风险 互联网助贷机构通常采用人工智能、机器学习等科技手段对数据进行加工处理,进而形成金融消费者画像,这一过程存在诸多技术风险,其中包括模型的可解释性、数据选择偏差与过度拟合、网络安全、客户隐私等问题,可能会对消费者权益甚至金融系统稳定造成冲击。首先,人工智能算法模型容易得出歧视性的信贷评估结果。以美国为例,人工智能算法和模型的可解释性有可能违反其公 30 平信贷机会法案(Equal Credit Opportunity Act)和多德弗兰克法案(Dodd-Frank Act)的相关要求。美国传统线下信贷服务中,族裔不能成为信用评估参考因素之一,但人工智能技术可能会通过算法自动刻画出客户的族裔特征,从而造成隐性信贷歧视。此外,许多信贷分析模型通过机器学习技术实现了自行迭代,无需人工交互即可自我提高与改进,这给监管审查带来了极高的挑战。其次,人工智能技术中的数据选择偏差与过度拟合问题可能造成信贷风险。互联网助贷机构为金融机构提供的用于客户引流与辅助风控服务的数据在样本选择上容易出现偏差,或者在模型构建中存在过度拟合,一旦这些数据和模型被扩展应用到更大范围时就会进一步放大谬误,进而引发金融系统性风险。最后,互联网助贷业务潜藏着较大的网络安全风险。金融业属于数据密集型和科技驱动型行业,对网络与信息技术的安全性与稳定性要求极高。市场上互联网助贷机构的数量与类型众多,数据管理水平参差不齐,在利用大数据为金融机构提供助贷服务的过程中可能发生运维风险(如数据丢失、数据泄露、数据非法篡改等),不仅会导致合作金融机构风控质量下降,还有损金融消费者个人信息安全。3.4.3 允许金融机构将信贷风险管理工作进行外包允许金融机构将信贷风险管理工作进行外包 在美国,金融机构在尽到风险自查职责的前提下,可以将信 31 贷风险管理工作外包给第三方机构(通常为互联网助贷机构),即“责任不外包,服务可外包”。具体来看,美国机构间信用风险审查系统指引(Interagency Guidance on Credit Risk Review Systems)中明确规定,银行对信用风险评估系统的有效性与稳定性负有责任,但可以将信用风险评估工作部分或者全部外包给第三方机构。此外,美国银行业联邦监管机构于 2023 年 6 月发布 第三方关系机构间指引:风险管理(Interagency Guidance on Third-Party Relationships:Risk Management),提出了金融机构与第三方机构进行风控合作的全周期监管要求,核心内容是银行引入第三方合作关系须进行尽职调查并厘清各方的责权利,合作期间需自行或借助外部资源持续监控第三方机构表现,以确保合作过程规范,同时采取与自身经营规模及业务复杂程度相匹配的风险管理举措。美 国 联 邦 存 款 保 险 公 司(Federal Deposit Insurance Corporation,FDIC)也要求银行在与互联网助贷机构的合作中能够尽到评估与保障贷款的责任,尤其对社区银行和区域性银行与互联网助贷机构的合作给予了更严格的审查。例如,2021 年 8月,与互联网助贷机构合作较多的社区银行 Cross River Bank 接到指令,被要求向 FDIC 提交本行与第三方机构联合提供的信贷产品清单,并且聘请 FDIC 认可的独立第三方机构对信贷产品进行评估。32 3.4.4 金融金融监管部门有权对互联网监管部门有权对互联网助贷机助贷机构进行直接审查构进行直接审查 根据美国 2016 年颁布的 银行服务公司法案(Bank Services Company Act),联邦监管机构对于为银行提供服务的第三方技术服务商具有同等的监管权力。例如,在 2017 年,联邦存款保险公司监察长办公室(The Office of Inspector General at the FDIC)审查了技术服务商(Technical Service Providers)与 19 家银行之间的 48 份合同。具体审查内容包括:第一,技术服务商是否未经授权访问或使用敏感非公开个人信息;第二,技术服务商是否有能力在遇到网络相关问题时快速反应并恢复服务;第三,不良事件发生后,技术服务商是否向银行提供事件响应报告并协助银行采取相应预防措施。此次审查结果发现,银行与技术服务商之间的合作合同大都由技术服务商起草,导致银行与技术服务商之间的权责划分不够清晰。此外,技术服务商经常使用分包商,但银行对分包商的尽职调查不充分,特别是中小银行对分包商的操作风险控制不足。根据监管要求,除非银行对分包商进行与技术服务商同等标准的尽职调查,否则应禁止技术服务商使用分包商。3.4.5 将互联网助贷纳入统一的金融监管框架将互联网助贷纳入统一的金融监管框架 美国金融监管体系分为联邦与州两个层级,构建了分工明确、运转高效的监管模式。所有的国民银行以及在联邦注册的外国银行分支机构均由联邦金融管理机构负责管理。这些银行承受 33 的监管成本较高,但可以在全国范围展业。州一级的非联邦成员银行则由各州金融监管机构负责,其业务范围被限制在各州域内,若想要跨州展业则需要得到目标州的金融牌照。互联网助贷机构的业务经营与现行金融监管框架存在抵牾,其主要原因在于经由互联网助贷平台发放的贷款能够越过州际限制,服务全美各个地区的金融消费者,从而规避了美国现行金融监管模式。比如,被称为美国版“花呗”的 Affirm 公司,其作为一个连接电商消费者与商家的贷款支付平台,与多家银行、消费金融公司合作开展互联网助贷业务。美国新泽西州立银行Cross River Bank 是 Affirm 的重要贷款合作伙伴之一,该银行本身不具备在美国全境展业的金融牌照,但实际上却通过 Affirm为全美各州的借款人提供贷款服务,相当于变相实现了信贷业务跨州经营。此外,有的地方性银行以金融科技公司为屏障,规避各州的消费者保护及贷款利率上限监管要求,间接向市场发放年利率超过 100%的贷款来获取高额收益。目前,美国不同监管部门对于互联网助贷机构的管理办法态度各异。货币监理署(Office of Comptroller of Currency,OCC)于 2016 年 12 月发布文件 探索向金融科技公司发放特殊目的国民银行牌照(Exploring Special Purpose National Bank Charters for Fintech Companies),提出将非银行金融科技公司(包括互联网助贷机构)视为“特殊目的国民银行”(Special Purpose National Bank),其贷款业务将由联邦级金融监管机构进行管理。OCC 主 34 要有两方面理由:一是严格的联邦监管体系能够确保这些公司以安全、稳健的方式运营;二是金融科技公司普遍在全国范围展业,且不同公司的业务模式和服务内容各有侧重,由联邦机构管理将有助于促进监管的一致性。此外,根据 OCC 于 2020 年发布的 实际贷款人规则(True Lender Rule),金融科技公司在与银行合作开展信贷业务时,无论其是否提供贷款资金,只要在贷款协议中被指定为贷款方,那它即为“实际贷款人”。OCC 构想的“特殊目的国民银行牌照”和“实际贷款人规则”方案一经提出便遭到多方反对。FDIC 认为,金融科技公司没有参与存款保险,将其视为国民银行会导致监管风险,并且OCC 无权指定谁是“实际贷款人”。美国联邦担保信用合作社协会(The National Association of Federally-Insured Credit Unions,NAFCU)与国家银行监事协会(Conference of State Bank Supervisors,CSBS)也持类似观点。面对各方质疑,最终美国国会于 2021 年 6 月投票撤销了 OCC 提出的方案。综上所述,当前国外监管部门对互联网助贷业务整体持开放当前国外监管部门对互联网助贷业务整体持开放态度,但态度,但尚未形成明确统一的监管规则尚未形成明确统一的监管规则。美国的监管思路以消费者权益保护为核心,在强调银行自主履行风险审查职责的同时,保留直接对第三方机构进行审查的权力。35 4 当前国内助贷业务监管政策与主要问题分析当前国内助贷业务监管政策与主要问题分析 4.1 国内互联网贷款助贷模式监管政策梳理国内互联网贷款助贷模式监管政策梳理 我国监管部门高度重视互联网金融风险问题,近些年从支付业务、金融业务、宏观审慎监管等方面发布实施了诸多政策以进行监管和调控,其中,针对互联网贷款领域(包括助贷模式)的监管体系更是进行了大幅优化与改善(详见表 4.1)。互联网互联网贷款整体性监管方面贷款整体性监管方面,2020 年出台的商业银行互联网贷款管理办法,与后续跟进的 2021 年关于进一步规范商业银行互联网贷款业务的通知,提出了互联网贷款业务的系统化规制;2022 年关于加强商业银行互联网贷款业务管理提升金融服务质效的通知 进一步明确细化了商业银行贷款管理和自主风控要求,并规定商业银行互联网存量业务整改期限至 2023年 6 月 30 日。机构管理方面机构管理方面,监管部门针对助贷市场参与主体机构颁布了特定的管理政策,非银行金融机构以小额贷款公司和消费金融公司为主;助贷机构方面则从 2021 年开始对 14 家头部网络平台金融业务进行专项整改10,以金融业务合规经营和消费者权益保护为监管重点,具体内容包括但不限于:金融业务必须持牌经营、支付“断直连”、个人征信业务通过持牌征信机构依法合规开展、10 14 家平台名单:蚂蚁、腾讯、度小满、京东数科、字节跳动、美团、滴滴、苏宁金融、国美金融、陆金所、天星数科、360 数科、新浪金融、携程金融 36 在个人信息采集使用方面强化金融消费者保护机制。消费者权益保护方面消费者权益保护方面,中国人民银行金融消费者权益保护实施方法明确了金融机构消费者权益保护工作的行为规范;银行保险机构消费者权益保护管理办法严格执行行为监管,打击侵害消费者权益乱象,并构建个人信息保护制度;关于进一步加强校园贷规范管理工作的通知、关于规范整顿“现金贷”业务的通知与关于进一步规范大学生互联网消费贷款监督管理工作的通知的颁布实施,有效打击了引流对象“泛化”、助贷行为“异化”、侵犯个人隐私等市场乱象;关于警惕过度借贷营销诱导的风险提示 和 2021 年“个人贷款利率降低至 24%以下”的窗口指导,主要针对“过度信贷”和“畸高利率”两大风险进行防控。信贷业务合作方面信贷业务合作方面,金融产品网络营销管理办法(征求意见稿)、征信业务管理办法和银行保险机构信息科技外包风险监管办法分别对贷款业务的营销导流、信用评估和科技外包等环节中,金融机构与助贷机构的合作形式、权责边界、行为规范等给出了具体要求。总结来看,2020 年以来,金融部门持续加强对互联网贷款助贷业务模式的监管,至今相关监管规则经过多次修订与完善,整体监管体系已经较为健全。与国外互联网贷款助贷模式监管相与国外互联网贷款助贷模式监管相比,不仅强调消费者权益保护,还在信用信息数据流转与应用、比,不仅强调消费者权益保护,还在信用信息数据流转与应用、贷款业务合作具体环节方面做出了细致、数量化的监管规定,此贷款业务合作具体环节方面做出了细致、数量化的监管规定,此 37 外,既有通过对互联网贷款助贷模式的业务行为监管文件,也外,既有通过对互联网贷款助贷模式的业务行为监管文件,也通通过对过对 14 家大型助贷机构的整改行使了主体监管职能。因此,监家大型助贷机构的整改行使了主体监管职能。因此,监管体系的完善度、细致度、严格性和前瞻性明显优于国外,未来管体系的完善度、细致度、严格性和前瞻性明显优于国外,未来监管科技的应用有待加强监管科技的应用有待加强。38 表表 4.1 互联网贷款助贷模式的相关监管政策互联网贷款助贷模式的相关监管政策 分类分类 政策文件政策文件 互联网贷款整体性互联网贷款整体性监监管管 商业银行互联网贷款管理暂行办法(银保监会令商业银行互联网贷款管理暂行办法(银保监会令 2020第第 9 号)号)关于进一步规范商业银行互联网贷款业务的通知(银关于进一步规范商业银行互联网贷款业务的通知(银保监办发保监办发202124 号)号)关于加强商业银行互联网贷款业务管理提升金融服务关于加强商业银行互联网贷款业务管理提升金融服务质效的通知(银保监规质效的通知(银保监规202214 号号)机构管理机构管理 小额贷款公司网络小额贷款业务风险专项整治实施方案(网贷整治办201756 号)关于网络借贷信息中介机构转型为小额贷款公司试点的指导意见(互金整治办函201983 号)中国银保监会非银行金融机构行政许可事项实施办法(银保监会令2020年第 6 号)关于加强小额贷款公司监督管理的通知(银保监办发202086 号)【重要助贷机构【重要助贷机构监管监管】2021 年开始对年开始对 14 家开展互联网家开展互联网贷款助贷业务的大型互联网平台的业务整改贷款助贷业务的大型互联网平台的业务整改 消费者权益保护消费者权益保护 关于进一步加强校园贷规范管理工作的通知(银监关于进一步加强校园贷规范管理工作的通知(银监发发201726 号)号)关于规范整顿“现金贷”业务的通知(互金整治办关于规范整顿“现金贷”业务的通知(互金整治办函函2017141 号)号)中国人民银行金融消费者权益保护实施方法(中国人民银行令2020第 5 号)关于进关于进一步规范大学生互联网消费贷款监督管理工作一步规范大学生互联网消费贷款监督管理工作的通知(银保监办发的通知(银保监办发202128 号)号)【窗口指导】【窗口指导】2021 年要求全部贷款产品明示贷款年化利年要求全部贷款产品明示贷款年化利率以及窗口指导个人贷款利率降低至率以及窗口指导个人贷款利率降低至 24%以下以下 关于警惕过度借贷营销诱导的风险提示(银保监会关于警惕过度借贷营销诱导的风险提示(银保监会消保局消保局 2022 年年 3 月月 14 日发布)日发布)银行保险机构消费者权益保护管理办法(银保监会令 2022第 9 号)业务业务合作合作 营销导流营销导流 金融产品网络营销管理办法(征求意见稿)(七部金融产品网络营销管理办法(征求意见稿)(七部委委 2021 年年 12 月月 31 日公开征求意见)日公开征求意见)信用评估信用评估 信用评级业管理暂行办法(人民银行 发改革 财政部 证监会 令2019第 5 号)征信业务管理办法(中国人民银行令征信业务管理办法(中国人民银行令2021第第 4号)号)科技支持科技支持 银行保险机构信息科技外包风险监管办法(银保监银行保险机构信息科技外包风险监管办法(银保监办发办发2021141 号)号)中国银保监会办公厅关于银行业保险业数字化转型的指导意见(银保监办发20222 号)39 4.2 当前互联网贷款助贷模式主要问题分析当前互联网贷款助贷模式主要问题分析 当前国内对互联网助贷业务的监管法规已经较为完善,但部分政策仍有不够明确清晰或有待进一步商榷的内容,导致市场机构在实际业务流程中基于差异化解读和自身商业利益难以充分贯彻执行有关规定。4.2.1 金融机构与助贷机构在部分业务环节中权责边界模糊金融机构与助贷机构在部分业务环节中权责边界模糊 大型互联网平台等介入金融业务,有利于提升信贷服务效率与质量,但同时也带来了金融机构与助贷机构在部分信贷业务环节中权利与责任边界模糊的问题,具体可从营销获客、收费模式和风控与科技外包三个方面来展开分析。在营销获客方面,在营销获客方面,金融产品网络营销管理办法(征求意见稿)中强化了金融机构与第三方互联网平台开展金融产品营销过程中的权责边界划分。主要体现在三个方面:(1)金融机构应当作为业务主体承担管理责任,对网络营销宣传内容的合法合规性负责,建立内容审核机制,第三方不得擅自变更金融机构审核确定的营销宣传内容;(2)第三方互联网平台经营者不得介入或变相介入金融产品的销售业务环节,如互动咨询、金融消费者适当性测评、销售合同签订、资金划转等;(3)第三方互联网平台经营者应当以清晰、醒目的方式展示金融产品提供者名称或相关标识。金融产品名称不得使用第三方互联网平台名称、商标的相关字样,造成金融机构和第三方互联网平台的品牌混同。40 从调研的银行与助贷机构看,上述监管要求正在互联网贷款业务中逐步落地,金融机构在与第三方互联网平台(助贷机构)合作开展互联网贷款营销活动的过程中权责边界更加清晰。例如:(1)调研助贷机构将营销内容标准化后,经合作金融机构确认,再对外投放;(2)助贷机构与金融机构合作贷款产品的品牌隔离也在逐步推进,部分互联网平台与金融机构合作开展的互联网贷款业务重新命名为“信用购”与“信用贷”,并在营销页面中明示合作金融机构的名称。然而,仍存在两点内容需要进一步探讨:第一,“第三方互联网平台经营者不得介入或变相介入金第一,“第三方互联网平台经营者不得介入或变相介入金融产品的销售业务融产品的销售业务环节”规定下的广告导流和风控初筛环节”规定下的广告导流和风控初筛边界如何边界如何确定?确定?将原本理解为“售前环节”的互动咨询和消费者适当性测评纳入“销售”范畴,这导致对互联网平台营销形式约束过多,极大地限制了互联网业务合理营销空间,不利于发挥平台机构的比较优势。第二,“小程序”究竟是否认定为商业银行自营渠道?第二,“小程序”究竟是否认定为商业银行自营渠道?在自主管理贷款的要求下,商业银行拓展自营获客渠道成为互联网贷款业务下一阶段重要目标。由于银行小程序多部署在微信、支付宝等互联网平台上,有观点认为该形式下银行与平台机构的数据和技术未实现完全隔离,其安全性等级低于银行官网和手机银行 app,不应该被认定为银行自营渠道。若小程序不被认定为银行自营渠道,意味着今后商业银行必须自行开发手机银行 app,用户在网络平台发起贷款申请之后,会“跳端”至银行 app 页面完成之后的信贷业务环节。站在信贷需求者的角度,一方面,41 页面跳转会带来卡顿感,降低互联网贷款服务的便捷性;另一方面,单独下载和安装银行 app 软件会进一步影响用户体验。站在中小银行的角度,小程序渠道主要是出于增加通道的考虑,而监管部门对于助贷业务暂时没有明确决策和定位,独立开发、运营专属 app 软件需要投入的人力和资金成本过大。站在互联网平台机构的角度,“跳端”会导致其场景生态内的优质客户逐渐转移至银行,基于商业利益考量会缺乏合作动力。综上,结合线下走访调研机构的情况来看,将“小程序”认定为银行自营渠道符合绝大多数市场参与主体利益。在助贷服务定价与收费模式方面,在助贷服务定价与收费模式方面,金融产品网络营销管理办法(征求意见稿)规定第三方互联网平台经营者不得通过设置各种与贷款规模、利息规模挂钩的收费机制等方式变相参与金融业务收入分成,即第三方互联网平台不能再以金融产品本金或息费收入的百分比的方式参与收入分成,其收入只能基于其提供的信息或科技服务。具体如,第三方互联网平台可以按照客户或流量计算收入,不能与金融产品的收入或利润挂钩。但硬性规定硬性规定助贷服务收费模式,不符合市场化的合作机制,这可能导致金融助贷服务收费模式,不符合市场化的合作机制,这可能导致金融机构与外包服务商之间的权责利失衡机构与外包服务商之间的权责利失衡。在风控与科技外在风控与科技外包方面,包方面,商业银行互联网贷款管理办法、关于进一步规范商业银行互联网贷款业务的通知与关于加强商业银行互联网贷款业务管理提升金融服务质效的通知 系列监管文件,持续强调金融机构对风险管理职能的独立自主能力与 42 责任,此外,银行保险机构信息科技外包风险监管办法规定金融机构不得将信息科技管理责任、网络安全主体责任外包,并以不妨碍核心能力建设、积极掌握关键技术为导向,也即核心风控系统不能外包。从调研的银行与助贷机构看,金融机构在与助贷机构合作开展互联网贷款业务过程中的独立自主性明显增强。例如:(1)在授信审批环节,过往存在由助贷机构自主决策贷款授信额度与利率定价,后续仅是通知合作银行决策结果并要求银行发放贷款的情况。目前基本已经改为助贷机构向合作银行提供授信额度与利率定价建议,最终由合作银行自主决策确定实际授信额度与利率水平;(2)身份验证环节,目前助贷机构会基于自身的身份核验与反欺诈系统做初步核验,并将相关基本信息与核验结果传输给合作银行,由合作银行独立进行最终自主核验;(3)在合同签订环节,目前贷款合同由合作银行自行配置模板决策内容,助贷机构仅提供渠道和传输、展示技术支持,最终合同由合作银行签署留存为准。根据目前互联网贷款助贷模式中金融机构风控管理和科技外包的整体现状,本报告提出两点担忧与思考:第一,强调金融第一,强调金融机构在助贷业务合作中的主导地位是没有问题的,但目前“自主机构在助贷业务合作中的主导地位是没有问题的,但目前“自主风控”的定义和边界不够清晰,导致银行“独立自主”的经营要风控”的定义和边界不够清晰,导致银行“独立自主”的经营要求在助贷业务合作各环节中被泛化求在助贷业务合作各环节中被泛化。除几家全国性大型银行之外,国内绝大部分银行没有在营销、风控、产品、运营、技术等 43 所有方面都形成绝对闭环的能力,因而过度强调金融机构独立自主的政策导向一方面不具实操性,另一方面容易进一步强化头部银行垄断优势,不利于中小银行健康发展。第二,我国数字经济第二,我国数字经济发展走在世界前列,实践中对机构合作和数据开放需求越来越强发展走在世界前列,实践中对机构合作和数据开放需求越来越强烈,监管政策和部分市场主体的理念过于审慎保守容易导致行业烈,监管政策和部分市场主体的理念过于审慎保守容易导致行业创新力度相对海外市场有所滞后创新力度相对海外市场有所滞后。一方面,我国在数字经济和数字金融领域具有先发优势,理应秉持更加开放的态度去积极探索跨机构合作和数据开放领域的创新模式与机制;另一方面,监管政策在规范助贷业务发展时过于“保护”金融机构,不利于金融机构与科技公司间的市场化竞争,且实则导致风险进一步向金融机构聚集。从世界范围来看,金融机构向消费者提供资金借贷服务,而大量营销和风控等职能使用第三方机构的 SaaS 服务是非常常见的。4.2.2 互联互联网贷款集中度风险管理长期来看不利于实现助贷网贷款集中度风险管理长期来看不利于实现助贷业务降本增效业务降本增效 为进一步促进互联网贷款业务健康发展,切实防范金融风险,关于进一步规范商业银行互联网贷款业务的通知针对金融机构与助贷机构合作发放贷款明确了两项集中度限制,即商业银行与单一合作方发放的本行贷款余额不得超过一级资本净额的 25%,同时商业银行与全部合作机构共同出资发放的互联网贷款余额,不得超过全部贷款余额的 50%。监管部门提出该规定的 44 初衷在于促进商业银行精细化管理水平,防止互联网贷款业务重要风控环节过度集中于单一助贷机构,从而导致商业银行风控管理空心化,此外,更是为了防止单一大型助贷机构同时深入对接多家金融机构,导致不同金融机构信贷业务长期遵循同一风控模型,容易引发金融市场信用风险共振。从调研的商业银行来看,目前股份制商业银行均同时与数家市场上主流的助贷机构有信贷业务合作,且对助贷机构推送客户的信贷申请通过率大致在 50%之间,因此风控模型共振带来的潜在金融与社会风险问题概率较小。根据两项集中度定量管理指标进行简单测算,假设一家金融机构开展合作互联网贷款业务规模达到总贷款规模的 50%上限,在单一合作机构贷款规模的25%一级资本限制下,大约需要与 10 个左右的助贷机构合作,这无疑避免了金融机构对合作助贷机构的过度依赖,但如此一来也导致优质助贷机构无法通过市场竞争提升单一合作银行的业优质助贷机构无法通过市场竞争提升单一合作银行的业务份额,从而削弱助贷机构提升服务质量,降低收费成本的务份额,从而削弱助贷机构提升服务质量,降低收费成本的意愿,意愿,不利于金融机构通过加大与优质助贷机构合作实现助贷业务降不利于金融机构通过加大与优质助贷机构合作实现助贷业务降本增效的效果本增效的效果。4.2.3 助贷机构加入信贷服务市场,提升行业经营效率的同助贷机构加入信贷服务市场,提升行业经营效率的同时也将客观上提升金融消费者融资成本时也将客观上提升金融消费者融资成本 大型互联网平台、数据经纪商等助贷机构加入互联网贷款行业,信贷业务环节和分工更加细致,市场参与主体增加,金融消 45 费者得到更加专业、高效服务的同时,其融资成本也一定程度上有所增加。我国金融活动始终坚持以人民为中心的发展方向,监管部门为降低消费者综合贷款成本,2021 年起要求全部贷款产品明示贷款年化利率,并窗口指导个人贷款产品年利率降至 24%以内。另外,就是限定助贷机构总分润比例。从金融消费者的角度来看,其一定会享受到比现在更低价格的金融服务,但对于金融机构及助贷机构来说,资金方价格维持不变、运营成本无法进一步压缩的情况下,则助贷机构的盈利空间会极大地收缩,这将严重打击助贷机构的经营积极性。从互联网贷款业务助贷模式的服务对象来分析,更多的难以在传统金融体系中获得信贷服务的下沉客户群体,他们事实上是愿意以相对更高的价格去获取专业信贷服务的。因此,24%的综合贷款利率上限是否有助于维持长的综合贷款利率上限是否有助于维持长尾客户和小微企业获取金融服务的长期连续性还需进尾客户和小微企业获取金融服务的长期连续性还需进一步讨论一步讨论和验证和验证。4.2.4 个人信用数据“断直连”与针对第三方平台机构的数个人信用数据“断直连”与针对第三方平台机构的数据安全管理规定,在短期之内对各市场主体均有一定冲击据安全管理规定,在短期之内对各市场主体均有一定冲击 征信业务管理办法 要求将用于判断贷款人信用状况的替代数据(包含对应的信用评分等数据)纳入信用信息范畴,信用信息采集、整理、保存、加工,并向信息使用者提供需要通过持牌征信机构,在 2023 年 6 月 30 日之前断开助贷机构与金融机构之间的信用信息数据直接连接。虽然当前助贷机构与金融机构均 46 在按照监管要求进行“断直连”的整改落地,但是从长远看,将所有替代数据“一刀切”地纳入征信监管范畴不仅会在个人征信公司的数据管理方面造成压力,还会影响信用评估行业各类机构数据分享的积极性,不利于替代数据在互联网贷款领域充分发挥数据价值。此外,监管规定金融机构利用第三方互联网平台网络空间经营场所,应当防止第三方互联网平台非法破解、截留、存储客户信息和业务数据,再结合小程序可能不被认定为银行自营渠道,则意味着贷中和贷后的业务数据将不再自动回流至平台机构,这不便于助贷机构直接提供资金支用审查、贷后催收等增值服务。总结来看,个人征信公司在审查、管理全行业信用数据方面个人征信公司在审查、管理全行业信用数据方面存在较大压力;助贷公司数据分享积极性降低,为金融机构存在较大压力;助贷公司数据分享积极性降低,为金融机构直接直接提供增值服务的能力减弱;金融机构仅凭借助贷机构提供的客户提供增值服务的能力减弱;金融机构仅凭借助贷机构提供的客户综合风险评分难以积累客户数据资源,从而影响自身风控能力建综合风险评分难以积累客户数据资源,从而影响自身风控能力建设;金融消费者短期之中获取所需信贷服务的性价比降低设;金融消费者短期之中获取所需信贷服务的性价比降低。4.2.5 在强化金融机构主体责任的过程在强化金融机构主体责任的过程中约束业务流程细中约束业务流程细节,容易导致金融业务和风险过度向金融机构倾斜,不符合政策节,容易导致金融业务和风险过度向金融机构倾斜,不符合政策保护消费者权益的初衷保护消费者权益的初衷 助贷机构绝大多数为科技平台和数据服务公司,一方面由于是“非持牌金融机构”而受到较少监管约束,另一方面凭借场景、47 数据以及技术优势等在与金融机构合作中变相掌握定价主导权,因而过往助贷机构与金融机构在合作中权责边界模糊,导致出现了不少诱导或者误导消费者过度借贷、制定不合理高利率、暴力催收、个人信息泄露等侵害消费者权益的行为。为加强金融消费者权益保护,监管机构自 2021 年以来密集出台了一系列行为与主体监管措施,主要包括以下四个方面:(1)限制对大学生这类特定人群的互联网贷款供给;(2)加强对贷款营销行为的规范,包括信息披露、适当性评估、侵害消费者权益行为认定等方面;(3)引导整体互联网个人消费贷款利率下降至 24%以下;(4)明确金融机构与助贷机构在合作开展互联网贷款营销过程中的权责边界。随着上述监管措施落地,基于公开数据与助贷机构及金融机构调研信息,发现以大型互联网平台为代表的大型助贷机构与合作金融机构基本停止向大学生发放贷款;个人互联网贷款业务投诉量得到稳定控制(详见图 4.1);助贷机构平均贷款利率显著降低(详见图 4.2);大型助贷机构以各种形式加大消费者权益保护力度,比如蚂蚁集团 2021 年推出账单助手功能,引导用户理性借贷。48 图图 4.1 银行业消费者个人贷款业务投诉量(件)银行业消费者个人贷款业务投诉量(件)数据来源:银保监会 图图 4.2 上市助贷机构平均贷款利率上市助贷机构平均贷款利率 数据来源:公司财报 目前,互联网贷款行业的整体消费者权益保护水平有所提升。监管体系以强化金融机构主体责任为原则,在业务形式上要求突出银行直接对客表达,但实际上对业务流程做过多细致的规定,极大地限制了合作机构的业务空间,不利于明确助贷业务风险承担,则金融消费者难以得到最优的信贷服务,这实际上是对其权益的最大损害。强调金融机构在互联网贷款助贷模式中的主体管理责任,并不意味着助贷机构不需要承担助贷业务风险,相 49 反,助贷机构在数据合规、风险定价、消费者保护方面等方面相较于金融机构(尤其中小银行)而言具备更强的技术实力。现行的一系列监管措施,从银行自主风控、合作机构集中度、联合贷从银行自主风控、合作机构集中度、联合贷款出资比例等维度进行全款出资比例等维度进行全方位管控,严格要求银行侧在业务开展方位管控,严格要求银行侧在业务开展中的主导地位,促使金融业务向银行倾斜的同时,也迫使银行承中的主导地位,促使金融业务向银行倾斜的同时,也迫使银行承担更大助贷业务风险担更大助贷业务风险。5 政策建议政策建议 5.1 现有助贷业务监管框架已经相对全面,在强调金融机构现有助贷业务监管框架已经相对全面,在强调金融机构承担信贷主体责任的同时,给承担信贷主体责任的同时,给予其足够的业务自主裁量权,引导予其足够的业务自主裁量权,引导金融机构与互联网助贷企业充分发挥比较优势,切实保护金融消金融机构与互联网助贷企业充分发挥比较优势,切实保护金融消费者权益费者权益 尽管我国监管部门对助贷业态尚未给出清晰的决策和定位,但相较于国外而言,在互联网贷款业务以及助贷具体合作环节的政策指引中已经做出了相对细致和严格的规定,因此在短期内进一步增加限制性规则的必要性不高。目前,金融机构与助贷平台企业在营销、风险管理、数据流转等信贷合作环节中仍存在权责边界模糊的情况,但这并非由相关监管规则空白所导致,相反地,过度约束业务流程细节,容易打击助贷企业的业务积极性,并限制其科技实力的发挥质效,促使金融业务和风险过度向金融机构倾斜,最终损害金融消费者的实际利益。因此,监管部门应在强调金融机构履行风险审查职责、50 承担信贷主体责任的前提下,引导金融机构充分发挥自主能动性,根据自身业务规模、科技实力选择信贷业务合作对象,在具体业务环节中合理平衡业务发展与风险管控。最终,在推动金融信贷产品与服务创新的同时,强化各方的风险管理能力,切实保护金融消费者权益。5.2 深化监管科技发展以提升监管效能,防范人工智能在互深化监管科技发展以提升监管效能,防范人工智能在互联网助贷业务中的潜在风险联网助贷业务中的潜在风险 人工智能在互联网助贷业务中的应用带来了巨大的便利性和效率提升,但与此同时,它也伴随着一系列潜在的风险和挑战。监管部门在完善监管原则的基础上,应深化监管科技在助贷领域的应用。一是一是建立多维度风险评估模型,综合考虑信贷风险、数据隐私风险、模型失控等多个方面,通过数据分析和机器学习算法,识别潜在风险并提供预警,这有助于监管部门更好地把握整个助贷市场的动态,并及时采取措施来规避潜在风险。二是二是要求互联网助贷平台提供更全面、透明的数据披露,包括贷款利率、数据采集和使用方式、风控模型等方面的信息。这不仅能增加市场透明度,也有助于监管机构更好地监督和评估人工智能模型的运作情况。三是三是监管部门需要建立更为严格的合规性监管制度,确保互联网助贷平台在人工智能应用方面符合法律法规的要求。此外,对于涉及人工智能决策的模型,监管机构应当加强技术审核,确保其符合公平、透明、不歧视等原则,避免因模型偏差或 51 歧视性数据而带来风险。四是四是监管部门应加大对监管科技的投入,提升数据分析、人工智能监管等技术水平。五是五是促进互联网助贷行业自律,鼓励行业主体建立更完善的风险管理和内部控制机制。同时,跨部门合作也是提升监管效能的重要手段,监管部门应与科技公司、学术界等多方合作,共同研究监管科技在助贷领域的应用,分享技术、数据和经验,提升监管水平。5.3 替代数据“断直连”不利于金融机构与助贷机构合作发替代数据“断直连”不利于金融机构与助贷机构合作发挥数据要素在互联网贷款领域的价值,长期应探索构建多层次征挥数据要素在互联网贷款领域的价值,长期应探索构建多层次征信市场监管体系,提升数据要素使用效率与价值信市场监管体系,提升数据要素使用效率与价值 短期应急方面,短期应急方面,一是一是在征信业务管理办法基础上尽快出台操作指引,对信用数据进行分类,并在此基础上细化分类监管措施,不“一刀切”阻断金融机构与市场服务商的数据连接。同时尽快给出符合要求的新业务模式案例样板供市场机构参照。此举一方面可降低对所有数据、业务环节、机构主体一刀切“断直连”带来的负面冲击,另一方面也有助于真正提升征信业务管理办法实施的可操作性。二是二是适当延长征信业务管理办法过渡期安排,给市场提供一个更加平稳的业务调整环境。三是对市场仅有的两家持牌征信公司加强指导和监管,理顺市场机制。两家公司需接纳所有市场机构数据向金融机构的输入,具有明显的市场优势地位。建议在竞争性市场未形成的情况下,对两家公司与其他众多市场机构的合作采取政府指导定价,在确保金融机 52 构最终成本不增的同时,为其他市场主体保留合理利润空间,一方面维持良好的行业生态,另一方面防止交易环节增加向消费者转嫁负担。中长期根本解决问题方面,中长期根本解决问题方面,一是一是适当增设持牌个人征信公司,促进市场适度竞争,提升服务质量。可考虑借鉴国外经验,分设全功能和部分功能(专业性)两种牌照,推动建设囊括丰富数据机构、满足不同市场主体需求的多层次征信市场体系;二是二是健全征信业相关法律,在更高法律层级上增强对市场各参与主体的权益保障和约束力,为构建覆盖全社会的征信体系夯实法治基础。三是三是鼓励行业积极探索多类型的数据共享模式,比如数据交易所逻辑汇聚和一点接入、隐私计算等,调动市场各方、尤其是公共数据服务机构信息共享的积极性。通过以上方式,推动构建更加多元活跃的信用数据要素市场,更好地发挥数据要素在信贷行业的价值。

    浏览量0人已浏览 发布时间2023-12-13 55页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 清华五道口:全国城市新市民数字金融服务指数报告(2023)(49页).pdf

    研究报告(2023 年 第 7 期 总第 127 期)2023 年 10 月 10 日 全国城市新市民全国城市新市民数字数字金融服务金融服务指数指数报告报告(2022023 3)金融发展与监管科技研究中心 蚂蚁集团研究院 联合课题组 【摘要】【摘要】随着新产业、新业态的快速发展,以及新型城镇化的推进,各城市正在吸引和带来越来越多新市民参与各行各业,新市民已逐渐成为我国城市发展的重要力量,做好新市民金融服务已成为促进经济和社会发展的必要举措。据统计,目前全国约有3 亿数量新市民群体,其持续增长的金融需求与传统金融供给不充分的矛盾日益突出。更好满足新市民金融需求,是实现人民对美好生活向往,也是党和政府赋予的必须保质保量做好的新的历史性、政治性任务。同时,服务新市民也代表了当下以商业银行为代表的金融机构积极探索和实践普惠和数字化转型的重要方 向。清华大学五道口金融学院金融发展与监管科技研究中心和蚂蚁集团研究院联合组建研究课题组,在“数字经济开放研究平台”上,利用城市粒度的匿名化脱敏抽样数据,在蚂蚁集团域内的云实验室进行指数计算,编制了一套“全国城市新市民数字金融服务指数”,以期对全国城市地区提升新市民金融服务的成效差异进行量化评价。结合现有文献和央行发布关于中国普惠金融指标,以及新市民金融服务的新形势新特征,与相关数据的可得性和有效性,课题组从新市民数字金融服务使用情况和质量情况2 个维度构建全国城市数字金融服务指标体系。指数包含上述 2个维度,共 20 个具体指标。基于上述指标体系和主客观赋权法最终编制了涵盖全国 31 个省(直辖市、自治区)、337 个地级以上城市(4 个直辖市和 333 个地级市、地区、自治州、盟等)总体和使用、质量两个方面“新市民数字金融服务指数”。本指数2021 年首次编制,报告包括了 2022 年的城市级和省级指数。方面分指数包含使用情况指数下支付结算、贷款融资、投资理财、信用免押和保险产品等二级指标,以及质量情况指数下触达度、实惠度、便利度和信用度等二级指标。“全国城市新市民数字金融服务指数”结果显示,东部沿海省份的新市民数字金融指数整体上分值较高,而东北地区整体颜色偏浅,显示该地区新市民数字金融服务指数的分值较低。新市民数字金融服务分布呈现“胡焕庸线”的特点。总指数前 50 名的城市分别是:杭州市、上海市、厦门市、南京市、丽水市、武 汉市、北京市、深圳市、合肥市、汕尾市、佛山市、广州市、福州市、莆田市、宁德市、鄂州市、南昌市、新余市、长沙市、淮安市、揭阳市、成都市、无锡市、湖州市、南通市、珠海市、郑州市、苏州市、徐州市、镇江市、嘉兴市、西安市、抚州市、盐城市、济南市、黄石市、景德镇市、芜湖市、黄山市、滁州市、常州市、襄阳市、金华市、三亚市、蚌埠市、宜昌市、南平市、漳州市、泉州市、新乡市。省级层面新市民金融服务指数前 10名为上海市、北京市、浙江省、福建省、湖北省、江苏省、广东省、江西省、安徽省、湖南省。新(老)市民的指数结果比较分析显示,一线城市、新一线城市、以及二线城市老市民享受的数字金融服务数量和质量均远超同城市新市民,在支付结算、保险产品等业务场景和触达度方面的对新市民金融服务的支持还有待进一步提升。根据报告研究结论,我们提出如下政策建议:第一,第一,认真贯彻落实国家新市民金融服务政策;第二,第二,创新满足新市民差异化需求的金融产品和服务;第三,第三,做好新市民金融健康管理;第四,第四,补齐区域性金融服务短板;第五,第五,加大金融科技在新市民金融服务中的应用。最后,我们在附录中提供了 2020-2022 年全国 31 个省(市、自治区)的新市民数字金融服务总指数、方面指数和二级指标分值,以及 2022 年全国城市分指数前 50 名排行榜。目录目录 1 1 研究背景与意义研究背景与意义 .1 1 1.1 研究背景.1 1.2 研究意义.2 2 2 全国城市新市民数字金融服务指标体系全国城市新市民数字金融服务指标体系 .3 3 2.1 指数定义与特征.3 2.2 指标体系说明.4 2.3 指标权重确定.7 2.4 指标和数据处理过程.9 3 3 全国城市新市民数字金融服务指数(全国城市新市民数字金融服务指数(20222022 年)年).1010 3.1 总指数主要特征.10 3.2 分指数主要特征.18 3.3 新(老)市民金融服务差异分析.23 4 4 结论与政策建议结论与政策建议 .3232 附录附录 .3636 附 1:全国省级新市民数字金融服务指数(2020).36 附 2:全国省级新市民数字金融服务指数(2021).38 附 3:全国省级新市民数字金融服务指数(2022).40 附 4:2022 年全国城市分指数排行榜(前 50 名).42 全国城市新市民数字金融服务指数报告(2023)(金融发展与监管科技研究中心 蚂蚁集团研究院 联合课题组)1 研究背景与意义 1.1 研究背景研究背景 2022 年 3 月,银保监会和人民银行联合发布关于加强新市民金融服务工作的通知(银保监发20224 号)(以下简称“通知”)要求加强“新市民”的金融服务,各地纷纷出台政策推广和强化新市民金融服务。“新市民”群体不仅包含个体工商户,还包含新就业或创业的大中专毕业生,这一群体不仅数量庞大,更是城市化服务中不可或缺的一环。但个体户往往难以从银行获得低利率、高额度的小微金融服务,个人消费信贷的额度又未必能满足日常资金周转需求,毕业生们既有围绕衣食住行的消费金融服务需求,也有关乎人生发展的金融需求,但大部分银行的信用卡仍是以工作一定时长的企事业单位白领客群为主。因为初来乍到,信用信息不足,又缺乏资产抵押物,因而这一阶段难以满足传统银行金融产品的标准和要求。但这一群体在初始创业、大额消费经常面临着资金紧缺问题,生活中也有着较大的资金压力。因此,围绕新市民“安居乐业”的消费金融需求该如何被充分满足,对金融机构而言既是机遇又是挑战。2 党的“二十大”报告发展的总体目标和首次提出的中国式现代化使命任务再次强调了“共同富裕”的目标,实现全体人民共同富裕,是中国式现代化的本质要求,也是中国特色社会主义的本质要求。做好新市民金融服务需提高站位,要充分意识到做好3 亿新市民服务对我国社会发展的重要意义。他们是推动城市建设与发展的重要力量,也是城市化过程中消费需求增长迅速、自我发展潜力较大的群体,也是实现共同富裕的重要组成部分。1.2 研究意义研究意义“新市民”作为新型城镇化过程中成长起来的消费生力军,是创新金融服务的重要对象,对我国当前加速推进共同富裕,推动经济高质量发展尤其意义重大。新市民群体人数众多,且需求潜力巨大,但目前市场上还缺乏足够的数据来全面刻画其金融服务状况。为进一步了解新市民在获取金融产品与服务方面的使用情况和质量情况,本报告基于“数字经济开放研究平台”,利用城市粒度的匿名化脱敏抽样数据,在蚂蚁集团域内的云实验室进行指数计算,针对新市民在支付结算、贷款融资、投资理财、信用免押、保险产品等方面金融产品和服务的使用及质量情况,研究构建新市民数字金融服务指标体系,提出“新市民数字金融服务指数”。通过全国城市新(老)市民享受数字金融服务差异的对比分析,从全国城市范围对新市民数字金融服务现状进行剖析,通过持续跟踪形成有效动态评估。由于新市民群体往往信用信息不全、有效抵质押物不足,消 3 费需求小而散,传统金融服务渠道通常难以覆盖,从而无法充分满足新市民群体的金融需求。新市民在获取金融服务的过程中,往往会因为金融机构风险控制而无法根据新市民具体情况进行差异化筛选,而被阻挡于服务范围之外。数字金融有助于持续提升金融服务的触达度、实惠度和便利度和信用度,助力提升新市民金融支持。做好新市民群体金融服务对畅通国民经济循环、构建新发展格局、实现高质量发展、推进以人为核心的新型城镇化意义重大,也是推进金融供给侧结构性改革、满足人民对美好生活向往、促进全体人民共同富裕的必要举措。基于此,本研究聚焦当前新市民金融产品和服务的使用和质量情况,构建“新市民数字金融服务指数”,量化评价全国城市地区提升新市民金融服务的成效差异,在此基础上评估数字普惠金融服务新市民的经济社会效应,提出进一步提升新市民金融服务水平的政策建议。2 全国城市新市民数字金融服务指标体系 2.1 指数定义与特征指数定义与特征 关于新市民,通知对新市民的范围界定为:“因本人创业就业、子女上学、投靠子女等原因来到城镇常住,未获得当地户籍或获得当地户籍不满三年的各类群体,包括但不限于进城务工人员、新就业大中专毕业生等。”结合上述文件界定,课题组将报告的研究范围确定为:“常住地和出生户籍地不一致,并且在最近 36 个月内常住地发生过变动的城市就业居民,以及其他符 4 合通知范围人群。”通知 范围主要从需求维度确定针对新市民在创业、就业、住房、教育、医疗、养老等重点领域。本研究主要从数字金融产品和服务供给出发,针对新市民在支付结算、贷款融资、投资理财、信用免押、保险产品五个方面数字金融服务。2.2 指标体系说明指标体系说明 新市民数字金融服务指数科学测算的前提是建立一个完整、准确的指标体系。目前尚无专门指数对新市民总体数字金融服务情况进行评估。本报告首次创新性地针对新市民总体数字金融服务情况开展指数测算。本报告参考中国人民银行普惠金融指标,以及数字普惠金融指数等评价体系,结合中国新市民样本特征,在新市民数字金融服务指标体系的构建过程中主要遵循以下原则:第一,同时考虑新市民数字金融服务的使用情况和质量情况。新市民数字金融服务指标体系应该是基于新市民研究范围以及数字金融服务定义的综合概括,其所包含的每一个指标和每一个维度都应反映新市民数字金融服务总体视角。而且不仅要考虑到新市民数字金融服务的城市区域及服务类型的使用差异,还要考虑主要服务水平的质量差异,只有这样才能全面衡量全国城市新市民数字金融服务的实际情况。第二,兼顾纵向和横向可比性。作为一个动态过程,新市民数字金融服务的发展随着经济社会和金融科技的深化发 5 展而不断变化,同一城市区域在不同年份的新市民金融服务情况会有变化。此外,不同城市区域在同一年份由于禀赋、经济社会发展、政策和制度的不同,在金融服务上的表现也会存在差异,也需要在新市民金融服务指数上得到体现。因此,所编制的新市民金融服务指数最好可以同时进行横向(城市维度)比较和纵向(时间维度)比较。第三,体现数字金融服务的多层次性和多元化,现有关于新市民数字金融服务方面的相关研究,主要是基于业务实践角度来考虑的。随着数字金融服务的不断创新发展,数字金融服务已呈现出多层次性和多元化发展的特征。因此,对于数字金融服务的全面刻画要求所构建的指标体系中不仅仅包括贷款,还包括保险、信用、投资、支付等业态,并且同样适用于城市新(老)市民之间的比较,以求更加全面地刻画新市民数字金融服务水平。具体指标体系框架如下所示:图图 2 2.1.1 新市民数字金融服务指标框架新市民数字金融服务指标框架 6 按照上述指标体系构建原则,结合现有文献提出的金融服务指标体系,以及新市民金融服务的新形势新特征,与相关数据的可得性和有效性,我们从新市民数字金融服务的使用和质量 2 个维度来构建新市民数字金融服务指标体系。本报告新市民数字金融服务指标共由使用情况和质量情况两个二级指标构成,分别包括支付结算、贷款融资、投资理财、信用免押、保险产品以及触达度、实惠度、便利度、信用度等三级指标。表 1 给出了新市民数字金融服务指标体系的整体体系框架。具体而言,目前一共包含上述 2 个维度,共计 20 个具体指标。表表 2.1 新市民金融服务指标体系表新市民金融服务指标体系表 数量指标数量指标 一级一级指标指标 二级二级指标指标 三级指标三级指标 计算公式计算公式 A:金融服务的使用情况 A1:支付结算服务 人均支付笔数 人均支付金额 1.城市新市民人均支付笔数/全国新市民人均支付笔数 2.城市新市民人均支付金额/全国新市民人均支付金额 A2:贷款融资服务 个人消费贷款平均贷款笔数 个人消费贷款平均贷款金额 小微经营贷款平均贷款笔数 小微经营贷款平均贷款金额 1.城市新市民个人消费贷款平均贷款笔数/全国新市民个人消费贷款平均贷款笔数 2.城市新市民个人消费贷款平均贷款金额/全国新市民个人消费贷款平均贷款金额 3.城市新市民小微经营贷款平均贷款笔数/全国新市民小微经营贷款平均贷款笔数 4.城市新市民小微经营贷款平均贷款金额/全国新市民小微经营贷款平均贷款金额 A3:投资理财服务 人均投资笔数 人均投资金额 1.城市新市民人均投资笔数/全国新市民人均投资笔数 2.城市新市民人均投资金额/全国新市民人均投资金额 A4:信用免押服务 生活信用人均免押调用笔数 生活信用人均免押使用金额 1.城市新市民生活信用人均免押调用笔数/全国新市民生活信用人均免押调用笔数 2.城市新市民生活信用人均免押使用金额/全国新市民生活信用人均免押使用金额 7 A5:保险产品服务 人均保险笔数 人均保险金额 1.城市新市民人均保险笔数/全国新市民人均保险笔数 2.城市新市民人均保险金额/全国新市民人均保险金额 质量指标质量指标 一级一级指标指标 二级二级指标指标 三级指标三级指标 计算公式计算公式 B:金融服务的质量情况 B1:触达度 平均使用金融业务场景数量 高频度(年活跃 50 次及以上)用户占比 1.城市新市民平均使用金融业务场景数/全国新市民平均使用金融业务场景数 2.城市高频度(年活跃 50 次及以上)用户数占比/全国高频度(年活跃 50 次及以上)用户数占比 B2:实惠度 城市个人消费贷款平均利率 城市小微经营贷款平均利率 1.城市新市民个人消费贷款平均利率/全国新市民个人消费贷款平均利率 2.城市新市民小微经营贷款平均利率/全国新市民小微经营贷款平均利率 B3:便利度 移动支付&二维码支付笔数 移动支付&二维码支付金额 1.城市新市民移动支付&二维码支付笔数占比/全国新市民移动支付&二维码支付笔数占比 2.城市新市民移动支付&二维码支付金额占比/全国新市民移动支付&二维码支付金额占比 B4:信用度 信用类支付笔数占比 信用类支付金额占比 1.城市新市民信用类支付笔数占比/全国新市民信用类支付笔数占比 2.城市新市民信用类支付金额占比/全国新市民信用类支付金额占比 2.3 指标指标权重权重确定确定 确定权重的方法很多,根据计算权重时原始数据来源的不同,大体可以分为:主观赋权法、客观赋权法和主客观赋权法三个类别。主观赋权法主要由专家根据经验主观判断得到,如层次分析法、专家调查法(德尔菲法)等;客观赋权法主要是依据各指标的具体数值计算而得到,它不依赖于人的主观判断,因此客观性较强,但不能反映决策者的主观要求,常见方法包括主成分分析法、熵值法等。针对主、客观赋权法各自的优缺点,为兼顾到决策者对属性的偏好,同时又力争减少赋权的主观随意性,使 8 属性的赋权达到主观与客观的统一,进而使决策结果真实、可靠,学者提出第三类赋权法,即主客观综合赋权法,常见方法包括线性加权组合法和基于灰色关联度求解指标权重。本研究采用主客观综合赋权方法来确定权重。具体而言,我们通过构建系统分析与决策的综合评价方法层次分析法来解决定性问题定量化的处理过程。构建递阶层次结构模型,将专家判断转化为若干因素两两之间的重要性比较,从而把难于量化的定性判断转化为可计算的定量判断。首先,我们根据专家意见对金融服务的使用情况和质量情况的相对重要程度进行排序,使用情况的重要性为质量情况的 2 倍,构建如下所示判断矩阵:表表 2.2 一级指标判断矩阵一级指标判断矩阵 金融金融服务的使用情况服务的使用情况 金融服务的质量情况金融服务的质量情况 金融服务的使用情况 1 2 金融服务的质量情况 1/2 1 对于使用情况维度下 5 个方面指标,本报告根据专家意见对金融服务的相对重要程度进行排序,使用情况的重要性从支付结算到保险产品依次递减,构建如下所示判断矩阵:表表 2.3 使用情况指标判断矩阵使用情况指标判断矩阵 支付结算支付结算 贷款融资贷款融资 投资理财投资理财 信用免押信用免押 保险产品保险产品 支付结算 1 2 3 4 5 贷款融资 1/2 1 2 3 4 投资理财 1/3 1/2 1 2 3 信用免押 1/4 1/3 1/2 1 2 保险产品 1/5 1/4 1/3 1/2 1 对于质量情况维度下 4 个方面指标,本报告采纳专家意见,对金融服务的相对重要程度进行排序,使用情况的重要性从触达 9 度到信用度依次递减,构建如下所示判断矩阵:表表 2.4 质量情况指标判断矩阵质量情况指标判断矩阵 触达度触达度 实惠度实惠度 便利度便利度 信用度信用度 触达度 1 2 3 4 实惠度 1/2 1 2 3 便利度 1/3 1/2 1 2 信用度 1/4 1/3 1/2 1 通过对比矩阵求最大特征值和特征向量,进行一致性检验,最后归一化后分别得到各项指标权重向量如下:表表 2.5 指标权重向量指标权重向量 一级指标一级指标 金金融服务的使用情况融服务的使用情况 金融服务的质量情况金融服务的质量情况 权重 66.673.33%二级指标二级指标 支付结算支付结算 贷款融资贷款融资 投资理财投资理财 信用免押信用免押 保险产品保险产品 权重 41.85&.25.99%9.73%6.18%二级指标二级指标 触达度触达度 实惠度实惠度 便利度便利度 信用度信用度 权重 46.76.72.01%9.54%2.4 指标和数据处理过程指标和数据处理过程 在确定指标和权重之后,指标计算和数据加总的具体步骤如下:第一步,对所有逆向指标进行正向化处理,使数据取值越大表示金融服务水平越高,即取原指标倒数。除了实惠度(B2)这一个二级指标外,其余指标均为正向指标。因此我们对实惠度(B2)下设城市个人消费贷款平均利率、城市小微经营贷款平均利率这两个三级指标进行正向化处理。第二步,进行百分化处理,并检查数据缺失值情况。二级指标下设的三级指标不存在缺失的情况。10 第三步,计算简单平均值。将三级指标进行简单平均,形成二级指标的分值。第四步,剔除数据异常值。指数数据列大致上服从正态分布,根据实验科学对应正态分布的 3(标准差)原则,计算指数数据列的标准差,并比较数据列的每个值,是否大于标准差的 3 倍,大于 3 倍标准差的采用盖帽法替换大于 3 倍标准差的数据值(3倍标准差以上的数值=数据均值 3 倍标准差;3 倍标准差以下的数值=数据均值-3 倍标准差)。第五步,按照设定的权重对二级指标进行加权平均,得到“使用”和“质量”两个方面指标分值。再将两个方便指标按照上述权重加权平均,得到最终的新市民数字金融服务总指数。3 全国城市新市民数字金融服务指数(2022 年)3.1 总指数主要特征总指数主要特征 3.1.1 总体发展水平及省级差异总体发展水平及省级差异 根据上一节介绍新市民数字金融服务指数指标体系,我们计算了全国城市的新市民数字金融服务指数。本报告涵盖的 337 个城市包括 4 个直辖市和 333 个地级市1。首先,我们根据各城市新市民数字金融服务总指数的分值,绘制了全国城市新市民数字金融服务指数地图。图 3.1 中,颜色 1 根据 2020 年第七次全国人口普查数据结果,三沙、阿里、果洛、林芝、阿拉善、海北、黄南、嘉峪关、山南、迪庆、玉树、金昌、海南、海西、博尔塔拉、克拉玛依等 16 个地(州、市)为城区常住人口 50 万以下的小城市,因抽样代表性等原因,故暂未纳入本报告排名及分析。11 越深的区域表示指数分值越高,即新市民数字金融服务越是优良。直观上,东南和东部沿海省份整体颜色较深,表明新市民数字金融服务指数整体上分值较高,而东北和西部地区整体颜色偏浅,显示该地区新市民数字金融服务指数的分值较低。从整体的颜色来看,新市民数字金融服务指数分布仍然符合“胡焕庸线”的特征,“胡焕庸线”以东地区整体的指数大幅度高于“胡焕庸线”以西的地区。注:图例分层根据自然断点法。图图 3.1 全国城市新市民数字金融服务指数地图全国城市新市民数字金融服务指数地图 3.1.2 基于城市排名的省级分布特征基于城市排名的省级分布特征(前(前 50 名)名)为了更直观地展示各城市的新市民金融服务发展水平,从而客观反映新市民金融服务水平的地区差异,本报告根据新市民数字金融服务总指数列举了全国前 50 名排行榜(见表 3.1)。在全 12 国各城市中,杭州的新市民数字金融服务指数最高,位列第一。前 10 名城市分别为杭州、上海、厦门、南京、丽水、武汉、北京、深圳、合肥、汕尾。除了丽水和汕尾外,前 10 名城市几乎均为直辖市、省会城市或计划单列市。按省域内城市来分析,前50 名城市江苏表现最为亮眼,其所属城市有 9 个,其次为福建有 7 个,再次为广东有 6 个。浙江、安徽、湖北,所属城市分别有 5 个。表表 3.1 新市民数字金融服务新市民数字金融服务排行榜(前排行榜(前 50 名)名)排名排名 城市城市 金融服务指数金融服务指数 排名排名 城市城市 金融服务指数金融服务指数 1 杭州 121.76 26 珠海 102.14 2 上海 116.42 27 郑州 102.08 3 厦门 113.28 28 苏州 101.95 4 南京 112.94 29 徐州 101.94 5 丽水 111.19 30 镇江 101.76 6 武汉 109.82 31 嘉兴 101.46 7 北京 109.53 32 西安 101.32 8 深圳 107.71 33 抚州 101.23 9 合肥 107.53 34 盐城 101.17 10 汕尾 107.25 35 济南 101.10 11 佛山 106.52 36 黄石 100.89 12 广州 106.25 37 景德镇 100.73 13 福州 105.87 38 芜湖 100.73 14 莆田 105.71 39 黄山 100.65 15 宁德 105.04 40 滁州 100.63 16 鄂州 104.92 41 常州 100.59 17 南昌 104.68 42 襄阳 100.57 18 新余 104.47 43 金华 100.53 19 长沙 103.95 44 三亚 100.40 20 淮安 103.51 45 蚌埠 100.38 21 揭阳 103.22 46 宜昌 100.08 22 成都 102.49 47 南平 99.80 23 无锡 102.47 48 漳州 99.75 24 湖州 102.41 49 泉州 99.60 25 南通 102.37 50 新乡 99.47 13 与上一年的排行榜相比,新市民数字金融服务指数的“第一梯队”在 2022 年基本保持了稳定,并且大部分城市得分与 2021年持平,城市之间排名有升有降。首先,“第一方阵”的范围相对稳定。一线城市排名靠前,杭州、上海两个城市前二的排名未发生变化。同时,从前 50 名的榜单看,虽然有些城市排名顺序有所变化,但是入围的城市基本稳定,只有新余、揭阳、南通、嘉兴、抚州、济南、景德镇、滁州、常州、新乡为新入榜城市。第二,如果从得分进行比较,本次前 50 名的分值总体与上一年持平,平均分值略升。第三,如果从城市之间的差异来看,各城市之间的差异比去年大,前 50 名得分的方差大于去年。根据新市民数字金融指数得分,列举了第 51 名到第 307 名的剩余全部城市(见表 3.2)。在每一个分段中,按照得分进行排序。第 51-100 名城市包括了 2 个直辖市(天津、重庆),2 个计划单列市(青岛、宁波)。在第 101-150 名中,包括 3 个省会城市(沈阳、南宁、石家庄),1 个计划单列市(大连)。在第 151-200名中,包括 7 个省会城市(太原、海口、哈尔滨、呼和浩特、昆明、长春、银川)。在第 201-250 名中,包括 2 个省会城市(贵阳、兰州)。表表 3.2 全国城市新全国城市新市民数字金融服务市民数字金融服务排行榜(排行榜(第第 51-321 名名)排名排名 城市名单(范围内排名按照笔画多少排列)城市名单(范围内排名按照笔画多少排列)第 51-100 名 青岛、十堰、扬州、赣州、绍兴、廊坊、咸宁、南阳、宣城、上饶、安庆、六安、衢州、黄冈、三明、洛阳、宿迁、临沂、肇庆、连云港、儋州、汕头、惠州、宜春、东莞、鹰潭、孝感、随州、宁波、铜陵、漯河、天津、马鞍山、吉安、龙岩、舟山、九江、咸阳、大理、中山、济宁、枣庄、泰安、泰州、保定、茂名、池州、重庆、淮北、日照 14 排名排名 城市名单(范围内排名按照笔画多少排列)城市名单(范围内排名按照笔画多少排列)第 101-150 名 阜阳、梅州、株洲、宿州、郴州、沈阳、信阳、菏泽、衡阳、德宏、焦作、南宁、温州、湘潭、荆州、汉中、鹤壁、安阳、清远、湛江、防城港、石家庄、威海、烟台、开封、濮阳、周口、丽江、商丘、宝鸡、驻马店、保山、许昌、阳江、韶关、桂林、淄博、绵阳、荆门、德州、江门、大连、台州、三门峡、聊城、淮南、潮州、宜宾、安康、常德 第 151-200 名 邵阳、岳阳、萍乡、邢台、潍坊、遂宁、钦州、邯郸、平顶山、北海、河源、恩施、太原、滨州、乐山、海口、永州、哈尔滨、东营、铜川、亳州、甘孜、抚顺、本溪、沧州、张家口、凉山、柳州、内江、德阳、梧州、南充、酒泉、西双版纳、衡水、达州、呼和浩特、秦皇岛、渭南、雅安、大同、昆明、长春、自贡、晋城、益阳、昌都、娄底、银川、鞍山 第 201-250 名 商洛、临汾、运城、牡丹江、辽阳、盘锦、晋中、张掖、丹东、唐山、锦州、包头、泸州、怀化、乌兰察布、贵阳、榆林、乌海、葫芦岛、玉林、兰州、湘西、广元、阜新、朝阳、忻州、延安、延边、吉林、眉山、百色、日喀则、伊春、红河、赤峰、云浮、承德、长治、张家界、怒江、铜仁、吕梁、阳泉、文山、遵义、营口、临沧、曲靖、楚雄、河池 第 251-321 名 和田、黔东南、庆阳、西宁、通化、天水、喀什、安顺、阿坝、昭通、白城、朔州、鄂尔多斯、黔南、平凉、玉溪、鹤岗、兴安、拉萨、铁岭、巴彦淖尔、锡林郭勒、齐齐哈尔、那曲、通辽、白山、七台河、黑河、贵港、呼伦贝尔、哈密、大兴安岭、固原、佳木斯、绥化、攀枝花、陇南、海东、白银、克孜勒苏、普洱、辽源、乌鲁木齐、黔西南、毕节、石嘴山、巴音郭楞、定西、阿勒泰、大庆、四平、六盘水、武威、贺州、吴忠、鸡西、阿克苏、广安、甘南、临夏、吐鲁番、资阳、塔城、来宾、昌吉、崇左、双鸭山、中卫、巴中、伊犁、松原 3.1.3 全国城市新市民数字金融服务指数分析全国城市新市民数字金融服务指数分析 为了更全面地了解全国城市新市民金融服务指数分布的特点和规律,本报告从省级和区域和两个维度对全国城市指数分值进一步分析。(1)按省级比较 报告计算了中国大陆 31 个省、市、自治区的省级新市民数字金融服务指数(见图 3.2)。省级新市民数字金融服务指数根据 15 省域范围内同样指标计算,其中直辖市的新市民数字金融服务指数与城市新市民数字金融服务指数相等。在各个省份中,全国排名上海(116.42 分)第一,北京(109.53 分)第二,浙江(108.12 分)第三。注:图例分层根据自然断点法。图图 3.2 全国省级新市民数字金融服务指数地图全国省级新市民数字金融服务指数地图 16 图图 3.3 全国省级新市民数字金融服务指数排名全国省级新市民数字金融服务指数排名 表表 3.3 省域内城市变异系数排名情况(不含直辖市)省域内城市变异系数排名情况(不含直辖市)排名排名 省份省份 变异指数变异指数 排名排名 城市城市 变异系数变异系数 1 浙江 8.72 江西 4.40%2 四川 7.22 甘肃 4.38%3 广西 7.17 黑龙江 4.29%4 广东 6.83 江苏 4.24%5 海南 6.21 新疆 3.80%6 湖南 5.87 山东 3.79%7 陕西 5.85! 辽宁 3.79%8 宁夏 5.73 河南 3.66%9 云南 5.71# 西藏 3.25 吉林 5.59$ 贵州 2.83 湖北 5.59% 内蒙 2.83 福建 5.34& 青海 2.47 河北 4.85 山西 2.42 安徽 4.73 (2)按区域比较 从南北方区域2来看,新市民数字金融服务整体南方城市(176 个)前十名城市为杭州、上海、厦门、南京、丽水、武汉、深圳、合肥、汕尾、佛山;北方城市(145 个)前十名城市分别为北京、郑州、西安、济南、新乡、青岛、廊坊、南阳、洛阳、临沂。新市民数字金融服务分大区3来看,东北地区前十名城市分别为沈阳、大连、哈尔滨、抚顺、本溪、长春、鞍山、牡丹江、辽阳、盘锦;华北地区前十名城市分别为北京、廊坊、天津、保定、石家庄、邢台、邯郸、太原、沧州、张家口;华东地区前十名城市分别为杭州、上海、厦门、南京、丽水、合肥、福州、莆田、宁德、南昌;西北地区前十名城市分别为西安、咸阳、汉中、宝鸡、安康、铜川、酒泉、渭南、银川、商洛;西南地区前十名城市分别为成都、大理、重庆、德宏、丽江、保山、绵阳、宜宾、遂宁、乐山;中南地区前十名城市分别为武汉、深圳、汕尾、佛山、广州、鄂州、长沙揭阳、珠海、郑州。(3)按城市级别的比较 根据城市的不同级别,表 3.4 显示,总体上行政级别越高的城市新市民数字金融服务指数总指数越高,即直辖市高于计划单 2 除港澳台外,南北方区域依据省份划分,北方省份包括:北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、山东、河南、陕西、甘肃、青海、宁夏、新疆;南方省份包括:上海、江苏、浙江、安徽、福建、江西、湖北、湖南、广东、广西、海南、重庆、四川、贵州、云南、西藏。3 除港澳台外,六个大区依据省份划分为东北、华北、华东、西北、西南及中南。具体东北地区包括:辽宁、吉林、黑龙江;华北地区包括:北京、天津、河北、山西、内蒙古;华东地区包括:上海、江苏、浙江、安徽、福建、江西、山东;西北地区包括:陕西、甘肃、青海、宁夏、新疆;西南地区包括:重庆、四川、贵州、云南、西藏;中南地区包括:河南、湖北、湖南、广东、广西、海南。18 列市,计划单列市高于省会城市,省会城市高于其他地级市。除了总指数,使用指数和质量指数也是呈现一样的递减规律。表表 3.4 城市级别平均新市民金融服务指数城市级别平均新市民金融服务指数 行政级别行政级别 金融服务总指数金融服务总指数 使用情况指数使用情况指数 质量情况指数质量情况指数 城市数量城市数量 直辖市 103.95 106.31 99.24 4 计划单列市 101.48 102.26 99.94 5 省会城市 97.38 96.44 99.25 27 其他地级市 90.22 86.96 96.76 285 3.2 分指数主要特征分指数主要特征 前面从新市民数字金融服务总指数的角度分析了全国城市新市民数字金融服务水平,下面将总指数分解为使用指数和质量指数两个方面,以便进一步了解具体使用情况和质量情况,并且帮助各个城市有针对性地提升新市民数字金融服务。3.2.1 使用情况指数的分析使用情况指数的分析 首先,我们根据使用情况指数绘制了使用情况指数地图(见图 3.4)。颜色越深的区域表示使用情况指数分值越高,即数字金融服务的使用次数越是频繁,使用金额越是大。总体上,与新市民数字金融服务总指数的分布类似,东南沿海地区和东部沿海地区的使用情况指数分值较高。19 注:图例分层根据自然断点法。图图 3.4 全国城市新市民使用情况指数地图全国城市新市民使用情况指数地图 其次,本报告列举了使用情况指数排名前 50 名的城市(见表 3.5)。杭州的使用情况指数排名第 1。表表 3.5 新市民金融服务使用情况新市民金融服务使用情况排行榜(前排行榜(前 50 名)名)排名排名 城市城市 使用情况指数使用情况指数 排名排名 城市城市 使用情况指数使用情况指数 1 杭州 130.00 26 珠海 102.48 2 上海 123.96 27 无锡 102.26 3 厦门 118.44 28 徐州 102.22 4 南京 117.65 29 金华 102.15 5 丽水 116.16 30 镇江 102.06 6 北京 115.11 31 三亚 101.10 7 汕尾 113.21 32 景德镇 101.02 8 武汉 112.99 33 苏州 101.01 9 深圳 110.71 34 南平 100.86 10 莆田 110.10 35 嘉兴 100.82 11 广州 109.88 36 黄石 100.68 12 合肥 109.34 37 黄山 100.67 13 新余 109.07 38 郑州 100.60 14 佛山 108.96 39 盐城 100.54 15 福州 108.61 40 济南 100.35 20 排名排名 城市城市 使用情况指数使用情况指数 排名排名 城市城市 使用情况指数使用情况指数 16 揭阳 108.00 41 蚌埠 100.29 17 南昌 105.92 42 芜湖 100.26 18 长沙 105.25 43 泉州 100.14 19 鄂州 104.96 44 西安 100.05 20 宁德 104.51 45 襄阳 99.91 21 淮安 104.48 46 常州 99.46 22 抚州 103.23 47 廊坊 99.31 23 南通 102.93 48 漳州 99.27 24 成都 102.86 49 安庆 99.25 25 湖州 102.68 50 滁州 99.24 最后,本报告对各省使用情况指数进行了比较(见图 3.5)。从省份排名看,上海排名最高(123.96 分)。图图 3.5 全国省级使用情况指数排名全国省级使用情况指数排名 21 3.2.2 质量情况的分析质量情况的分析 首先,我们根据质量情况指数绘制了质量情况指数地图。图3.6 中,颜色越深的区域表示质量情况指数分值越高,即数字金融服务的质量情况越高。注:图例分层根据自然断点法。图图 3.6 全国城市新市民质量情况指数地图全国城市新市民质量情况指数地图 其次,我们列举了质量情况指数排名前50名的城市(表3.6)。宁德的质量情况指数排名第 1。表表 3.6 新市民质量情况新市民质量情况排行榜(前排行榜(前 50 名)名)排名排名 城市城市 指数指数 排名排名 城市城市 金融服务指数金融服务指数 1 宁德 106.11 26 成都 101.75 2 杭州 105.29 27 深圳 101.72 3 郑州 105.06 28 芜湖 101.67 4 鄂州 104.84 29 信阳 101.65 5 新乡 104.39 30 佛山 101.64 6 合肥 103.89 31 南阳 101.63 7 西安 103.84 32 惠州 101.62 22 排名排名 城市城市 指数指数 排名排名 城市城市 金融服务指数金融服务指数 8 苏州 103.83 33 淮安 101.59 9 咸阳 103.81 34 鹤壁 101.57 10 洛阳 103.60 35 珠海 101.48 11 南京 103.51 36 焦作 101.43 12 武汉 103.48 37 安阳 101.41 13 滁州 103.41 38 徐州 101.38 14 厦门 102.98 39 长沙 101.36 15 无锡 102.87 40 上海 101.34 16 常州 102.87 41 周口 101.33 17 许昌 102.78 42 黄石 101.30 18 嘉兴 102.76 43 六安 101.27 19 济南 102.59 44 丽水 101.26 20 宜昌 102.50 45 南通 101.26 21 盐城 102.45 46 衢州 101.25 22 开封 102.30 47 镇江 101.14 23 南昌 102.21 48 宣城 101.14 24 襄阳 101.90 49 漯河 101.00 25 湖州 101.86 50 南宁 100.90 最后,我们列举了各省质量情况指数的比较(见图 3.7)。首先,从省份排名看,河南排名最高(103.44 分)。23 图图 3.7 全国省级质量情况指数排名全国省级质量情况指数排名 3.3 新(老)市民金融服务差异分析新(老)市民金融服务差异分析 前文从新市民数字金融服务总指数的角度分析了全国城市新市民数字金融服务水平的特征和差异,此外,本报告还对老市民数字金融服务水平进行了同样的研究分析。下面将通过新(老)市民数字金融服务指数比较,以便了解全国城市新(老)市民数字金融服务水平的具体现状和差异,进而有助于各城市有针对性地进一步提升新市民数字金融服务水平。24 受户籍政策制约、就业不稳定、社保信息不完整等因素影响,新市民难以享受到与普通市民完全相同的金融服务。提升新市民数字金融服务水平就是要逐步推进新市民在数字金融服务方面与普通市民享有同等待遇。3.3.1 城市层级与新(老)市民数字金融服务差异城市层级与新(老)市民数字金融服务差异 根据 2020 年第一财经中国城市分级4,将国内 337 个地级及以上城市划分为一线城市(4 个)、新一线城市(15 个)、二线城市(30 个)、三线城市(70 个)、四线城市(90 个)、五线城市(128 个)六级。报告根据这一分级比较了新(老)市民数字金融服务的差异。总体而言,一线城市、新一线城市和二线城市的总指数和分指数均显著高于三、四五线城市。上述城市的老市民享受到的数字金融服务数量和质量均远超同城市的新市民,新市民数字金融服务水平仍有较大提升空间。从总指数来看,城市新(老)市民数字金融服务水平与城市层级正相关,新(老)市民数字金融服务指数的差异水平随着城市层级的提升和降低而轻微发散,一线城市的老市民数字金融服务水平略高于新市民,五线城市的新市民金融服务水平略高于老市民。4 完整名单及划分依据见 https:/ 图图 3.8 城市分层级新(老)市民数字金融服务总指数城市分层级新(老)市民数字金融服务总指数 从使用指数来看,城市新(老)市民数字金融服务水平与城市层级正相关,新(老)市民数字金融服务指数的差异水平随着城市层级的提升和降低而发散,一线城市的老市民数字金融服务的使用程度高于新市民,五线城市的新市民金融服务的使用程度高于老市民。图图 3.9 城市分层级新(老)市民数字金融服务使用指数城市分层级新(老)市民数字金融服务使用指数 从质量指数来看,除一线(新一线)城市以外,城市新(老)市民数字金融服务水平与城市层级正相关,新(老)市民数字金融服务指数的差异水平随着城市层级的提升和降低而发散,一线 26 城市的老市民数字金融服务的质量程度显著高于新市民,五线城市的新市民金融服务的质量程度显著高于老市民。图图 3.10 分层级城市新(老)市民数字金融服务质量指数分层级城市新(老)市民数字金融服务质量指数 3.3.2 新(老)市民数字金融差异排名新(老)市民数字金融差异排名 为更直观地比较城市新(老)市民金融服务指数差异,提升新市民金融服务水平,报告根据新(老)市民金融服务总指数差排列了全国前 50 名差异城市的榜单(见表 3.7)。在全国各城市中,温州的新(老)市民数字金融服务指数差异连续两年排名第一。按省域内城市数量来看,浙江、福建、广东、江苏等省份上榜城市较多,新(老)市民数字金融服务差异较大,新市民数字金融服务亟待改善。与上一年相比,2021 年排行榜中有 40 个城市仍然保留在 2022 年排行榜,基本保持了稳定,并且大部分城市之间的差距有一定程度缩小。27 注:图例分层根据自然断点法。图图 3.11 全国城市新(老)市民指数差异地图全国城市新(老)市民指数差异地图 表表 3.7 2020-2022 年城市新(老)市民指数差异年城市新(老)市民指数差异排行榜(前排行榜(前 50 名)名)排排名名 2 2022022 年年 2 2021021 年年 2 2020020 年年 省份省份 城市城市 省份省份 城市城市 省份省份 城市城市 1 浙江 温州 23.46 浙江 温州 13.56 浙江 温州 24.15 2 浙江 宁波 20.35 广东 潮州 12.64 浙江 金华 19.13 3 广东 潮州 19.94 浙江 金华 12.13 广东 潮州 17.74 4 广东 汕头 19.87 浙江 宁波 11.53 浙江 宁波 17.37 5 湖北 武汉 18.79 福建 莆田 11.16 福建 莆田 16.94 6 江苏 南京 18.63 广东 汕头 11.04 江苏 南京 16.80 7 浙江 金华 17.74 上海 上海 10.68 浙江 舟山 15.77 8 福建 厦门 16.77 江苏 南京 10.66 广东 深圳 15.75 9 福建 福州 16.60 浙江 杭州 10.62 上海 上海 15.39 10 浙江 舟山 16.01 广东 揭阳 10.36 福建 厦门 14.33 11 广东 广州 15.89 广东 深圳 9.87 浙江 杭州 13.93 12 广东 深圳 15.57 广东 广州 8.95 广东 汕头 13.12 13 浙江 湖州 15.42 浙江 绍兴 8.03 浙江 湖州 13.08 14 福建 莆田 15.12 浙江 舟山 7.98 广东 广州 12.92 15 江苏 苏州 15.07 福建 厦门 7.96 浙江 绍兴 12.46 16 甘肃 金昌 15.06 江苏 苏州 7.77 广东 揭阳 11.51 17 河南 郑州 14.92 江苏 常州 6.90 江苏 苏州 11.30 18 上海 上海 14.01 河南 郑州 6.89 河南 郑州 10.78 28 排排名名 2 2022022 年年 2 2021021 年年 2 2020020 年年 省份省份 城市城市 省份省份 城市城市 省份省份 城市城市 19 浙江 杭州 13.87 北京 北京 6.72 江苏 常州 10.48 20 江苏 常州 13.71 浙江 湖州 6.54 浙江 台州 9.66 21 浙江 绍兴 13.50 福建 福州 6.38 北京 北京 9.49 22 北京 北京 11.28 湖北 武汉 6.22 福建 福州 8.30 23 广东 揭阳 10.78 浙江 台州 5.91 浙江 嘉兴 7.74 24 江苏 无锡 10.68 浙江 嘉兴 5.86 福建 泉州 7.13 25 浙江 台州 10.37 江西 南昌 5.72 江苏 无锡 6.91 26 云南 昆明 9.94 江苏 无锡 5.52 江西 南昌 5.91 27 广东 东莞 8.86 江苏 扬州 5.37 湖北 武汉 5.70 28 浙江 嘉兴 8.74 云南 昆明 5.21 广东 中山 4.88 29 广东 中山 8.44 广东 东莞 5.14 广东 珠海 4.82 30 江苏 扬州 8.42 广东 珠海 5.10 云南 昆明 4.61 31 福建 泉州 8.25 安徽 淮南 4.97 甘肃 兰州 4.22 32 江西 南昌 8.03 山东 济南 4.89 广东 东莞 4.20 33 安徽 合肥 7.95 山东 青岛 4.16 安徽 淮南 4.15 34 安徽 马鞍山 7.90 广东 中山 4.03 江苏 扬州 3.92 35 山东 青岛 7.15 甘肃 兰州 4.00 山东 东营 3.70 36 甘肃 兰州 6.47 陕西 西安 3.63 陕西 西安 3.50 37 山西 太原 6.45 安徽 铜陵 3.50 山东 青岛 3.50 38 广东 珠海 6.06 天津 天津 3.42 山东 济南 3.23 39 陕西 西安 6.05 安徽 马鞍山 3.20 安徽 马鞍山 3.20 40 山东 济南 5.92 黑龙江 大兴安岭 3.04 福建 宁德 3.03 41 甘肃 嘉峪关 5.68 辽宁 大连 3.00 河北 石家庄 2.71 42 安徽 芜湖 5.62 安徽 蚌埠 2.42 广西 南宁 2.52 43 安徽 铜陵 5.60 安徽 合肥 2.11 黑龙江 大庆 2.44 44 安徽 蚌埠 4.67 黑龙江 大庆 1.92 河南 濮阳 2.36 45 海南 海口 4.64 安徽 芜湖 1.77 四川 成都 1.93 46 山东 东营 4.53 广东 惠州 1.76 辽宁 大连 1.69 47 四川 成都 4.32 安徽 池州 1.58 江苏 南通 1.44 48 天津 天津 4.09 贵州 贵阳 1.56 安徽 蚌埠 1.00 49 河南 平顶山 4.06 福建 宁德 1.52 天津 天津 0.82 50 福建 漳州 3.91 广西 南宁 1.43 安徽 合肥 0.72 从省级新(老)市民数字金融指数差异来看,浙江、上海、北京、广东、江苏、福建、天津等省份为正,与城市排行榜上榜省份前列基本一致,新(老)市民数字金融服务差异较大(见表3.8)。上述省份均为东部较发达省市,金融资源也相对丰富,新 29 市民人数较多享受金融服务水平也相对较好,但与老市民所享受金融服务水平相比对新市民金融服务的支持还有待进一步提升。注:图例分层根据自然断点法。图图 3.12 全国省级新(老)市民指数差异地图全国省级新(老)市民指数差异地图 表表 3.8 2020-2022 年省级新(老)市民指数差异年省级新(老)市民指数差异排行榜(排行榜(老新老新)2 2022022 年年 2 2021021 年年 2 2020020 年年 排排名名 省份省份 老老-新新 省份省份 老老-新新 省份省份 老老-新新 1 浙江 18.51 浙江 16.95 浙江 18.57 2 上海 14.01 上海 16.10 上海 15.39 3 北京 11.28 北京 10.26 北京 9.49 4 福建 10.72 广东 6.95 广东 7.07 5 江苏 8.64 江苏 6.66 江苏 6.95 6 广东 8.62 福建 5.64 福建 6.30 7 湖北 4.22 天津 3.31 天津 0.82 8 天津 4.09 从 2022 年城市新(老)市民数字金融服务指数细分指标差异来看,一线、新一线及二线城市新(老)市民数字金融服务水平差异仍然较大,老市民在支付结算、保险产品等业务场景和触达度方面的指数表现优于新市民。与通常认识相反,四线、五线 30 城市的新市民在投资理财、保险产品等业务场景和信用度方面的指数表现优于老市民(见表 3.9)。表表 3.9 2022 年城市新(老)市民数字金融服务指数细分指标平均差异年城市新(老)市民数字金融服务指数细分指标平均差异 老老-新新 支付结算支付结算 贷款融资贷款融资 投资理财投资理财 信用免押信用免押 保险产品保险产品 一线城市 25.69 13.44 12.50 7.30 20.93 新一线城市 15.11 7.49 3.81 5.28 12.40 二线城市 10.66 6.38 8.09 3.54 11.03 三线城市-4.15-5.91-7.70-2.99-6.70 四线城市-10.11-9.11-14.81 1.61-14.49 五线城市-11.83-13.22-28.25 2.28-15.89 老老-新新 触达度触达度 实惠度实惠度 便利度便利度 信用度信用度 一线城市 9.85 2.42 2.54 3.39 新一线城市 6.15 0.73 0.36 1.43 二线城市 2.80 0.72-1.05 1.99 三线城市-2.86-1.26 0.08-1.22 四线城市-4.02-2.92-0.30-0.61 五线城市-3.10-4.91-5.47-10.10 注:数据为根据城市分类计算的新(老)市民指数差值的平均数。3.3.3 一线城市分业务场景的新(老)市民数字金融差异一线城市分业务场景的新(老)市民数字金融差异 对一线城市新(老)市民的数字金融服务水平进行评估可能由于数据指标的选择而存在差异。另外,一些城市的新市民数字金融服务优势和不足之处并不能完全从现有指标体系中得到反映。本节对不同数字金融指标和结果差异进行了权衡,能够较为客观并动态地评价全国各城市数字金融服务的发展水平。4 个一线城市的新市民数量占全国样本的比例较高,本文比较了北京、上海、广州、深圳 4 个城市分业务场景的新(老)市民数字金融服务指数差异(见图 3.13)。总体而言,指数能够较为客观地反映 4 个一线城市的新市民在支付结算、贷款融资、投资理财、信用免押、保险产品等方面,31 以及触达度、实惠度、便利度、信用度等方面,与老市民存在的差异。尽管 4 个一线城市市民金融服务相对较高是较为普遍的共识,但客观而言在支付结算、贷款融资、保险产品和触达度等方面仍有较大的提升空间。在数字金融服务使用方面,金融机构难以有效识别客户信用等级进行风险画像,新市民贷款融资仍然受到较大的制约;在数字金融服务质量方面,由于金融需求的差异性和多样性,金融机构面临产品和成本约束,新市民实惠度和便利度还需要进一步完善。因此,通过对图中的 4 个一线城市数字金融服务指数的分析比较发现,老市民数字金融服务仍具有一定优势,同时凸显了新市民目前在数字金融水平上仍然存在客观差距。北北京京 上上海海 32 广广州州 深深圳圳 图图 3.13 北上广深的新(老)市民数字金融服务指数细分指标北上广深的新(老)市民数字金融服务指数细分指标 4 结论与政策建议 本报告通过“数字经济开放研究平台”,利用城市粒度的匿名化脱敏抽样数据,在蚂蚁集团域内的云实验室进行指数计算,编制了一套“全国城市新市民数字金融服务指数”,以期对全国城市地区提升新市民金融服务的成效差异进行量化评价。“全国城市新市民数字金融服务指数”结果显示,2022 年东部沿海省份的新市民数字金融指数整体上分值较高,而东北地区整体颜色偏浅,显示该地区新市民数字金融服务指数的分值较低。新市民数字金融服务分布呈现“胡焕庸线”的特点。总指数 33 前 50 名的城市分别是:杭州市、上海市、厦门市、南京市、丽水市、武汉市、北京市、深圳市、合肥市、汕尾市、佛山市、广州市、福州市、莆田市、宁德市、鄂州市、南昌市、新余市、长沙市、淮安市、揭阳市、成都市、无锡市、湖州市、南通市、珠海市、郑州市、苏州市、徐州市、镇江市、嘉兴市、西安市、抚州市、盐城市、济南市、黄石市、景德镇市、芜湖市、黄山市、滁州市、常州市、襄阳市、金华市、三亚市、蚌埠市、宜昌市、南平市、漳州市、泉州市、新乡市。省级层面新市民金融服务指数前 10 名为上海市、北京市、浙江省、福建省、湖北省、江苏省、广东省、江西省、安徽省、湖南省。新(老)市民的比较分析显示,一线城市、新一线城市、以及二线城市老市民享受的数字金融服务数量和质量均远超同城市新市民,在支付结算、保险产品等业务场景和触达度方面的对新市民金融服务的支持还有待进一步提升。基于以上研究我们建议:第一,要认真贯彻落实国家新市民金融第一,要认真贯彻落实国家新市民金融服务政策。服务政策。从金融支持新市民的对象看,要强化对创业、住房、养老、医疗、教育等需求领域的金融服务支持力度。通过合理减费让利、降低利率等合理方式,有效降低新市民获得各种优质金融服务的成本,提升金融服务价值的获得感。第二,创新满足新市民差异化需求的金融产品和服务。第二,创新满足新市民差异化需求的金融产品和服务。金融机构要不断深化和加强新市民客群业务的战略布局,形成具有特 34 色和竞争力的金融产品和服务组合,形成差异化、系统化的产品组合。推出差异化和个性化的新市民金融产品和服务加强产品和服务创新。第三,做好新市民金融健康管理。第三,做好新市民金融健康管理。大部分新市民群体财富存量低、风险承受能力弱,因此银行应加强对新市民的金融知识教育,共同为新市民做好财富管理规划,规避过度负债和杠杆化。第四,补齐新市民区域性金融服务短板。第四,补齐新市民区域性金融服务短板。当前在满足新市民普惠金融需求时还面临不均衡的问题。新市民的金融需求呈现出很大的差异性特征,因此要进一步通过细分客户和市场,提升金融服务新市民的精准性与便捷性。第五,加大金融科技在新市民金融服务中的应用。第五,加大金融科技在新市民金融服务中的应用。金融科技平台可基于用户场景数据对“新市民”进行精准画像,通过创新信用评价方式,降低对抵质担保的依赖,提升新市民的金融服务适应性。35 参考文献:1 中国人民银行金融消费权益保护局,中国普惠金融指标分析报告(2020).2 北京大学数字普惠金融指数(2011-2020).3 金融时报和新华财经,2022 年涉疫地区新市民纾困金融服务(指数)报告.4 甘犁,路晓蒙,王香,周瑞轩,李振华,王芳,林晨,程志云,吴雅玲,张韵,冯程程.疫情下中国家庭财富变动趋势J.中国经济报告,2020(04):110-123.5 顾雷.数字化时代新市民金融触达与普及教育J.清华金融评论,2022(06)41-43.DOI:10.19409/ki.thf-review.2022.06.004.36 附录 附附 1 1:全国省级新市民数字金融服务指数(:全国省级新市民数字金融服务指数(2 2020020)省区省区 总指数总指数 方面指数方面指数 使用情况二级指标使用情况二级指标 质量情况二级指标质量情况二级指标 数字金融服务指数数字金融服务指数 使用情况指数使用情况指数 质量情况指数质量情况指数 支付结算支付结算 贷款融资贷款融资 投资理财投资理财 信用免押信用免押 保险产品保险产品 触达度触达度 实惠度实惠度 便利度便利度 信用度信用度 北京 106.00 109.16 99.70 103.89 105.77 130.48 104.95 110.73 100.07 102.74 89.39 106.32 天津 96.42 94.97 99.34 86.23 94.42 112.40 103.53 97.84 96.45 103.57 94.76 108.85 河北 94.86 93.31 97.98 86.64 101.14 96.64 94.46 94.72 95.63 100.75 96.11 104.59 山西 90.91 86.62 99.50 85.56 92.98 74.43 94.42 85.98 97.34 99.10 100.84 109.02 内蒙古 85.70 78.87 99.36 72.48 87.57 76.27 82.33 86.44 97.83 97.72 94.58 119.69 辽宁 89.75 87.44 94.37 77.80 95.55 90.12 96.23 97.52 94.42 98.76 81.75 102.61 吉林 85.64 81.67 93.59 73.62 90.05 78.33 90.67 95.05 92.86 98.18 80.66 105.55 黑龙江 83.32 78.74 92.49 73.22 85.23 71.07 86.85 95.53 91.67 98.04 79.83 101.69 上海 116.49 123.56 102.33 126.92 112.78 140.35 115.09 116.51 104.11 103.06 96.51 101.32 江苏 103.07 103.65 101.93 107.04 104.15 97.32 100.18 100.33 101.81 100.63 104.47 102.06 浙江 105.67 107.96 101.08 115.37 104.11 95.24 112.29 100.22 101.07 100.66 105.85 94.38 安徽 103.27 104.50 100.81 106.10 108.95 101.46 90.85 104.11 99.75 102.36 103.16 97.54 福建 103.87 105.51 100.57 108.88 104.15 100.00 104.66 104.08 101.81 100.00 100.41 96.48 江西 100.64 101.16 99.60 100.79 102.10 100.77 98.30 105.08 99.81 101.09 98.82 95.52 山东 95.16 93.29 98.90 90.84 93.84 94.45 98.23 96.84 97.45 100.52 98.04 102.74 河南 101.19 100.55 102.48 104.43 107.24 87.03 93.34 92.15 99.89 101.78 109.82 104.93 湖北 104.60 106.20 101.39 104.27 103.60 125.62 92.14 102.15 100.30 101.56 105.14 99.93 湖南 99.85 100.22 99.13 95.54 99.10 112.77 98.03 107.62 98.82 100.76 96.65 100.03 37 省区省区 总指数总指数 方面指数方面指数 使用情况二级指标使用情况二级指标 质量情况二级指标质量情况二级指标 数字金融服务指数数字金融服务指数 使用情况指数使用情况指数 质量情况指数质量情况指数 支付结算支付结算 贷款融资贷款融资 投资理财投资理财 信用免押信用免押 保险产品保险产品 触达度触达度 实惠度实惠度 便利度便利度 信用度信用度 广东 100.99 101.54 99.91 104.14 100.70 101.04 92.33 103.21 101.78 98.30 99.62 95.93 广西 89.19 84.35 98.86 84.29 89.48 76.22 81.58 88.36 97.84 98.60 101.21 100.71 海南 100.64 102.36 97.19 93.15 103.35 118.51 116.62 96.33 95.28 99.61 95.67 102.10 重庆 95.81 94.01 99.40 90.51 92.18 91.77 110.22 105.77 100.63 99.89 93.26 102.18 四川 94.39 92.05 99.08 87.03 90.19 102.25 99.15 96.47 98.93 99.82 96.31 102.28 贵州 86.19 80.33 97.92 76.74 84.72 64.67 92.37 107.51 97.34 97.95 94.58 106.28 云南 89.46 85.90 96.58 80.50 90.58 83.18 98.52 89.77 96.54 97.96 93.16 98.55 西藏 88.44 83.53 98.24 78.87 82.29 90.57 94.39 85.12 99.74 95.16 97.17 101.62 陕西 99.55 98.02 102.61 93.97 98.37 90.00 131.92 91.26 101.00 100.22 105.24 113.07 甘肃 85.64 79.20 98.51 76.02 81.92 71.51 101.12 74.61 96.48 95.56 102.15 110.89 青海 84.84 79.69 95.15 77.66 81.47 63.25 112.02 77.53 95.82 94.53 92.21 98.52 宁夏 83.98 76.30 99.33 71.47 82.09 70.96 93.43 71.22 98.08 95.51 98.74 117.55 新疆 83.10 75.39 98.51 68.55 76.73 81.06 93.52 72.86 96.53 96.75 99.49 111.64 38 附附 2 2:全国省级新市民数字金融服务指数(:全国省级新市民数字金融服务指数(2 2021021)省区省区 总指数总指数 方面指数方面指数 使用情况二级指标使用情况二级指标 质量情况二级指标质量情况二级指标 数字金融服务指数数字金融服务指数 使用情况指数使用情况指数 质量情况指数质量情况指数 支付结算支付结算 贷款融资贷款融资 投资理财投资理财 信用免押信用免押 保险产品保险产品 触达度触达度 实惠度实惠度 便利度便利度 信用度信用度 北京 108.99 113.98 99.01 111.56 105.25 138.17 106.73 116.32 99.38 101.90 89.15 105.32 天津 95.74 93.99 99.24 86.55 100.04 103.24 93.10 96.21 96.53 102.26 94.72 111.38 河北 94.12 92.08 98.19 84.93 101.62 98.72 85.29 93.42 96.34 100.87 95.79 103.51 山西 91.25 86.95 99.85 81.78 100.65 75.67 94.22 81.43 97.43 98.38 100.73 114.45 内蒙古 86.76 80.75 98.79 68.13 90.30 84.54 105.91 76.24 96.06 97.23 93.53 125.56 辽宁 89.82 87.79 93.87 75.84 94.90 91.61 108.38 96.25 95.02 97.73 79.00 101.93 吉林 85.84 82.05 93.44 70.50 92.78 83.08 97.49 87.59 93.87 97.69 78.33 104.35 黑龙江 86.16 83.61 91.27 72.29 88.12 80.26 116.04 98.69 92.13 96.36 76.20 97.57 上海 117.19 124.93 101.69 132.17 111.12 138.29 105.57 130.46 103.69 102.53 95.60 99.72 江苏 102.50 102.78 101.94 104.54 105.60 99.94 94.42 99.40 101.25 100.91 104.48 104.02 浙江 106.65 109.13 101.69 118.57 102.66 96.79 108.08 106.20 101.35 101.63 107.15 94.39 安徽 101.37 101.85 100.40 103.58 108.57 97.36 84.12 101.16 99.76 101.93 101.52 97.21 福建 105.61 108.17 100.48 113.41 104.42 102.14 110.69 100.33 101.87 100.25 101.74 92.19 江西 100.68 100.97 100.11 100.34 103.36 96.34 105.14 100.48 101.05 101.67 98.13 94.32 山东 96.16 94.61 99.27 90.46 100.05 91.92 99.09 99.47 98.27 100.65 97.66 102.81 河南 100.57 99.42 102.88 102.42 110.41 85.29 85.84 90.34 100.24 101.58 111.26 105.51 湖北 106.89 109.38 101.92 107.87 107.88 121.99 102.60 103.93 100.64 101.38 107.37 100.61 湖南 97.58 96.90 98.95 93.32 97.01 100.27 103.76 101.11 99.59 100.40 94.30 99.40 广东 100.68 101.16 99.71 104.87 97.76 100.95 92.78 104.24 101.65 98.24 99.22 95.31 广西 87.52 81.78 99.00 78.47 89.19 75.45 83.73 85.91 98.14 98.48 100.69 101.88 海南 98.13 98.63 97.15 87.32 96.97 115.00 127.31 94.67 94.25 99.60 96.70 104.99 39 省区省区 总指数总指数 方面指数方面指数 使用情况二级指标使用情况二级指标 质量情况二级指标质量情况二级指标 数字金融服务指数数字金融服务指数 使用情况指数使用情况指数 质量情况指数质量情况指数 支付结算支付结算 贷款融资贷款融资 投资理财投资理财 信用免押信用免押 保险产品保险产品 触达度触达度 实惠度实惠度 便利度便利度 信用度信用度 重庆 94.10 91.69 98.91 87.59 91.97 85.87 110.61 103.51 100.28 99.18 91.04 104.66 四川 94.97 92.77 99.37 86.29 93.50 99.39 106.85 94.27 99.13 99.96 97.33 102.23 贵州 83.86 76.81 97.96 71.87 85.42 63.87 91.34 84.27 97.32 97.82 92.64 110.40 云南 87.21 82.28 97.07 74.49 87.69 81.65 99.53 86.53 97.25 97.32 93.08 102.11 西藏 85.16 79.38 96.74 69.96 81.20 96.34 86.55 80.17 97.21 94.90 92.79 106.35 陕西 99.35 97.62 102.80 90.44 101.61 91.24 133.29 89.71 100.48 100.19 106.12 116.22 甘肃 84.66 77.60 98.79 70.58 84.20 73.95 103.21 66.27 95.95 97.63 100.75 112.83 青海 83.95 78.10 95.65 69.73 84.53 62.38 126.83 71.48 94.32 96.62 92.53 104.63 宁夏 83.40 75.34 99.51 67.61 80.08 71.68 107.78 65.99 97.27 93.65 100.39 126.01 新疆 82.46 74.42 98.54 62.49 81.86 89.09 87.15 65.55 95.24 95.99 101.89 116.52 40 附附 3 3:全国省级新市民数字金融服务指数(:全国省级新市民数字金融服务指数(2 2022022)省区省区 总指数总指数 方面指方面指数数 使用情况二级指标使用情况二级指标 质量情况二级指标质量情况二级指标 数字金融服务指数数字金融服务指数 使用情况指数使用情况指数 质量情况指数质量情况指数 支付结算支付结算 贷款融资贷款融资 投资理财投资理财 信用免押信用免押 保险产品保险产品 触达度触达度 实惠度实惠度 便利度便利度 信用度信用度 北京 109.53 115.11 98.36 111.28 102.68 138.33 124.18 119.49 99.04 101.29 85.53 108.02 天津 95.60 94.15 98.50 85.27 102.74 102.68 93.72 96.35 95.77 103.41 93.54 105.98 河北 92.34 89.64 97.74 81.28 100.18 96.16 88.95 85.71 95.12 101.40 95.29 104.10 山西 86.94 80.74 99.34 72.84 101.55 67.66 84.68 73.51 94.67 98.33 104.79 115.99 内蒙古 83.92 77.31 97.14 60.59 92.72 87.07 94.24 73.16 92.23 97.29 90.26 132.26 辽宁 90.54 88.96 93.70 75.89 97.84 93.62 112.48 90.72 93.93 99.09 77.33 104.36 吉林 84.64 81.57 90.78 68.19 93.86 84.38 97.27 88.02 91.41 96.10 72.77 102.45 黑龙江 84.49 81.63 90.21 71.43 92.21 77.41 100.10 87.57 91.50 97.48 74.16 89.65 上海 116.42 123.96 101.34 134.95 106.57 138.33 95.26 131.35 104.25 101.68 90.37 104.49 江苏 103.71 104.21 102.73 108.04 103.92 99.55 94.91 106.17 102.80 100.96 105.06 103.60 浙江 108.13 111.40 101.57 123.35 103.09 96.22 109.75 107.72 100.81 100.65 109.55 94.59 安徽 100.59 100.35 101.09 103.68 105.15 95.46 80.69 101.00 101.01 102.09 102.83 95.61 福建 105.84 108.36 100.81 112.79 107.83 96.75 109.99 108.01 102.98 100.54 99.03 93.99 江西 100.70 100.92 100.26 104.91 102.28 88.54 98.78 103.53 103.61 101.00 98.64 84.47 山东 96.06 94.07 100.04 91.92 99.27 89.30 95.34 96.95 99.97 100.92 99.62 98.54 河南 98.12 95.46 103.44 101.31 108.85 73.98 76.75 84.05 101.66 101.84 114.75 97.86 湖北 105.21 106.65 102.34 107.51 107.39 105.83 105.35 101.91 102.31 101.03 108.92 95.22 湖南 98.31 97.91 99.11 95.80 97.32 93.93 112.85 101.43 100.87 100.35 94.55 94.54 广东 102.19 103.23 100.12 106.87 98.20 106.02 95.65 104.67 101.86 98.89 97.92 98.82 广西 87.06 81.53 98.12 78.98 88.03 76.19 81.01 85.87 97.98 98.25 100.37 94.68 海南 92.38 91.56 94.02 75.59 98.96 106.36 120.62 84.17 86.49 99.01 98.38 109.08 41 省区省区 总指数总指数 方面指方面指数数 使用情况二级指标使用情况二级指标 质量情况二级指标质量情况二级指标 数字金融服务指数数字金融服务指数 使用情况指数使用情况指数 质量情况指数质量情况指数 支付结算支付结算 贷款融资贷款融资 投资理财投资理财 信用免押信用免押 保险产品保险产品 触达度触达度 实惠度实惠度 便利度便利度 信用度信用度 重庆 94.27 92.02 98.77 86.85 94.64 88.82 103.51 106.17 100.77 98.63 88.56 106.47 四川 96.01 94.27 99.50 86.87 95.36 99.06 114.51 95.46 99.27 99.62 97.24 104.07 贵州 83.21 76.41 96.81 68.87 90.04 63.34 88.63 84.09 96.58 97.43 90.58 106.54 云南 86.60 81.61 96.57 71.87 93.41 76.87 95.39 88.07 96.57 97.79 90.55 103.12 西藏 85.44 81.83 92.65 59.03 87.13 136.56 79.84 75.30 89.93 95.82 85.20 109.29 陕西 97.82 95.28 102.89 90.08 97.58 92.79 117.84 91.66 101.09 99.77 106.33 114.96 甘肃 82.79 75.78 96.81 63.50 89.48 82.73 85.95 66.74 92.83 97.05 96.15 116.71 青海 79.93 72.99 93.80 56.40 84.79 81.01 106.64 61.53 88.00 95.75 92.20 119.26 宁夏 82.89 74.88 98.93 63.36 89.52 70.78 97.86 65.08 94.59 96.22 98.98 127.93 新疆 78.33 69.86 95.26 52.74 81.26 93.49 79.37 61.28 87.91 96.09 97.68 124.81 42 附附 4 4:20202222 年年全国城市分指数排行榜(前全国城市分指数排行榜(前 5 50 0 名)名)城市城市 支付结算支付结算 城市城市 贷款融资贷款融资 城市城市 投资理财投资理财 城市城市 信用免押信用免押 城市城市 保险产品保险产品 城市城市 触达度触达度 城市城市 实惠度实惠度 城市城市 便利度便利度 城市城市 信用度信用度 杭州 137.23 杭州 116.95 日喀则 138.33 杭州 129.25 上海 131.35 南昌 106.49 遂宁 105.87 新乡 123.29 鄂尔多斯 142.79 上海 134.95 丽水 116.31 上海 138.33 儋州 129.25 杭州 128.49 宁德 106.43 杭州 104.79 郑州 116.54 乌海 142.52 新余 134.38 厦门 114.00 北京 138.33 茂名 129.25 汕尾 125.28 杭州 106.31 合肥 103.79 南阳 116.09 榆林 136.52 莆田 130.01 鄂州 113.02 杭州 133.55 三亚 129.25 北京 119.49 厦门 105.81 淮安 103.57 嘉兴 115.83 包头 135.20 金华 125.59 郑州 112.56 儋州 131.86 厦门 128.83 抚州 119.34 南京 104.97 廊坊 103.50 焦作 115.58 乌兰察布 135.16 厦门 124.50 淮安 112.44 随州 131.75 成都 127.93 厦门 116.55 合肥 104.51 天津 103.41 许昌 115.50 巴彦淖尔 133.85 丽水 123.73 合肥 111.60 深圳 130.08 衡阳 127.51 南京 115.38 深圳 104.31 黄山 103.38 衢州 113.10 固原 132.81 南京 122.71 廊坊 111.44 甘孜 124.52 西安 127.02 淮安 114.02 上海 104.25 新乡 103.31 湖州 112.96 昌吉 132.80 揭阳 121.84 武汉 110.95 丽水 122.30 沈阳 125.09 珠海 113.78 景德镇 104.11 信阳 103.18 晋城 112.91 吴忠 132.74 汕尾 121.83 抚顺 110.74 酒泉 121.68 株洲 124.29 安庆 113.44 鄂州 104.03 东营 102.81 洛阳 112.82 中卫 132.22 广州 117.88 黄山 110.66 三亚 121.19 北京 124.18 丽水 111.45 武汉 103.95 洛阳 102.78 安阳 112.52 呼和浩特 131.82 合肥 116.46 漯河 110.03 汕尾 120.96 南京 123.48 福州 111.31 新乡 103.87 滁州 102.77 商丘 112.46 阿勒泰 131.09 武汉 116.06 焦作 110.01 葫芦岛 119.96 湘潭 123.08 广州 111.26 苏州 103.81 南京 102.64 绍兴 111.78 哈密 131.01 佛山 115.86 漳州 109.76 鹰潭 119.52 西宁 121.25 徐州 110.12 长沙 103.62 抚州 102.58 温州 111.73 铜川 130.59 深圳 113.74 三门峡 109.48 张家口 119.14 珠海 118.14 佛山 109.29 福州 103.59 张家口 102.56 台州 111.66 临夏 130.33 湖州 113.29 三明 109.14 喀什地区 117.82 南昌 117.90 镇江 109.05 盐城 103.41 南昌 102.51 平顶山 111.65 晋城 130.01 嘉兴 113.12 滁州 109.12 防城港 117.67 福州 115.86 梅州 108.71 珠海 103.40 厦门 102.50 鹤壁 111.33 延安 129.24 新乡 113.11 宿迁 108.99 南京 116.21 长沙 115.45 深圳 108.40 滁州 103.35 济南 102.43 漯河 111.29 银川 128.39 抚州 111.85 新乡 108.97 宁德 114.77 海口 115.43 宜春 107.99 咸宁 103.29 郑州 102.35 鄂州 111.13 乌鲁木齐 127.97 北京 111.28 南京 108.84 珠海 113.97 武汉 114.69 南平 107.77 九江 103.27 菏泽 102.05 武汉 111.06 吐鲁番 127.65 泉州 110.95 洛阳 107.66 廊坊 112.76 湛江 111.58 盐城 107.51 常州 103.19 池州 101.94 开封 110.87 锡林郭勒 127.39 43 城市城市 支付结算支付结算 城市城市 贷款融资贷款融资 城市城市 投资理财投资理财 城市城市 信用免押信用免押 城市城市 保险产品保险产品 城市城市 触达度触达度 城市城市 实惠度实惠度 城市城市 便利度便利度 城市城市 信用度信用度 南昌 110.64 南平 107.58 大理 112.35 大连 111.53 长沙 107.30 济南 103.01 三门峡 101.92 运城 110.82 商洛 127.15 南阳 109.97 宣城 107.22 那曲 112.33 哈尔滨 110.96 合肥 107.00 郑州 103.00 宿迁 101.90 咸阳 109.95 定西 127.04 福州 109.86 镇江 106.76 巴音郭楞 111.40 青岛 108.18 景德镇 106.92 西安 102.87 泰安 101.87 孝感 109.85 伊犁 126.06 淮安 109.64 襄阳 106.73 昌都 111.27 丽江 107.92 新余 106.91 无锡 102.78 武汉 101.80 杭州 109.30 克孜勒苏 126.04 景德镇 109.26 佛山 106.64 广州 111.13 银川 106.21 鄂州 106.85 蚌埠 102.67 芜湖 101.79 十堰 109.27 阿克苏 125.41 南通 108.50 上海 106.57 武汉 110.66 绵阳 106.07 宿迁 106.55 淮安 102.63 蚌埠 101.72 莆田 108.88 甘南 125.32 郑州 107.57 蚌埠 106.49 白城 110.39 鞍山 104.98 三明 106.42 成都 102.63 上海 101.68 宁德 108.65 白银 125.01 苏州 107.46 福州 106.35 宿迁 109.69 乌兰察布 104.94 扬州 106.36 广州 102.45 铜陵 101.67 丽水 107.65 酒泉 124.11 绍兴 106.85 徐州 106.28 乌海 109.61 呼和浩特 104.54 重庆 106.17 黄石 102.40 濮阳 101.67 常州 107.52 张掖 124.05 长沙 105.78 本溪 106.19 大连 109.58 怀化 104.17 无锡 105.98 南阳 102.26 徐州 101.65 西安 107.24 渭南 123.59 汕头 105.70 十堰 105.89 怒江 109.56 长春 103.84 湖州 105.96 桂林 102.21 鄂州 101.63 梧州 107.18 庆阳 123.55 安庆 105.52 宜昌 105.85 铜陵 107.20 重庆 103.51 郴州 105.91 南宁 102.21 聊城 101.63 苏州 106.89 天水 123.40 无锡 104.57 开封 105.82 梅州 107.08 抚顺 103.45 漳州 105.85 佛山 102.16 长沙 101.52 合肥 106.64 忻州 123.29 蚌埠 104.27 辽阳 105.63 铜川 106.24 郴州 103.43 大理 105.85 芜湖 102.16 连云港 101.51 宁波 106.63 兴安盟 122.92 常州 104.21 南通 105.60 和田地区 105.99 昆明 102.87 保山 105.16 新余 102.08 石家庄 101.49 铜陵 106.62 朔州 122.87 芜湖 104.08 南阳 105.55 张掖 105.99 济南 102.42 黄石 105.10 开封 101.90 宣城 101.43 临汾 106.44 临汾 122.47 徐州 103.96 宁德 105.44 韶关 104.77 德阳 101.97 黄冈 105.01 六安 101.87 平顶山 101.35 芜湖 106.41 塔城 122.43 镇江 103.86 黄冈 105.41 宜昌 104.67 呼伦贝尔 101.58 宁德 104.63 湘潭 101.74 枣庄 101.32 南通 106.38 巴音郭楞 122.18 宁德 103.62 黄石 105.27 舟山 104.43 大理 101.00 南通 104.36 徐州 101.70 北京 101.29 襄阳 106.27 海东 122.04 赣州 102.99 鹤壁 105.17 厦门 104.25 锦州 100.17 黄山 104.33 抚州 101.63 六安 101.26 三门峡 106.19 喀什 121.50 鄂州 102.50 平顶山 105.09 拉萨 104.14 通辽 99.72 上饶 104.23 惠州 101.61 抚顺 101.26 宜昌 106.02 儋州 121.15 济南 102.12 上饶 104.91 成都 103.72 兰州 99.66 武汉 104.20 漳州 101.60 南通 101.25 太原 105.84 长治 120.98 盐城 102.04 无锡 104.89 福州 103.58 宁波 99.52 清远 103.78 肇庆 101.57 滨州 101.21 潍坊 105.65 怒江 120.74 黄山 101.68 信阳 104.76 威海 103.37 韶关 99.36 赣州 103.76 镇江 101.54 漯河 101.15 阳泉 105.57 陇南 120.52 44 城市城市 支付结算支付结算 城市城市 贷款融资贷款融资 城市城市 投资理财投资理财 城市城市 信用免押信用免押 城市城市 保险产品保险产品 城市城市 触达度触达度 城市城市 实惠度实惠度 城市城市 便利度便利度 城市城市 信用度信用度 南平 100.81 芜湖 104.65 凉山 103.25 黄石 99.35 揭阳 103.57 信阳 101.47 邯郸 101.12 舟山 105.55 和田 120.30 十堰 100.70 景德镇 104.63 长沙 103.13 娄底 98.25 龙岩 103.54 扬州 101.45 恩施 101.11 随州 105.46 宁德 120.12 黄石 100.61 湖州 104.58 济宁 103.11 乌鲁木齐 98.20 连云港 103.29 青岛 101.43 福州 101.04 长治 105.37 武威 119.29 德宏 100.17 南昌 104.57 连云港 102.94 咸阳 98.16 滁州 103.28 咸阳 101.40 周口 100.99 佛山 105.12 昌都 118.38 滁州 99.90 连云港 104.18 秦皇岛 102.84 中山 98.09 常州 103.15 宜宾 101.35 德州 100.99 周口 105.04 西宁 117.89 45清华大学五道口金融学院和蚂蚁集团研究院联合课题组 课题组组长:张健华 清华大学五道口金融学院金融发展与监管科技研究中心主任 李振华 蚂蚁集团研究院院长 课题组副组长:张 伟 清华大学国家金融研究院副院长、五道口金融学院金融发展与监管科技研究中心副主任 课题组成员:清华大学五道口金融学院 庞鑫、许林、朱诗怡、李昱彤、郭琬盈 蚂蚁集团研究院 李勇国、陈舒、虞娅雅、王芳、程志云、闪烁 技术支持:数字经济开放研究平台、蚂蚁集团数字化管理技术部

    浏览量0人已浏览 发布时间2023-11-10 49页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 英特尔:中国金融行业AI实战手册(2023)(56页).pdf

    英特尔中国金融行业AI实战手册趋势篇实战篇技术篇06目 录*人工智能持续驱动金融行业创新基于大数据 AI 的高效实时金融反欺诈解决方案英特尔与金融用户合作探索利用 RNN 模型学习用户行为特征中国银联应用案例基于 AI 的高效信贷逾期风险预测解决方案英特尔与金融用户协作利用 AI 模型开展信贷逾期风险预测某大型商业银行应用案例基于 AI 的金融行业精准营销策略基于 AI 的金融行业精准营销策略探索中国人寿上海数据中心应用案例万事达卡应用案例加速 AI 影像分析能力,推动 AI 赋能保险行业AI 加速保险行业影像分析中国平安应用案例93034849586068187硬件产品*第二代英特尔 至强 可扩展处理器 英特尔 傲腾 持久内存 英特尔 傲腾 固态盘与基于英特尔 QLC 3D NAND 技术的英特尔 固态盘929496979899100104106软件和框架 开源的、统一的大数据分析 AI 平台 Analytics Zoo*英特尔 数据分析加速库 英特尔 深度神经网络库*面向英特尔 架构优化的 Caffe、TensorFlow、Python、PyTorch OpenVINO 工具套件*英特尔 软件防护扩展*维护数据安全,打破数据孤岛 为 AI 应用提供更丰富数据源*借助联邦学习方法,探索多源数据在 AI 中的应用*中国平安应用案例*先进内存产品与创新算法模型 推动高可用、低 TCO 的金融 AI 解决方案落地*基于金融数据特征的 AI 落地解决方案*第四范式创新算法在某商业银行应用案例*巧妙运用“新芯”动力,以知识图谱助力金融行业 挖掘更多高价值信息*知识图谱在金融行业的应用*合合信息知识图谱在某商业银行应用案例*端到端统一大数据 AI 平台,助力金融行业实施 大数据到深度学习的“无缝切换”*基于金融大数据的深度学习方法探索*某商业银行应用案例注:*部分为 2020 年版本更新内容版本说明:2020 英特尔中国金融行业 AI 实战手册除对 2019 年版本的内容进行详细修订外,还在内容上增补了以下内容:英特尔 傲腾 持久内存结合创新算法与数据库产品,面向金融数据提供高可用、低 TCO 的 AI 落地解决方案;英特尔 软件防护扩展技术为金融行业带来基于硬件环境的安全机制,使用户能够借助联邦学习方法,探索多源数据在 AI 中的应用;英特尔多种先进软硬件产品为基于深度学习的知识图谱提供整体性支撑,为金融行业用户提供挖掘深度高价值信息的能力;英特尔端到端的统一的大数据 AI 平台,助力金融行业大数据平台与 AI 能力建设。主编:俞巍 陈治文作者(排名不分先后,按姓氏首字母排序):胡英 乐鹏飞 李志强 吴国安 夏磊 袁超 臧战 赵玉萍 Parviz Peiravi 曹津 龚毅敏 鲁懿 陆礼明 沈飞廉 孙宇 王东方 魏剑 伊红卫 朱乐骏 此外,本手册的编撰工作也得到了各合作伙伴以及诸多英特尔同事们给予的大力支持帮助,在此表示感谢。V.2020.002Contents趋势篇547趋势篇英特尔中国金融行业AI实战手册实战篇英特尔中国金融行业AI实战手册6经过多年演进,人工智能(Artificial Intelligence,AI)正进入一个发展新阶段。越来越多的企业在选择这一给人类经济与社会生活带来颠覆性影响的技术,来开启数字化转型的新篇章。尤其当我们把目光投向金融行业时更不难发现,在过去的十余年中,堪为这一行业风向标的巨头们正将更多资金投入大数据、机器人和云计算服务领域,这些举措也受到投资者的热捧。来自新浪财经的报道这样写道1:1 相关媒体报道请参见 http:/ 2000 年。华尔街投行高盛在纽约总部的美国股票交易柜台雇用了 600 名交易员,根据投资银行大客户的订单买卖股票。如今,他们只剩下了 3 个股票交易员。根 据 美 国 财 经 媒 体 Business Insider 的 统 计,高 盛 目 前33000 名全职员工中,超过 9000 名员工是程序员和工程师。近几年在公开场合,高盛 CEO 反复强调,高盛的定位已经今时不同往日,高盛是一家技术公司。华尔街上另一家巨头摩根大通也采取了类似的做法。摩根大通很早就设立了技术中心,聘用约 4 万名技术人员专门研究大数据、机器人和云基础设施,技术预算达 96 亿美元,占其总收入 9%。去年,该公司还宣布使用全球首创的机器人来进行他们的全球股票算法交易。在此之前,摩根大通在欧洲研发的人工智能项目 LOXM 早就已经在交易中尝到了甜头。那么,AI 何以成为金融行业新的宠儿?究其原因,我们不难发现,其实是因为AI与金融行业在诸多特性上天然契合。首先,AI 与金融都构建在海量的数据之上,这为 AI 的模型训练与预测推理提供了丰沃土壤;其次,AI 可以大幅降低传统金融行业用于客户关系维护的成本;同时,AI 也能帮助金融企业展开更多的精准狙击,进一步提升业务质量;而更为重要的是,拥有众多创新基因的金融业务与 AI 结合,可为行业发展带来更大空间,为业务创新带来更多可能。以银行为例,通过与 AI 融合,即可以依托庞大的业务数据,以智能的方式驱动数据分析与预测方法创新,进而获得新的洞察,拥抱更为灵敏、高效的商业模式,并规避诸如贷款逾期、违规欺诈等风险,在未来竞争中占得先机。6趋势篇人工智能持续驱动金融行业创新图 1-1-1 企业数据分析技术的演进运营分析高级分析分析曲线发展现状自我学习与完全自动化的企业模拟驱动的分析与决策预见资料来源:Forrester Research描述诊断预测方案认知洞察反思然而,从数据分析到 AI 应用并不能一蹴而就。如下图所示,企业在数据分析技术的演进上,一般会经历在规模和成熟度上递增的五个阶段。这五个阶段分别是:描述性、诊断性、预测性、方案制定和认知性。成熟的 AI 能力,适用于以上数据分析的各个阶段,是把数据分析推向更高成熟度和更大规模的重要动力。近年来,AI 的算力、算法以及数据能力都获得了快速突破,包括:算力提升:在摩尔定律的推动下,芯片制程技术和架构创新正使计算力不断取得突破,满足了机器智能对于计算密集98趋势篇趋势篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册型算法的需求。例如,通过人工神经网络进行深度学习的概念已经存在了至少 20 年,但直到最近几年,当计算技术提升到能够满足 AI 所需的高精度、高速度的运算能力时,将这些计算密集型算法付诸实践应用才成为可能。创新推动:AI 发展仅靠计算力和数据来推动,还是远远不够的。驱动其向应用迈进的关键动力,毫无疑问是创新,正是它推动 AI 跨越了从研究到主流使用的临界点。实践已经证明,每一次 AI 算法的创新,都预示着更多的应用可能性,并吸引更多的创新者加入到应用开发行列中来。比如,20世纪 90 年代的神经网络创新,驱动了对 AI 的重新阐述和研究,并在 2009 年和 2012 年,分别在语音识别和图像识别等领域获得了突破性进展,这也成为当前 AI 创新发展的催化剂。同时,数据洪流的到来,也驱动金融行业AI迎来高速发展浪潮。一方面,物联网(IoT)的广泛应用、智能互联设备的快速普及,带来了越来越多的结构化和非结构化数据。有研究表明,到 2020 年,物联网中智能、互联设备产生的数据可达 40 ZB(1ZB=10 万亿亿字节)2。如此海量的数据,无疑为金融领域 AI 算法的训练,以及发掘全新洞察奠定了基石。另一方面,面向不同类别金融数据的处理和运用,也出现了更多的方法论和硬件产品。例如,面对金融数据普遍的高维特性,企业已经可以选择更有针对性的高维算法、高性能实时特征数据库,以及具有更好落盘性能和更高容量的存储设备来构建 AI 应用,降低 TCO 并提升处理效能。值得一提的是,虽然高质高量的数据能给 AI 核心竞争力带来巨大提升已成为共识,但在金融行业,为了规避数据泄露风险,企业往往会构建一系列严密的防护措施,由此也引发了严重的数据孤岛问题。为了让多源数据的交互、传输和聚合更具安全性,联邦学习等新的联合学习方法,正帮助用户在确保数据安全的前提下,建立起更多安全可信的多源数据协同训练方案,确保为 AI 应用提供更丰富的数据源,以提升其精度。现在,基于可信执行环境(Trusted Execution Environment,TEE),典型如英特尔 软件防护扩展(Intel Software Guard Extensions,英特尔 SGX)技术构建的联邦学习方案,已在保险定价、信贷风控、销量预测等多个金融领域落地实例化。以保险定价为例,方案可以在保护各合作方用户隐私数据不出本地的前提下,安全合规接入多方数据。进而,一方面帮助用户以多源多维度的用户行为数据,来提供个性化定价策略;另一方面,通过多源的安全大数据,有效识别恶意骗保行为。一些数据表明,基于联邦学习方法建立的保险数据模型具有更丰富的风险特征体系,可使行业定价准确率获得大幅提升。通过以上算力、算法和数据处理技术进步,AI 正成为金融企业开展高质量数据分析和业务预测的重要手段。得益于 AI 技术的不断发展,在金融行业的前端、中台和后端,都已经有了相对成熟的应用方案。在前端,感知类技术(计算机视觉、语音识别、自然语言处理等)不断走向成熟,有代表性的应用已有客服聊天机器人、自动身份识别等。客服聊天机器人能够遵循与客户交互的标准路径,借助机器学习算法,观察对话并理解客户的意图,在遇到困难时将问题发送给人工处理,并对人工答复加以学习,从而持续提升客户服务质量、降低服务成本。而自动身份识别则是通过语音识别、面部识别等方式,分析用户声音、眼部、面部特征,对用户进行身份验证。此类 AI 验证方法比原来的安全问题或密码验证效率更高,而且无需用户默记密码,可让客户体验大为改善。在中台,AI 可以提高基于信息的分析决策效率,帮助用户更加快速地抓住商机。既有的商业智能(Business Intelligence,BI)和传统的数据分析方法,往往停留在趋势分析、原因挖掘、数据挖掘与预测层面。而 AI 的引入,既延伸了分析的广度,也提高了分析的深度。AI 可以通过不断学习和完善,提高建议的相关性和特异性,实现“个性化分析”,为风险管理、营销、服务等提供基于智能化的分析和决策。例如,AI 可以基于社交网络的信用评分,优化现有分数或为无信用记录的人员进行评分;也可以通过自然语言分析(Natural Language Processing,NLP)方法生成分析报告,还可以分析与评估财务数据。同时,AI 还可以开展动态欺诈检测,从实时复杂交易中发现和规避风险;更可以通过客户行为研究,提供个性化的财务健康建议。此外,金融企业还可以通过 AI,根据客户和产品 DNA,实现个性化营销,提供独一无二的个性化服务。如下图所示,风险与合规主要包括了应对欺诈风险、信用风险、宏观风险、反洗钱以及合规政策文件分析等,AI 技术应用主要涉及机器学习、基于深度学习的人脸识别和语音识别以及知识图谱等。客户体验主要包括智能投顾、智能理赔、智能客服、身份识别、农牲识别等,AI 技术应用主要涉及基于深度学习的人脸识别和语音识别、行为模式识别、NLP以及机器人技术等。营销决策主要包括客户画像、精准营销、智能推荐、征信评分、资金流向监控以及量化分析等,AI技术应用主要涉及深度学习、机器学习等。智慧运营主要包括网点智能布局、单据识别、智能运维等,AI 技术主要涉及基于深度学习的图像识别、知识图谱等。2 相关媒体报道请参阅:https:/ 1-1-2 金融行业人工智能应用场景在下一章“实战篇”中,我们将围绕金融反欺诈、风险预测、客户营销、智能推荐、智能核保等多个场景,结合与中国银联、中国人寿上海数据中心、万事达卡、第四范式、中国平安以及合合信息等合作伙伴的经典案例,来详细阐述实战中的 AI 应用部署情况,揭示其所涉及的技术细节,尤其是英特尔相关技术与产品在这些真实场景中的应用和优化方案,以及硬件、软件配置的最佳实践推荐。通过引入联邦学习等新的联合学习方法,AI 可以横向聚合更多的训练数据来提升模型精度,从而带动跨地域、跨领域的企业级数据合作,以“合作共赢”的方式使各参与方都能从不断提升的 AI 能力中获益。在后端,比如在行业的合规以及 IT、财务等支持职能中,存在大量高度重复性的工作。AI 的重要应用之一,正是要逐步接手这些重复性的工作。所以,AI 在后端支持流程中,也存在大量应用机会和潜力。总之,围绕着前、中、后三端的 AI 能力,金融行业中的 AI 应用场景众多,目前主要聚焦在风险&合规、客户体验、营销决策和智慧运营四个方向。实战篇11101312实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册英特尔与金融用户合作探索利用 RNN 模型学习用户行为特征反欺诈模型演进在与金融客户的合作实践中,我们发现现有金融行业反欺诈应用模型设计往往存在以下问题:学习用户行为的算法缺乏足够的应用实践;传统深度学习方法对数据量的要求大,但金融企业无法针对算法给出每个用户行为模式的历史交易数据;数据非平衡性(Imbalance ratio)状况严重,即绝大多数训练数据都源自正常交易行为,正常/非正常数据比例大概是10 万 100 万比 1。传统上,金融企业与机构往往采用基于规则的方式来构建其风控反欺诈模型,其特征就是不断建立、更新基于用户行为特征的规则库。当交易发生时,系统会通过规则引擎来监测该笔交易潜在的风险。例如一个常常出国的商务人士,在交易规则库中,他出现大笔海外交易行为是正常的,对于一个很少离开居住地使用信用卡的老年人,他的正常交易行为可能是小额、本地和多笔的特性,当其出现大额交易情况时,这一异常交易特征就会被规则引擎所匹配,并引起警觉。而当该账户屡次出现异地不正常大额交易记录,这个账户可能就会被风控系统列入监控范围,并实施后续的核查工作。数据特征提取规则算法模型数据数据专家图 2-1-1 传统反欺诈模型方案12实战篇基于大数据 AI 的高效实时金融反欺诈解决方案基于规则的风控系统固然有效,但其作为一种反向系统,需要规则库不断通过已有业务案例进行总结。这意味着用户每隔一段时间就要耗费大量资源来总结业务,更新规则。而随着业务场景的增多,交易规则复杂度也不断提升,使风控系统的资源消耗和监控时延持续增加。为此,金融机构开始尝试利用 AI 能力,构建更为高效的金融反欺诈模型,这一 AI 能力建设依托于机器学习、深度学习等多种方法。与基于规则的方法相比,AI反欺诈方案具有更高的客观性及准确性,引人注目之点就是能够实施“对规则的自我学习”。通俗来讲,基于规则的方法是预先告诉系统,A方法、B方法是错的,错了就告警。而机器学习、深度学习方法则是将大量历史数据作为学习样本,并通过大量的计算单元进行训练,从而得到一个评估模型。当新的交易进入这一模型时,系统能自我判别交易的合法性。图 2-1-2 当前反欺诈模型中常见算法基于交易序列分析的算法(账户级别)可根据账户的异常交易行为发现盗刷等 欺诈交易,也可以进行客户画像建模金融行业人工智能场景 可根据交易特征识别伪卡、套现以及虚假 商户等欺诈决策树逻辑回归随机森林神经网络GBDT支持向量机XGBoost朴素贝叶斯隐马尔科夫AprioriFP-GrowthBLAST-SSAHA如图 2-1-2 所示,现在,机器学习中一些优秀的分类算法,例如逻辑回归(Logistic Regression,LR)、随机森林(Random Forest,RF)以 及 梯 度 提 升 决 策 树(Gradient Boosting Decision Tree,GBDT)等分类算法都已被反欺诈模型广泛地采用。1514实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册在实践中,RNN还有两种重要的变种,即长短期记忆(Long Short-Term Memory,LSTM)和门控循环单元(Gated Recurrent Unit,GRU),LSTM可以通过3个特别的“门”结构设计,来避免经典RNN网络结构中的长期依赖问题,进而大幅度提升记忆时长。LSTM 中的“门”是Sigmod神经网络和位乘法的结合体,以Sigmod为激活函数的全连接神经网络层会输出一个0到1之间的值,描述当前可通过该结构的输入信息量,当Sigmod输出为1时,全部信息都可通过;反之当Sigmod输出为0时,任何信息都无法通过。而GRU是LSTM的改进版,其将LSTM的3个“门”结构合并为2个,在计算当前新信息的方法时和LSTM有所不同。基于 RNN 的深度学习方法在基于序列的分析工作中,一直有着良好的表现。借助序列标记技术,RNN 深度学习方法可用于分析不同账户的实时行为状态。但单一的深度学习方法在对大量交易数据进行欺诈侦测建模时,效果却并不理想。究其原因,是因为 RNN 等神经网络虽然能学习到交易序列间的特征关联,但对单笔交易内的特征学习能力不足,达不到预期的目标。例如在反欺诈侦测中,“午夜发生的大额场外交易”这样的特征组合可能是非常可疑的交易行为,而单独的“场外”、“大额”和“午夜”却都是常见特征。这一类特征组合,通过单一的深度学习方法很可能无法获得良好的训练结果。图 2-1-3 典型的 RNN 结构AXY模型实现及优化RNN 深 度 学 习 方 法 可 以 使 用 Keras、TensorFlow 等 深 度学习框架予以实现。Keras 的后端可以是多种框架,例如TensorFlow、Theano、CNTK 等等。以下算法模型的开发,选择 TensorFlow 作为 Keras 的后端为例展开描述。可通过修改$HOME/.keras/keras.json 内相关部分来进行设置:面向英特尔 架构优化的 TensorFlow的安装TensorFlow 是目前深度学习领域的主流框架之一,可以帮助深度学习开发者更高效地利用计算资源,构建深度学习模型。为充分利用英特尔 架构和实现更高性能,目前 TensorFlow 框架已使用面向深度神经网络的英特尔 数学核心函数库(Intel Math Kernel Library for Deep Neural Networks,英特尔 MKL-DNN)进行了全面优化。Anaconda 是一个开源的 Python 发行版本,其可以帮助用户使用英特尔 MKL-DNN 构建 TensorFlow(从 TensorFlow v1.9 开始支持该功能),以便为英特尔 架构处理器提供更高性能。如果用户目前使用 Conda 软件包管理器管理环境和软件包,只需在虚拟环境中安装 Anaconda.org 中的 TensorFlow 软件包。在Anaconda中安装TensorFlow命令如下:如果用户的 Anaconda 通道并非默认的最高优先级通道,也可使用如下命令获取面向英特尔 框架优化的 TensorFlow。除上述安装方法外,面向英特尔 架构优化的 TensorFlow 还可作为 wheel 和 docker 映像,或者 Conda 软件包分发。另外,用户也可以通过 PIP,在现有 Python 环境中安装面向英特尔 架构优化的 TensorFlow,命令如下:面向英特尔 架构的TensorFlow优化方法面向英特尔 架构平台对 TensorFlow 开展一系列优化,可以有效地提升模型工作效率。这些优化方法包括:调整处理器核心数量,引入非统一内存访问架构(Non-Uniform Memory Access Architecture,NUMA)技术以及英特尔 MKL-DNN。优化步骤如下:环境变量设置首先,需要对环境变量进行设置,命令包括:清空系统的缓存(cache),将处理器设置为性能优先的模式,即运行在最高频率,打开处理器的睿频加速。设置命令如下所示:或者用户也可在现有 Python 环境中安装 wheel,并建议使用英特尔 Python 分发包。在 Python2.7 和 Python3.6 中安装1.13.1 版本的命令分别为:KMP_BLOCKTIME 设置为 1,是设置某个线程在执行完当前任务并进入休眠之前需要等待的时间,通常设置为 1 毫秒;KMP_AFFINITY 设置为 Compact,是表示在该模式下,线程绑定按计算核心的计算要求优先,先绑定同一个核心,再依次绑定同一个处理器上的下一个核心。此种绑定适用于线程之间具有数据交换或有公共数据的计算情况,优势在于可以充分利用多级缓存的特点;OMP_NUM_THREADS 设置为 20 是将并行执行线程的数量设定为一定的物理核心数。测试代码中添加线程控制添加线程控制的代码如下:基于 RNN 的深度学习方法深度学习方法是反欺诈 AI 应用中常用的方案,递归神经网络(Recurrent Neural Networks,RNN)是金融反欺诈模型中常见的深度学习模型之一。典型的RNN结构如下图2-1-3所示,RNN 会对每一个时刻的输入,结合当前模型的状态,给出一个输出,从图中可以看出,RNN 的主体结构 A 的输入除了来自输入层的 X,还有一个循环,来提供当前时刻的状态,同时 A的状态也会从当前步传递到下一步。如上述代码所示,在进行 tf.ConfigProto()初始化时,我们也可以通过设置 intra_op_parallelism_threads 参数和 inter_op_parallelism_threads 参数,来控制每个操作符 op 并行计算的线程个数。二者的区别在于:intra_op_parallelism_threads 控制运算符op内部的并行,当运算符 op 为单一运算符,并且内部可以实现并行时,如矩阵乘法,reduce_sum 之类的操作,可以通过设置 intra_op_parallelism_threads 参数来并行,intra 代表内部。inter_op_parallelism_threads 控制多个运算符 op 之间的并行计算,当有多个运算符 op,并且它们相互独立,运算符和运算符之间没有直接的路径 Path 相连。TensorFlow 会尝试并行地对其进行计算,使用由 inter_op_parallelism_threads 参数来控制数量的一个线程池。通常而言,intra_op_parallelism_threads 设置为单个处理器的物理核心数量,而 inter_op_parallelism_threads 则设置为1 或者 2。利用 NUMA 特征来控制处理器计算资源的使用数据中心使用的服务器,通常都是配置两颗或以上处理器,多数都采用 NUMA 技术使众多服务器像单一系统那样运转。处理器访问它自己的本地存储器的速度比非本地存储器快一些。为了在这样的系统中获得更好的计算性能,需要通过一些特定指令来加以控制。numactl 就是用于控制进程与共享存储的一种技术机制,它是 Linux 系统中广泛使用的计算资源控制方法。具体使用方法如下所示:图 2-1-4 NUMA 特征来控制处理器计算资源的使用命令中表示 test.py 在执行的时候只使用了处理器#CPU0中的 0-19 和 40-59 核,所使用的内存也只使用了处理器#CPU0 对应的近端内存。使用 Python 命令执行 numactl 命令如下:1716实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册“三明治”多层反欺诈侦测模型 模型简介“GBDT GRU RF”三层架构如图2-1-5所示,首先,这一框架将针对单一深度学习方法(例如RNN)在单笔交易内特征学习能力上的不足,通过英特尔提供的Analytics Zoo工具,在框架的前端引入GBDT模型进行特征优化,并将优化后的特征与人工特征相结合,作为GRU网络的输入,以此来学习序列间的特征,并且将单笔交易内的特征时序化。这一过程可以对数据实施有效的过滤,从而为后续的GRU模型提供真正有用的数据。*更多面向英特尔 架构优化的TensorFlow的技术细节,请参阅本手册技术篇相关介绍。在中间层,框架并没有直接使用 GRU 网络的输出作为直接的欺诈侦测判别,而是将其作为序列间特征学习的一环,将学习得到的序列间特征与原先的交易内特征相结合,形成最终交易特征向量,最后在此基础之上,为进一步地将时序特征进行融合学习。在框架的最后,这一架构还叠加了一个顶层的 RF 模型,作为最终的欺诈判别分类器。软件栈“三明治”多层反欺诈侦测模型软件栈如图2-1-6所示,底层是由英特尔 至强 金牌处理器(6000系列)为基础构建的硬件基础设施。其上,是RedHat Linux操作系统(Centos7.4 Kernel 3.10.0-957.12.1.el7.x86_64),并由虚拟化软件创建虚拟机。虚拟机上部署了英特尔 MKL-DNN或英特尔 MKL,并安装有面向英特尔 MKL-DNN的优化的TensorFlow1.10以及英特尔 Python分发包。在顶层部署了欺诈检测应用。图 2-1-5 GBDTGRURF“三明治”结构反欺诈模型33三明治结构反欺诈模型技术详情请参阅:Transaction Fraud Detection Using GRU-centered Sandwich-structured Model 英特尔 Python分发包的安装可通过执行以下不同命令,在python3/python2环境下安装英特尔 Python分发包核心包:或安装英特尔 Python分发包完整包:激活应用环境:在 Linux/MacOS 下:在 Windows 下:使用 Conda 命令安装额外的软件包,例如 sympy 等:以上过程,详情请参阅:https:/ Python分发包的技术细节,请参阅本手册技术篇相关介绍。图 2-1-6 “三明治”多层反欺诈侦测模型软件栈欺诈检测应用面向英特尔 MKL-DNN优化的TensorFlow英特尔 Python分发包英特尔 MKL/英特尔 MKL-DNN操作系统:Linux英特尔 至强 金牌处理器(6000系列)虚拟机维度维度随机森林单笔交易向量单笔交易向量优化选择匹配的模型转换“Within&Between”架构 1“Within&Between”架构 2“Within&Between”架构 k Keras/TensorFlow 实现多层 LSTM/GRU在 keras 中实现多层的 LSTM/GRU 的代码如下:针对数据非平衡性的处理办法数据非平衡性是反欺诈应用中经常碰到的问题。在一些场景中,欺诈样本和正常样本的比例高达 10 万-100 万比 1。基于这一数据不平衡状况,在采样和训练时,可以基于以下的原则:1.由于正常样本的数据量非常大,正常的采样就可以满足训练对于正常样本的需要;2.在训练的时候,我们把欺诈样本数据的权重提高。3.不同于图像和语音等数据容易重新标注的情形,欺诈数据很难被生成出来并被标注。所以我们还是采用随机打乱次序并多次训练欺诈样本,但却仅需单次使用正常样本,以便进一步解决非平衡的问题。提升算法准确性的方法 不同方法组合的次序和准确性有相关性:特征内提取特性的算法与特征间提取特性的算法进行结合时,不同的次序会导致不同的准确性,我们的测试表明,在 2 个特征内提取特性的方法之间,加入特征间提取特性的方法所获得的准确性是最高的。三明治的结构使用旁路加强特征重用:和 Densenet 算法一样,“三明治”结构也构建了不同方法之间的连接关系,这种使用旁路的方法,使其可以通过加强特征重用,来提升整体的训练效果。软件配置建议对训练数据流程化建模和多层反欺诈模型构建的验证工作,可以参考以下基于英特尔 架构平台的软件配置。名称规格操作系统Centos7.4Linux 内核3.10.0-957.12.1.el7.x86_64工作负载GRU编译器GCC5.4库英特尔 MKL-DNN最新版本框架面向英特尔 架构优化的 TensorFlow 发布版Hadoop发行版 Cloudera CDH-5.9.0.或更高版本Spark 版本Apache Spark-2.1.0.或更高版本其他软件配置Anylitics Zoo英特尔 Python 分发包1918实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册中国银联应用案例背景伴随金融业务的高速扩张,其风险指数也在不断上升。尤其在银行卡、信用卡等领域,欺诈损失率正随着欺诈损失金额的增长而逐年上升。因此,反欺诈正成为金融行业实施风控的重要方向。在风险形式上,传统风险与新型风险也正相互交织。除了层出不穷的传统金融欺诈手段,例如信用欺诈、盗刷欺诈、恶意套现以及保险业骗保等,伴随互联网时代出现的个人信息泄露、钓鱼网站、欺诈黑产化等问题,也带来更高频化、精准化的的金融欺诈犯罪。为应对这一问题,各类金融机构也制定了众多缜密的反欺诈手段来予以反制。随着信息化技术的进步,尤其是 AI 技术的不断突破,越来越多的 AI 能力正与金融风控系统相结合,构成更有效的反欺诈模型。作为一家提供专业银行与支付服务,发卡量和交易量市场份额世界第一的金融机构,中国银联(以下简称“银联”)正不遗余力地引入 AI 技术能力,开展高效金融反欺诈模型的构建。在本案例中,中国银联与英特尔一起,共同开展基于深度学习的反欺诈技术研究。通过结合在基于规则、机器学习等反欺诈模型中汲取的经验,中国银联基于“三明治”结构的多层模型,以及基于英特尔 架构的多方位优化,构建高效的欺诈侦测方案。目前,该方案已在伪卡/套现欺诈侦测等场景中进行了实测,并获得良好效果。解决方案中国银联采用 GBDT GRU RF“三明治”结构,构建了高效的反欺诈模型。首先,银联基于 Analytics Zoo 以及 Spark pipeline 对数据进行流程化建模。通常地,AI 训练模型需要针对用户的每条交易和行为进行分析,即通过算法学习到每个持卡人的消费行为模式,去分析是否异常,并在发现异常交易行为时启动拦截动作,但这需要系统引入海量的交易数据。同时,训练模型要学习到用户的历史交易行为,每个人至少需要数百笔非正常交易数据供模型学习所用。为此,银联基于 Hadoop 构建了海量数据存储平台,并引入Analytics Zoo 等来对训练数据进行流程化建模。针对学习历史交易数据不足的问题,利用建模过程,平台可从少量的原始字段中衍生出了几百个特征因子,归纳成当笔/上笔交易、长短时统计以及可信特征变量等 6 大维度,并通过这些特征工程来帮助模型进行更好的学习。而后,银联基于“GBDT GRU RF”三层架构模型,在上百个节点组成的训练集群上开展其反欺诈侦测模型的构建,并取得了良好的效果。通过多方位的测评,全新的多层反欺诈模型无论是在召回率,还是在准确率方面都达到预期效果,与传统机器学习方法,或单一的 RNN 方法相比,F1 值(F1 Score,一种准确率和召回率的加权平均值,用于衡量侦测模型的性能表现)有了质的提升,超过了业务部署的临界点。如图 2-1-7 所示,左图中,与其他机器学习、深度学习模型,或者多层模型相比,GBDT GRU RF“三明治”结构反欺诈模型有着最优的精度-召回(PrecisionRecall,PR)曲线(最上部曲线为 GBDT GRU RF“三明治”结构反欺诈模型测试值)。在右图中,可以看出,随着数据非平衡率(Imbalance ratio)的增加,GBDT GRU RF“三明治”结构反欺诈模型的F1 值下降最为缓慢。准确率召回率非平衡率F1GBDT GRU RFGRU GBDT RFGBDT RF GRUGRUGBDT RFGBDTRFSVMLRGBDT GRU RFRFGRU0.2(a)(b)0.40.60.811612图 2-1-7 GBDTGRURF“三明治”结构反欺诈模型评估效果业务场景API 服务算法模型层数据池基础技术支撑智能风控分析模型API伪卡盗刷MCC 套码恶意套现违规移机洗钱风险评级黄牛名单查询商户信用评分公安交易协查智能营销分析模型 API算法库交易数据大数据人工智能区块链物联网TEE云计算设备数据信息安全和风险情报持卡人关联数据特征工程库业务模型库智能运营分析模型 API图 2-1-8 中国银联电子支付研究院智能分析服务平台架构图可以为伪卡、套现等欺诈侦测场景提供底层模型支撑,而业务人员则不需要深入研究这些复杂的模型,只需要根据数据规范调用上层 API 即可。在银联的训练集群中,全部采用了基于英特尔 至强 处理器的平台。该平台不仅在内核、高速缓存等方面表现优异,而且能以多项硬件增强技术助力提升框架性能。除了基本的计算能力支撑,平台还为银联AI反欺诈模型的构建提供了以下能力:支持高度不规则的计算,如树构建、熵计算、树遍历、缩减等;支持常规计算,如 GRU、非线性激活、批处理规范化等。同时,英特尔 至强 处理器/英特尔 至强 可扩展处理器所集成的英特尔 高级矢量扩展512(英特尔AVX-512)技术,为银联“三明治”结构反欺诈模型提供了出色的并行计算能力。小结针对基于机器学习的方法对序列化交易特征学习能力的不足,以及单一深度学习模型对单笔交易内特征学习能力的限制,银联联合英特尔提出多层机器学习 深度学习模型,以技术创新大幅提升反欺诈模型的性能。在这一创新过程中,英特尔不仅为这一新型的反欺诈模型提供了高性能处理器产品作为算力引擎,还提供了多样化、可扩展、全方位的技术支撑,为三明治结构欺诈侦测模型中每一个层面所用的方法,都提供了有针对性的优化手段和工具,从而帮助整个反欺诈模型进一步提升了效率。基于英特尔 至强 处理器/英特尔 至强 可扩展处理器的硬件平台为中国银联反欺诈模型成功构建、应用提供的强劲算力,以及英特尔提供的多项优化措施,用户在未来也可选择性能更强、在AI领域有着更多优化方法的第二代英特尔 至强 可扩展处理器等更新硬件产品,来构建其性能更优的解决方案。在完成流程化建模和多层反欺诈侦测模型构建后,银联将其进行了封装和整合,并以 API 接口的方式提供端到端的智能分析解决方案,从而更好地为业务人员提供服务。如图2-1-8所示,用户通过 API 接口等方式提供入参,即可获得经过智能模型运算分析后的结果指标。以三明治结构的欺诈侦测模型为例,其2120实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册英特尔与金融用户协作利用 AI模型开展信贷逾期风险预测信贷逾期风险挑战信贷是金融机构最重要的资产业务之一,随着各类商业银行信贷业务规模的不断扩张,逐渐增加的不良贷款不仅正逐渐侵蚀着银行的利润,而且还会占用宝贵的信贷额度,影响银行的放贷能力,使优质的项目无法获得信贷支持。更为严重的是,当不良贷款超过一定限度,就会极大地影响业务经营与运转,为银行带来风险。此外,不良贷款的大量发生还会诱发社会道德风险,如果处理不良贷款的力度过大又可能会引起企业连锁倒闭破产,增加财政风险和社会危机的几率。来自中国银行保险监督管理委员会银(下简称“银保监会”)的数据显示,截止 2018 年四季度末,中国商业银行不良贷款余额 2.03 万亿元人民币,不良贷款率 1.83%4。因此,对信贷业务实施高效的贷前贷后风险管控,就成为银行构建风控系统的重要内容。目前,商业银行针对信贷逾期风险预测主要有两类应用场景,一类是在贷款前就进行的贷前风险评估,其主要关注预测结果的时效性和可解释性;另一类是针对贷款发放后的贷后风险预测,其主要关注预测结果的准确率和可解释性。对于贷前风险预测,商业银行在发放贷款前,主要是通过对企业所在行业发展特点以及企业实际经营、资产负债、信用状况等进行多方位的人工调研,以此评估贷款发放的风险等级。但这类方式通常效率低,需要耗费大量的人工时间,且伴有明显的主观判断的问题。针对贷后风险预测,商业银行通常会通过人工方式,定期或不定期地根据借款企业所属行业及经营特点,进行现场或非现场检查,通过与贷款人沟通,对借款企业的财务信息、经营状况的分析以及贷款资金的流向监测,来掌握可能造成违约风险和信用风险的因素,防止违约贷款。囿于人力与成本问题,这种人工方式只能每月或每季度进行一次,遇到问题也只能依赖经验层层上报,等待风险管理部门决策后采取行动。因而面临以下几个主要问题:4 数据源引自银保监会官方网站:http:/ 20实战篇基于AI的高效信贷逾期风险预测解决方案 人工投入大,预测时间长。每个月银行工作人员都要逐月预测当月到期以及后面三个月到半年即将到期的贷款逾期风险,层层上报并等待决策处理,整个过程需要将近一个月;占用了贷款管理中风险控制的宝贵处理时间。人工预测质量良莠不齐。有的工作人员很有经验,预测准确;有的则经验不足,无法将风险消弭在襁褓之中;多种因素影响预测。在人工预测的过程中,会受到市场环境的多变性、经济活动的周期性以及银行、企业两侧信息的不对称性等因素的干扰,进而影响风险预测的时效性和准确性。同时,人工预测除了准确性无法得到保障之外,这一工作也缺乏完整的知识体系,无法逐步通过经验的积累来提升预测的效率和准确率,因而就无法形成良性闭环。随着信贷业务的不断扩张,商业银行传统基于人工的风险预测方式也承受着越来越大的挑战。以上的问题,以及来自银保监会对于每月逾期情况的监察,无疑给银行带来了极大的成本和管理压力。因此,银行希望将自己丰沛的业务数据资源利用起来,通过 AI 构建更有效的信贷逾期风险预测系统。而要构建完整的信贷逾期风险预测 AI 架构,实现高准确率、低延时以及可解释的贷款逾期预测方案,就需要针对业务数据和环境数据进行分析和预测。前者,也就是业务数据,是金融机构对企业用户的金融资产状况、未来流水、资金用途等数据的记录。目前,业界通常采用机器学习或者深度学习的方法来构建预测模型;而后者,即环境数据,对其则可以采用 NLP 的方法进行研究和预测。在英特尔与金融用户的合作探索中,双方合作构建了基于LSTM 和传统机器学习的混合模型,来应对用户在准确性和可解释性两方面的需求。同时,也针对环境数据的 NLP 模型的构建进行了探索。信贷逾期风险预测模型的架构设计 基于机器学习方法基于树的机器学习方法是在信贷逾期风险预测模型上常用的技术,其预测结果通常具备较好的可解释性。其中 XGBoost 是一种重要的机器学习模型,是 boosting 的集成学习,由大量2322实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册分类回归树(Classification And Regression Tree,CART)集合而成的强分类器。CART 回归树是在二叉树上不断根据特征进行分叉,例如当前树节点 J 是基于 a 个特征值进行分叉,则特征值小于 b 的样本划分为左子树,大于 y 的样本划分为右子树:CART 回归树实质就是在该特征维度上对样本空间进行划分,典型 CART 回归树产生的目标函数为:回到 XGBoost,其核心思想,就是通过不断进行特征分裂来生成新的分叉树,每添加一个树,其实就是学习一个新函数来拟合上次预测的残差。因此,XGBoost 目标函数可以定义为:当有 k 个样本,其第 n 轮的模型预测结果为:与 GBDT 等机器学习方法相比,XGBoost 有着如下的优势:XGBoost 支持并行计算,可以充分利用处理器的多线程能力,尤其当其工作在英特尔 架构平台上时,可以有效利用英特尔AXV-512 等最新指令集带来的强大并行计算能力;XGBoost 在其代价函数中引入了正则化项,可以有效地控制模型的复杂度,防止模型过拟合;XGBoost 支持列抽样(column subsampling)方式,不仅能够防止过拟合,还能降低计算复杂度;GBDT 在进行优化时只用到一阶导数信息,而 XGBoost 则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数,有着更好的预测效果。因此,XGBoost 机器学习模型已经被广泛地运用到信贷逾期风险预测的解决方案中,使用 XGBoost 进行贷款风险的经典预测步骤如图 2-2-1 所示,分为数据导入、数据清洗与准备、模型建立、模型评估以及模型效果对比等几个主要步骤:基于RNN/LSTM的深度学习方法深度学习方法也是信贷逾期风险预测中日益广泛应用的方案,其中RNN是一种经典的深度学习模型。在典型的RNN结构中,每一个输入结合当前模型的状态都会得到输出,RNN 的主体结构 A 的输入除了来自输入层的 X,还有一个循环来提供当前时刻的状态。同时 A 的状态也会从当前一步传递到下一步。LSTM 是 RNN 重要的衍伸模型,其可以通过特别的“门”结构设计来避免经典 RNN 结构中的长期依赖问题,使其大幅度提升记忆时长。基于 LSTM 的深度学习方法很适合运用在基于序列的分析工作中,也就是说,银行可以利用过去一段时间内,围绕贷款发放后的一系列特征,例如企业经营情况、账户流水等,来预测未来一段时间内贷款可能面临的逾期风险。但纯粹的深度学习方法存在着过程缺乏可解释性的缺陷,而银行等金融机构往往需要对推理得到的结果进行解释,也就是需要理解模型依据哪些信息和条件获得了特定的预测输出结果。这样的解释能够为金融客户在改善业务流程、改进客户体验等方面提供指导。深度学习方法对于用户往往呈现的是黑盒状态,这使得可解释的深度学习方法成为今后深度学习方法实施优化的重要方向。机器学习与深度学习集成方案为提升可解释性和准确性,需考虑采用其他方法。模型融合就是一种非常有效的技术,可以在大部分的机器学习任务中提高回归或者分类的准确性,并可以直接使用不同模型的结果文件进行融合,也可以使用一个模型的预测结果作为另一个模型的特征进行训练,然后得到新的预测结果。不同类型的模型学习训练的原理不同,所学到的知识也不一样,对其进行融合,可以提升训练的效果。例如,通过将树模型 XGBoost 和 LSTM深度学习模型融合的方式,能使预测能力得到进一步增强,同时又使模型具备可解释性。模型融合的整体结构如下图:数据导入模型建立模型评估模型效果对比数据清洗&准备图 2-2-1 使用 XGboost 进行贷款风险预测图 2-2-2 模型融合的整体结构第三方信用数据集贷款业务数据集交易数据集机器学习和深度学习的融合多层LSTM多层LSTM集成风险预测XGBOOST.信贷逾期风险预测模型的算法实现信贷逾期风险预测模型训练数据信贷逾期风险预测模型训练数据一般包括了几年内客户在银行所做的贷款交易数据,以及当月客户本身的经营状况的量化数据。此外,人工评判的业务逻辑也会被作为高级的特征,加入到数据集中进行训练。信贷逾期风险预测模型软件平台分 布 式 机 器 学 习 社 区(Distributed Machine Learning Community,DMLC)现在已经发布了基于英特尔 Python 分发包和面向英特尔 架构优化的 TensorFlow 深度学习框架构建的XGBoost开源包。XGBoost开源包提供一个wrapper类,允许模型可以与 Scikit-Learn 框架中的其他分类器或回归器协同使用。XGBoost 可以通过英特尔 Python 分发包加速训练和推理过程。英特尔 Python 分发包内置了英特尔针对数据分析和机器学习的加速库(Intel Data Analytics Acceleration Library,Intel DAAL),该加速库可以加速机器学习过程,并且充分利用英特尔 架构的硬件资源。面向英特尔 架构优化的 TensorFlow作为领先的深度学习框架,TensorFlow 已经广泛应用到不同行业的 AI 应用中。如何让 TensorFlow 框架在基于英特尔 架构的平台上发挥最佳性能,就是面向英特尔 架构优化的TensorFlow 进行优化的方向。其优化主要从三个层面进行:1)英特尔 MKL-DNN 的集成;2)计算图的优化;3)Kernel 的优化。通过以上三个层面的优化,可以确保最常用的运算能在优化过的 MKL-DNN 基元上进行,并且可以通过算子融合的方式来优化计算图,另外还可以优化多个线程库,使它们能共存,而不是互相争夺处理器资源。通过这些软件层面的优化,在不改变神经网络模型的情况下训练和推理的整体性能获得了显著提升,具体请参考下文中的“XGBoost 模型及训练”介绍。*更多英特尔 MKL-DNN的技术细节,请参阅本手册技术篇相关介绍。数据的预处理和特征工程数据的预处理和特征工程会根据具体的任务和数据而做不同的处理,例如进行 One-hot 编码以及数据标准化。One-hot 编码可以将类别型的变量转换成数值变量;而数据的标准化主要是为了加速模型的训练和收敛速度。类别型变量转换成数值型变量之后,会将原有的类别型变量删除,并对整个数据集进行标准化处理:XGBoost 模型及训练 XGBoost 模型实现XGBoost 模型可以直接采用 XGBoost 开源包进行部置,或通过对原生 XGBoost 的包装类来实现,这种方式可以采用SKlearn 风格的编程方式,更为简单易用。2524实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册 XGBoost 参数调优XGBoost 的超参非常多,可以把所有的参数分为以下三类:1)通用参数:宏观函数控制,这部分的参数基本不需要调整;2)Booster 参数:控制每一步的 Booster(tree/regression)的相关参数,需要仔细调整,会影响最终的性能;3)学习目标参数:控制训练目标的表现,一般随任务而确定,且一般不需要调整。所以需要调整的参数主要与 Booster 相关,参见下表:参数说明max_depth树的最大深度。树越深通常模型越复杂,更容易过拟合learning_rate学习率或收缩因子n_estimators弱分类器数目gamma节点分裂所需的最小损失函数下降值min_child_weight叶子结点需要的最小样本权重(hessian)和subsample构造每棵树的所用样本比例colsample_bytree构造每棵树的所用特征比例colsample_bylevel树在每层每个分裂的所用特征比例reg_alphaL1/L0正则的惩罚系数reg_lambdaL2正则的惩罚系数可以通过网格搜索的方式来逐步调整以上表格列出的 Booster参数,网格搜索由于需要通过交叉验证的方式来选取最优参数,当多个参数同时优化时会非常耗时,所以需要逐个或者对相关参数逐组来优化。在调整中,可以通过 XGBoost 自带的 cv函数来调整树的数目,用 XGBRegressor 或者 XGBClassifier(XGBoost 的 Sklearn 包,回归和分类问题的调整策略一致)和 GridSearchCV 调整其他参数。下面,首先定义一个函数用于调整最优树的数目:第二步:定义一个基本的 XGBRegressor(可以将需要调整的参数都列出,方便后面调整),通过调用上面定义的函数得到树的数目:第三步:根据各个参数的意义分组调整,开始可以将参数调整的步长放大进行粗调,等结果出来后可以减小步长进行细调:得到:得到:得到:得到:得到:subsample构造每棵树的所用样本比例colsample_bytree构造每棵树的所用特征比例colsample_bylevel 树在每层每个分裂的所用特征比例逐个调整需要优化的参数,得到最终的最优参数:gamma以下两个参数可以一起调整,reg_alphaL1/L0正则的惩罚系数reg_lambdaL2 正则的惩罚系数得到:最后再用优化的全部参数来调整一下树的数目,模型训练和推理模型的超参全部确定后,就可以通过指定 XGBooster 的参数生成 Booster 来训练模型,通过不同任务的相应评估标准来评估模型的训练效果。2726实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册定义损失函数和优化器,最小化损失函数:模型训练根据训练服务器的配置,设置训练的系统配置参数:模型训练和验证(可以通过 Tensorboard 来监测多个需要观察的参数),同时将训练好的模型保存下来:使用面向英特尔 架构优化的TensorFlow实现LSTM 实现方法面向英特尔 架构优化的TensorFlow集成了英特尔 MKL-DNN,能够在英特尔 架构的硬件上充分利用硬件资源,通过矢量化、并行化,以及利用英特尔 深度学习加速技术(VNNI 指令集)等多种优化手段,实现对LSTM等网络模型的加速。模型架构的定义可以采用 2 层 LSTM 网络来构建网络结构,其中一层的 LSTM网络是由一个基本的 LSTM 层加一层 Dropout 组成,LSTM的输出后接了三层的全连接网络。模型推理模型的推理阶段通过测试集数据给出模型的最终推断效果,需要首先载入之前保存的模型:贷款逾期风险混合预测模型 模型简介基于LSTM和传统机器学习的贷款逾期风险混合预测模型,融合了机器学习和深度学习两类方法的优点,既通过深度学习保障了预测的准确性,又通过机器学习的方法来提供了预测的可解释性;同时,这一混合模式还可以使用面向英特尔 架构优化的TensorFlow和英特尔 Python分发包等先进工具和产品来实施优化。因此可以为商业银行等金融机构提供高效的预测服务。这一模型的基本结构与工作流程如图 2-2-3 所示,首先,是特征分析和数据预处理。在这一步骤,来自金融机构本地大数据平台的数据,或者第三方提供的数据(例如征信机构的数据)会在系统中进行处理,这包括了对缺失数据的处理、对数据范围的处理、对数据不平衡性的处理以及对数据重要特征的分析。同时,随着数据集容量的增加和复杂化,该模型还可以使用不同的预处理工具包和新模型来应对各种类型的数据输入。图 2-2-3 基于 LSTM 和传统机器学习的混合模型1.特征分析和预处理 2.LSTM和ML结合4.监控预测效果,更新特征和权值3.更新权值,做出预测定制化的 LSTM模型结果集成随机森林1234.贷款业务数据集第三方信用数据.处理缺失值处理数据扩展处理不平衡数据特征重要性分析第二步,是利用深度学习模型(LSTM)和传统机器学习模型(XGBoost/RF)分别对样本数据进行训练和推理,并得到各自相关的结果;而后,混合模型会将分别对结果进行加权处理,更新权值并做出预测。方案的最后一步,是将本轮的预测结果重新导入模型头部,根据预测效果更新特征值和权值,并进行下一轮的预测。2928实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册 软件栈贷款逾期风险混合预测模型软件栈如图 2-2-4 所示,在左侧,其底层是由英特尔 至强 金牌 6130 处理器和英特尔 以太网融合网络适配器 X710-DA2 构建的硬件基础设施;其上是 AI 能力层,由 VMware ESXi 提供虚拟化环境,安装有RedHat Linux 操作系统(CentOS Linux release 7.4.1708),并部署了英特尔 MKL-DNN 或英特尔 MKL、面向英特尔 架构优化的 TensorFlow1.10 以及英特尔 Python 分发包。在右侧,底层是由英特尔 至强 金牌 6130 处理器和英特尔 以太网融合网络适配器 X710-DA2 构建的硬件基础设施;其上是数据层,安装有 RedHat Linux 操作系统(CentOS Linux release 7.4.1708),并部署有 Apache HBase 分布式数据库以及 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS),提供分布式数据存储读写能力。在 AI 能力层和数据层之上,部署了贷款逾期风险混合预测应用。而在在线子系统中,其前置系统首先会将部分数据推给数据集市用于模型训练,其它数据则通过数据推送系统,进入由Storm 集群构建的分布式实时计算系统进行预测调度等步骤。之后,数据就会进入预测系统进行推理预测,得到的结果将被送到测试平台进行验证,最后的结果经由名单管理模块以及风险标签生成模块,再返回离线子系统的算法部署和模型训练模块,进行算法迭代。图 2-2-4 贷款逾期风险混合预测模型软件栈图 2-2-5 贷款逾期风险混合预测方案系统架构信贷预期风险预测应用英特尔 MKL-DNN/MKL操作系统:RedHat操作系统:RedHat人工智能(AI)平台数据平台存储:HBase、HDFSVMware ESXi英特尔 至强 金牌 6130 处理器英特尔 至强 金牌 6130 处理器英特尔 以太网融合网络适配器X710-DA2英特尔 以太网融合网络适配器X710-DA2使用英特尔 MKL-DNN优化的TensorFlow英特尔 Python 分发包外部数据数据接口服务接口风险标签生成名单管理测试平台预测系统算法部署模型训练数据清洗数据集市Storm 集群数据推送前置系统基础设施数据规划数据监控在线离线 系统架构在实际的系统建设中,如图 2-2-5 所示,贷款逾期风险混合预测方案可由如下方式构建。整个系统从左至右分为外部数据处理子系统、在线系统以及离线系统。首先,对于外部数据,系统通过统一的数据接口汇入数据规划与监控平台,而后由一个服务接口将部分数据送至离线系统。软硬件配置建议以上信贷逾期风险预测模型的构建,可以参考以下基于英特尔 架构平台的环境进行配置:硬件配置软件配置名称规格处理器双路英特尔 至强 金牌 6230 处理器或更高基础频率2.10GHz核心/线程16/32HTOnTurboOn内存192G(16G DDR4 2666MHz x12)硬盘英特尔 DC S3320数据中心级固态盘 480GBBIOSSE5C620.86B.00.01.0013.030920180427名称规格操作系统CentOS Linux release 7.4.1708(Core)Linux内核3.10.0-957.12.1.el7.x86_64工作负载LSTM/XGBoost编译器GCC 5.4库英特尔 MKL最新版本框架面向英特尔 架构优化的TensorFlow发布版其他软件配置待 英特尔 Python分发包其次,在离线系统中,来自外部数据子系统和在线系统的部分数据将被汇入一个数据集市(Data Mart),而后这些数据在得到清洗之后,进入离线的模型训练和算法部署流程,经训练后的模型算法将被导入在线子系统的预测系统中。某大型商业银行应用案例成效来自该用户的实际部署验证表明,最终的混合方案可以有效地提升预测的准确率,并大幅降低预测时延。数据显示,与人工预测方案相比,LSTM 方法的准确性提升 1 倍,而混合模型方案的预测准确率能够提升 2 倍以上,同时预测时延则缩短到了2 天(预测效率提升 10 倍以上)。另外,在在线预测方案(可放贷风险预测)中,每笔预测时间均小于 1 秒,显著提升了客户满意度。该商业银行用户基于混合模型构建的训练和推理集群,全部基于英特尔 架构平台。英特尔 架构处理器平台不仅在内核、高速缓存等方面表现优异,还能以大量的硬件增强技术助力提升框架性能。例如,英特尔 至强 处理器和英特尔 至强 可扩展处理器所具备的英特尔 AVX-512,可以为 XGBoost模型提供出色的并行计算能力。准确率人工预测RNN(LSTM)模型RNN(LSTM)与经典机器学习模型的混合模型召回率时延图 2-2-6 不同预测方案结果比对小结利用多样化的 AI 方法为金融用户提供适合的解决方案,是英特尔结合自身技术能力,面向行业推出量身定制解决方案的有益尝试。基于 LSTM 和传统机器学习的混合预测模型,不仅在预测准确性上获得了令人满意的效果,也充分满足了用户对于预测过程可解释性的要求。英特尔不仅为这一新型的混合预测提供了高性能处理器产品,还提供了面向英特尔 架构优化的 TensorFlow 和英特尔 Python 分发包等多样化的软件优化能力,从而有力地提升了它的工作效率。目前,该混合预测模型已在某商业银行用户处得到了实践部署,为用户带去了高效、准确的信贷逾期风险预测能力。未来,双方还计划进一步探索利用 NLP 模型面向大环境数据展开分析和预测,并使预测的效果更为全面和准确。虽然在已有的案例方案中,采用了基于英特尔 至强 处理器/英特尔 至强 可扩展处理器的服务器。在未来,用户还可选择性能更强,且在 AI 领域有着更多优化措施的第二代英特尔 至强 可扩展处理器,来构建其解决方案。3130实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册基于 AI 的金融行业精准营销策略探索背景介绍一直以来,金融行业都是积极利用AI能力加速业务发展、提升营销效率的典范。这源于:首先,金融行业企业往往具备完备的信息化系统,并重视业务数据的采集和积累,由此积累了海量的数据,为AI应用提供了坚实的基础;其次,银行、保险、证券等金融类业务都是基于数据展开,大量繁琐的数据处理工作,亟需AI来助力提升效率;另外,深度学习的快速发展,使AI与金融行业的融合有了更多的应用场景。这其中,基于AI的金融行业精准营销策略正受到越来越多的关注。金融行业较高的信息化水平和数据优势,推动业内企业加速进行各类推荐系统的构建,以“千人千面”、“全用户画像”等方式,推动精准营销和个性化营销等重要应用的实施。利用海量结构化/非结构化数据,金融企业正构建一系列营销决策模型,对终端用户的行为喜好、使用体验以及购买意图等做出深入分析,进而推测市场前景,为相关金融产品或商业交易提供个性化建议,为金融企业营销创新提供新鲜动力。为迎接这一趋势,多家金融行业企业在与英特尔的合作探索过程中,通过英特尔开源的“大数据分析 AI”平台Analytics Zoo,已经利用神经协同过滤(Neural Collaborative Filtering,NCF)模型、宽深(Wide and Deep,WAD)等深度学习模型,构建了高效的业务推荐系统。推荐系统 常见的推荐系统推荐系统(Recommender System,RS)是一种信息过滤工具,能引导企业以个性化的方式从大量可能的选项中发现消费者的偏好,从而改善客户消费体验、提升企业的营销效果,并在目标营销产品/计划的准确性方面发挥重要作用。例如,如果商家提供优惠给购买潜力最高的消费者,那么这一措施无疑是更有效的。现在,推荐系统已经成为许多行业拓展销售和服务的关键工具。例如,有 80%的用户在 Netflix 上通过推荐来选择接下来要5 Carlos A Gomez-Uribe and Neil Hunt.2016.Netflix 推荐系统:算法、商业价值和创新。管理信息系统的 ACM 事务(TMIS)6,4(2016),13.6 James Davidson,Benjamin Liebald,Junning Liu,Palash Nandy,Taylor Van Vleet,Ullas Gargi,Sujoy Gupta,Yu He,Mike Lambert,Blake Livingston,and Dasarathi Sampath.2010.The YouTube Video Recommendation System.第四届 ACM 推荐系统会议录第 29 页至第 29 页(RecSys 10).7 Shuai Zhang,Lina Yao,and Aixin Sun.Deep learning-based Recommender System:A Survey and New Perspectives.arXiv preprint arXiv:1707.07435,2017.观看的电影5;而 YouTube 上的这一数字为 60%6;另还有数据表明基于深度学习的推荐系统在推荐质量方面正获得越来越多的认可7。推荐模型一般可分为三类,即协同过滤、基于内容和混合系统。基于协同过滤的推荐算法基于用户大概率会选择与曾经购买过的商品类似的产品,其通过学习用户与商品的历史交互,利用显式的(例如用户先前的评级)或隐式的反馈(例如用户购买后的评价)来提出建议。这一方式不需要进行特征值筛选,比较适合作为最初的模型。而基于内容的推荐算法,其原理是假定用户通常会喜欢某项内容与所关注过的产品相似的产品,比如你买了某理财产品 A,基于内容的推荐算法发现理财产品 B,与你之前购买的理财产品 A 有类似的收益率或年限,就会向你推荐。这一方法可以避免推荐系统的冷启动问题,而其不足在于可能会重复推荐,同时这一算法也依赖大量特征值分析。目前,深度学习正越来越多地被用于构建高效率的推荐模型。传统的机器学习算法在以前的解决方案中起着至关重要的作用,但随着模型和特征工程的日趋复杂,近年来,人们也提出了许多基于深度学习的神经推荐模型,以进一步提高营销活动的有效性。推荐系统构建过程如图 2-3-1 所示,推荐系统的构建过程可由以下几个主要步骤组成:数据清洗、特征工程、建模、评估调优。30实战篇基于AI的金融行业精准营销策略数据清洗特征工程建模评估调优数据分布检验特征选择训练数据/验证数据划分超参优化发布评估空值处理特征转换模型选择超参优化异常值处理增维降维算法实现模型结构微调模型融合图 2-3-1 推荐系统构建过程 一般来说,原始数据往往都会包含各种脏数据,其会很大程度上影响模型训练和预测的准确度。数据清洗过程就是通过对数据进行重新审查和校验,来保证数据一致性。数据清洗主要包括了数据分布检验、异常值处理和空值处理等功能;3332实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册 特征工程过程是从数据中抽取出对结果预测有用的信息,并进行维度转换,最终形成特征向量,其包括了特征选择,特征转换和增维/降维等主要功能;建模过程包括了模型的选择、模型训练和算法实现;评估与调优包括了超参优化、模型结构的调优,以及交叉验证和模型融合等工作。调优之后,还需要根据调优结果进行判断,回到初始的数据清洗和特征工程部分。Analytics Zoo Analytics Zoo 是由英特尔开源的、统一的“大数据分析 AI”平台,它可以无缝地将 TensorFlow、Keras、PyTorch、BigDL、Ray、Spark 以及 Flink 等软件与框架集成到一个统一的体系,并扩展到大型 Apache Hadoop/Spark 集群,用于深度学习所需的分布式训练或预测。Analytic Zoo 可在基于英特尔 至强 可扩展处理器的集群上运行,来满足企业深度学习的需求。它允许用户直接在既有的大数据基础设施,例如 Apache Hadoop/Spark 上开发和运行深度学习应用程序。通过使用 Plain Old Java Object(POJO)、本地 Java API 或 Scala/Python 模型加载API,Analytic Zoo 可以无缝集成到 Web 服务(如 Spark Streaming,Kafka 等)中。通过 Analytics Zoo,用户可以进行以下工作:使用 Spark 进行数据处理和分析;使用 TensorFlow、Keras 或PyTorch进行深度学习模型开发;在 Spark 和 BigDL 上进行分布式训练/推理;同时,Analytics Zoo 还提供了丰富的端到端分析能力和 AI 支持,包括:易于使用的高级分析流水线 API(例如传输学习支持、自动编程操作、Spark DataFrame、MLPipelines、在线模型服务 API 等);用于图像、文本、3D 图像等的常见特征工程操作;大量内置深度学习模型(例如对象检测、图像分类、文本分类、推荐、异常检测、文本匹配、序列到序列等);丰富的参考用例(例如异常检测、情绪分析、欺诈检测、图像相似性等)。利用 Analytics Zoo,企业用户可以获得以下优势:分析存储在同一大数据集群上的大量数据(HDFS、Apache HBase 和 Apache Hive 等),而不是移动或复制数据;将深度学习功能添加到现有的分析应用程序和机器学习流水线中,而不是重建它们;利用现有的大数据集群和基础设施(资源分配,负载管理和企业级的监控);在训练阶段进行交叉验证时,深度学习算法会产生指数性增长的隐藏嵌入特征,并自动执行内部特征选择和优化,从而显著减少特征工程工作量;在构建模型时,算法只关注一些预先定义的滑动特征和自定义重叠特征,删除大部分LongTime Variable(LTV)预计算工作,能够节省大量时间和资源;传统的机器学习(ML)方法严重依赖于人机学习专家来优化模型,而 Analytics Zoo 提供了更多选项来找到一个更佳的、更稳健的执行配置,大幅提升了自动模型优化的能力;由于 Analytic Zoo 可以作为英特尔 至强 处理器上的标准Spark 程序运行,因此部署或操作成本为零。*更多 Analytic Zoo 技术细节,请参阅本手册技术篇相关介绍。几种典型的 AI 推荐深度学习模型 神经协同过滤(NCF)模型NCF8 模型是目前常见的基于深度学习的推荐算法之一9。如前所述,协同过滤算法依赖于显性反馈与隐形反馈。但在实践中,显性反馈往往并不明显,更多得到的是隐形反馈。对于隐性反馈数据,可以使用矩阵分解(MF)来抽象为推荐问题。但传统的 MF 模型作为潜在因素(latent factor)的线性模型,虽然可以反应用户与商品之间的互动关系,但不能真实地反应用户是否喜欢该商品。NCF 利用引入深度神经网络来解决这一问题,它可以使用深度神经网络(DNN)从数据中学习交互函数,从而消除 MF 模型的限制。如图 2-3-3 所示,其利用 Embedding Layer 将输入层的稀疏表示映射为一个新的潜在向量,然后分别将用户输入和商品输入送入多层神经网络结构。在左侧,模型使用了一个通用矩阵分解(GMF)结构用于处理线性交互;在右侧,则使用多层神经网络(MLP)进行处理非线性交互。最后使两者相互融合,从而获得更好的推荐效果。现在,通过 Analytics Zoo,用户就可以轻松构建 NCF 模型。宽深模型宽深学习模型是 2016 年提出的一个 DNN-Linear 混合模型,其分为宽分量模型和深分量模型两个部分,如图 2-3-4 中模式右侧部分所示,宽分量模型是一个单层感知器,是一个广义线性模型。与传统推荐系统通过基于离散特征的线性算法来进行推荐的方式相比,宽分量模型通过获得用户的历史行为数据,例如点击哪些页面,购买过哪些商品,然后通过编码构成离散特征并进行计算。宽分量模型推荐方式对于大规模的稀疏数据有很好的效果,而且对模型具有很强的解释性。以逻辑回归(LR)为例,每个离散特征都可以对应模型中的一个权重值,特征的权重值与特征对结果的影响息息相关。但宽分量模型的特征衍生需要大量人为干涉和专家经验的介入,且预测效果较差。图 2-3-2 Analytics Zoo 提供丰富的端到端分析能力和 AI 支持图 2-3-3 神经协同过滤(NCF)模型的示例图 2-3-4 宽深模型图8 关于 NCF 技术描述,请参阅:https:/p.nus.edu.sg/xiangnan/papers/ncf.pdf9 Xiangnan He,Lizi Liao,Hanwang Zhang,Liqiang Nie,Xia Hu,and Tat-Seng Chua.2017.Neural Collaborative Filtering.In Proceedings of the 26th International Conference on World Wide Web.International World Wide Web Conferences Steering Committee,173182.因此,WAD 模型通过将宽分量模型和深分量模型进行结合,以求获得更具效率的推荐系统。WAD 模型使用了SparseTensor,以及为稀疏数据计算明确设计的一些层,例如 SparseLinear,SparseJoinTable 等。Analytics Zoo 对 WAD 模 型 提 供 了 良 好 的 支 持,具 备DataFrame 和弹性分布式数据集(Resilient Distributed Datasets,RDD)两种接口,用于数据准备和训练,并为用户的不同场景提供了应用灵活性。另外,Analytics Zoo 中的WAD 模型还允许 Spark 1.5 兼容到最新版本。基于 Analytics Zoo 的模型实现 神经协调过滤模型系统实现以下部分将阐述如何在基于 Spark 的 Analytics Zoo 和 BigDL上构建一个基于显式反馈的 NCF。系统环境如下:Python 2.7/3.5/3.6 JDK 8 Spark 1.6.0/2.1.1/2.1.2/2.2.0(与编译 Analytics Zoo 的Spark 版本要保持一致)Analytics Zoo 0.5.0 Jupyter Notebook 4.1深分量模型是与神经协同过滤模型类似的多层感知器,它是通过深度学习获得一系列向量,并用这些向量作为特征的一部分参与到训练中。通过深分量模型产生的特征有以下优点:一方面其可以弥补人为提取特征造成的维度限制,提高预测准确性;另一方面其特征是由深度学习框架自动生成,无需人力干预,可提高训练效率。但由于深分量模型产生的向量是隐性特征,这使得预测过程往往缺乏明确的可解释性。密集:预测密集密集密集合并:对象堆叠合并:对象堆叠密集:激活随机失活随机失活压平选择选择选择选择窄化嵌入(多层神经网络用户)嵌入(多层神经网络用户)嵌入(矩阵分解项目)嵌入(矩阵分解项目)压平压平压平随机失活随机失活随机失活随机失活合并:计算样本张量乘积通用矩阵分解嵌入层用户索引用户索引项目索引项目索引用户配对与统计功能多层神经网络3534实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册通过PIP安装后运行用户可以轻松地使用以下命令来运行示例:请参阅如下地址了解更多PIP安装后的运行指南:https:/analytics-zoo.github.io/master/#PythonUserGuide/run/#run-after-pip-install通过预编译包安装后运行对本地模式(master=local*)或集群模式下的 spark 运行以下命令:本案例中使用的数据集是 movieens-1M11,其包含了 6,000个用户对 4,000 部电影的 100 万个评分,有五个等级。我们将尝试将每对(用户、电影)划分为 5 个类,并使用平均绝对误差评估算法的效果。请参阅如下地址了解更多非PIP安装后的运行指南:https:/analytics-zoo.github.io/master/#PythonUserGuide/run/#run-without-pip-install12 RDD 样本具体描述请参阅:https:/bigdl-project.github.io/master/#APIGuide/Data/#sample10 详情请参阅:http:/ 数据集详见 https:/grouplens.org/datasets/movielens/1m/参考文献:一种电影推荐的 Keras 实现方法,详见:https:/ movies.ipynb 以及 http:/blog.richardweiss.org/2016/09/25/movie-embeddings.html NCF 相关论文,详见:https:/p.nus.edu.sg/xiangnan/papers/ncf.pdf导入必要的库:初始化NN上下文,可以得到一个用于优化BigDL性能配置的SparkContext:数据准备:下载并读入1M大小的 movielens 数据:数据中每条记录的格式为(userid、movieid、rating_score)。用户ID的范围在1到6,040之间,电影ID的范围在1到3,952之间,评级以五星级为单位(仅限全星级),记录用户数和电影数,供以后使用。将原始数据转换为 RDD12格式的样本。在本例中,直接使用了 BigDL 的优化器来训练模型,它要求以 RDD 格式提供数据。以下示例中是一个 BigDL 数据结构,它可以分别使用 2个 numpy 数组、feature 和 label 构建。此处的 API 接口是 Sample.from_ndarray(feature,label),用于将标签从 1 开始转换为零。将数据随机分为序列(80%)和验证(20%)。构建模型在 Analytics Zoo 中,可以轻松地调用 Neuracf API 来构建NCF 模型只需要根据数据指定用户计数、项目计数和类编号,然后根据需要添加隐藏层,还可以选择在网络中包含矩阵分解。该模型中可以输入 BigDL 的优化器,或 Analytics Zoo中的 NNClassifier。在以下案例中,演示了如何使用 BigDL 的优化器。下载或安装 Analytics Zoo通过 pip 安装 analytics-zoo 或者下载预编译包(prebuilt package),请参考:https:/analytics-zoo.github.io/master/#PythonUserGuide/install/(也可以在 https:/analytics-zoo.github.io 主页的左侧索引里,选择 User Guide Python Install)基于显式反馈的 NCF 实现下文将描述如何建立一个神经网络推荐系统和一个基于显式反馈的 NCF。可以使用推荐系统的 API 在 Analytics Zoo 中构建模型,并使用相应的优化器来训练模型。系统(推荐系统:原则、方法和评价10)通常通过系统界面提示用户为项目提供评分,以构建和改进模型。推荐的准确性取决于用户提供的评级数量。NCF 利用多层感知器学习用户-项目的交互功能,同时 NCF 可以在其框架下表达和推广矩阵分解。includeMF(布尔型)是为用户提供的,用于构建一个具有或不具有矩阵分解的 NCF。编译模型根据特定的优化器、损失和评估指标编译模型,优化器会在训练集上尽量减少神经网络相对于其权重/偏差的损失。要在BigDL 中创建优化器,至少要指定以下参数,包括 model(神经网络模型)、criteria(丢失函数)、traing_dd(训练数据集)以及 batch size。有关创建高效优化器的详细信息,请参阅以下编程指南和优化器手册。编程指南:https:/bigdl-project.github.io/master/#Programming Guide/optimization/优化器:https:/bigdl-project.github.io/master/#APIGuide/Optimizers/Optimizer/收集日志可以通过 tensorboard 来查看摘要:预测Analytics Zoo 模型使用 model.predict(val-rdd)API 对给定的数据进行推理。返回 RDD 结果,通过 Predict_class 类返回预测标签:训练模型3736实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册在 Analytics Zoo 中,提供了 3 个独特的 API 来预测用户项目对,并为用户或给定的候选项目提出推荐:为每个用户推荐 3 个项目,在 RDD 特性中给出候选项:为每个项目推荐 3 个用户,在 RDD 特性中给出候选项:评估绘制训练和验证损失曲线:绘制准确率:宽深网络实施案例在下文中,将使用 Analytics Zoo 的推荐 API 建立一个宽度线性模型和一个深度神经网络,即宽深网络,并使用 BigDL 优化器来训练网络。宽深模型结合了记忆强度和广义化,可被用于一般大尺度回归和分类问题,其中包括突发输入特征(例如,带有大量可能特征值的类别特征)。系统环境如下:Python 2.7/3.5/3.6 DK 8 Spark 1.6.0/2.1.1/2.1.2/2.2.0(需要与用来编译 Analytics Zoo 的 Spark 版本保持一致)Analytics Zoo 0.5.0 Jupyter Notebook 4.1下载或安装 Analytics Zoo 请参见第 38 页的运行指南。初始化导入所需库初始化 NN 上下文,可以得到一个用于优化 BigDL 性能配置的SparkContext:数据准备下载并读入 movielens 1M 评级数据,并了解维度:将评级数据转换为数据帧,将用户和项目数据读取为数据帧。将标签从 1 开始转换为零:链接并转换数据。例如,性别将被用作分类特征,职业和性别将被用作交叉特征:宽深模型共享的特殊数据特征信息及其特征生成。在这里,我们将职业性别作为广泛的基础部分,将年龄和性别作为广泛的交叉部分,将流派和性别作为指标,将用户 ID 和项目 ID 用于嵌入。将数据转换为样本的 RDD,可以直接使用 BigDL 的优化器来训练模型,它要求以 RDD(sample)格式提供数据。一个示例是一个 BigDL 数据结构,其可以分别使用 2 个 numpy 数组、feature 和 label 构建。API 接口是 sample.from ndarray(feature,label)。宽深模型需要两个输入张量,一个是宽模型的稀疏张量,另一个是深模型的密集张量。创建宽深模型在 AnalyticsZoo 中,通过调用宽深 API 可以轻松构建宽深模型,仅需要根据数据指定模型类型、类编号以及特性的列信息,还可以更改网络中的其他默认参数,如隐藏层。该模型可以输入 BigDL 的优化器,或 AnalyticsZoo 的 NNClassifier。以下示例演示了如何使用 BigDL 的优化器:3938实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册训练网络,直到完成,并得到一个训练完成的模型:创建并优化训练模型:预测和推荐Analytics Zoo 模型使用 model.predict(val-rdd)API 来基于给定数据进行推理。返回 RDD 结果。Predict_class 类返回预测标签。绘制收敛曲线:在 Analytics Zoo 中,提供了 3 个独特的 API 来预测用户项目对,并为用户或给定的候选项目提出推荐:为每个用户推荐 3 个项目,在 RDD 特性中给出候选项:为每个项目推荐 3 个用户,在 RDD 特性中给出候选项:绘制精度:软硬件配置建议以上基于AI的精准营销策略模型的构建,可以参考以下基于英特尔 架构的平台,环境配置如下:硬件配置软件配置名称规格处理器双路英特尔 至强 处理器E5-2650 v4或更高基础频率2.20GHz基础频率12/24HTBIOS 默认设置(enabled 或 disabled 皆可)TurboBIOS 默认设置(enabled 或 disabled 皆可)内存384G(32G DDR4 2666MHz x12)硬盘21TBBIOS出厂设置,或后续升级的任何版本其他硬件配置 10GbE 网络带宽名称规格操作系统Ubuntu 14.04 LTS*最新支持的操作系统版本,请参考https:/analytics-zoo.github.io/Linux内核3.14工作负载Analytics Zoo based NCF,WAD,ALS model training&model inference.编译器gcc 4.8库Analytics Zoo-bigdl_0.6.0-spark_2.2.0(已含英特尔 MKL)Spark MLlib 2.2.0框架Analytics Zoo,BigDL其他软件配置 Hadoop发行版本:Cloudera Distributed Hadoop(CDH)5.12.1 Spark版本:2.2 Java 平台,标准版开发工具包(JDK)1.8应用案例中国人寿上海数据中心实现寿险业务再发现 背景作为保费收入超过 4,000 亿元人民币的超大型保险企业旗下重要一员,中国人寿上海数据中心正力图建设先进 AI 能力,助力业务人员高效地向不同客户推荐个性化的险种,从而解决因业务规模和险种规模不断扩大带来的问题。此前,营销人员只能通过个人从业经验和目前公司的主推险种,来给客户推荐,而很少考虑到客户自身的需求。这样就带来两个问题,首先是客户的需求并没有得到真正满足;其次是可能会导致撤单或退保行为,为公司营收造成损失。营销人员在进行险种推荐时,缺乏良好的方法论是造成这一问题的主要原因。尤其是对于没有经验的年轻营销员来说,更容易产生误导式的推销。因此,中国人寿上海数据中心计划以数据为支撑,构建基于 AI 的推荐模型,支持营销人员通过更有效率地进行险种推荐,提升客户满意度。方案与成效中国人寿上海数据中心业务推荐系统平台架构如图 2-3-5 所示。该平台基于 Analytics Zoo 搭建,其中大数据平台采用了 CDH 5.10 版本,通过 Sqoop 将业务系统中的数据导入HDFS,数据清洗和部分预处理使用 Hive/Impala 进行,也可以使用 Python、Scala 进行数据预处理,然后把处理好的数据存入 IMPALA 或者 HIVE。然后,使用 Spark On Hive 以结构化形式读取数据,调用 BigDL 进行模型训练。数据预处理模型训练数据存储IMPALAHIVEBIGDLSPARKHDFSSQOOP业务系统图 2-3-5 中国人寿上海数据中心业务推荐系统平台架构4140实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册1.数据的预处理过程:使用 HiveContext,直接以 SQL 的方式从 Hive 中读取数据;2.数据读取后,将存储为 Spark 中的 DataFrame 对象;为了使数据适用于神经网络,通过 Spark 中的 PipeLine 接口,使用 String indexer 将数据映射为离散数据;3.取得(user,productWithAmnt)这样的数据组后,进行去重操作,并为每条数据加上用户购买偏好评价,例如将购买过的评价 rate 设为 1;4.进行训练集与测试集的划分,并通过 Spark API 在训练数据中加入负面数据;5.最后,训练集将会用于数据的训练,测试集用于对模型训练结果进行验证。基于深度学习的中国人寿上海数据中心业务推荐系统主要采用了 NCF 模型,如前文 NCF 模型相关介绍所述,模型分为左右两个部分,左侧的是通用矩阵分解,对输入向量进行乘法运算;右侧的模型是多层神经网络,将输入的 user 和 item 的特征拼接在一起,进行多层的变换,而后在上层将两个模型的结果整合,并通过 sigmoid 方法将这些特征转化成为最终的用户倾向值。在本案例中,NCF 参数设置为:Embedding 初始化为均值是 0,方差为 0.01 的正态分布;Batch Size 设为 2800;调优方法为 Adam;模型的输出是每个用户对每个险种的评分,通过对这些评分进行逆序排序,给用户推荐得分较高的前几个险种。这些步骤通过将平台构建在 Analytics Zoo 上,借助其具备的大量高级分析流水线 API 和特性,对 Spark DataFrame、MLPipelines 等提供有力支持,有效提升整个流程的工作效率。中国人寿上海数据中心通过两个主要的指标对推荐系统的效果进行了评估,两个指标分别是命中率(Hit Rate)和归一化折扣累积增益(Normalized Distributed Cumulative Gain,NDCG)。在本案例中,如图 2-3-7 所示,中国人寿上海数据中心推荐系统的 Hit Rate 为 99.8%,NDCG 达到了 0.66,这一结果超过了预期的数值,因此可以认为,该推荐系统具有良好的效果。图 2-3-7 中国人寿上海数据中心推荐系统效果的评估结果如图 2-3-6 所示,推荐模型中的基本处理流程分为以下步骤:图 2-3-6 中国人寿上海数据中心推荐模型基本处理流程HiveContextStringIndexerPipeLineSaveAsTableFilterActiveUserwith Rate 1.0StandardScalerNCF ModelTrained ModelResultTrainTestuserproductWithAmntrateUserBasedRandomSplitNegativeSamplingcount as RateQuantileDiscretuzeruserproductWithAmntselect*fromtable 与万事达卡其他企业信息化模块兼容性差,例如无法利用现有的 ETL、数据仓库和其他分析相关的数据技术与工具集;数据需要在不同模块之间频繁复制,I/O 性能成为瓶颈。为 应 对 这 些 挑 战,万 事 达 卡 与 英 特 尔 开 展 合 作,引 入Analytics Zoo“大数据分析 AI”平台,构建基于深度学习的推荐算法。基于最新的研究和行业实践,方案选择了 NCF 和宽深 WAD 模型作为推荐的两个候选模型,来自 Analytics Zoo 的 Keras 风格 API 也被用于基于 Python 和 Scala 构建深度学习模型。在模型构建完成后,万事达卡利用 Analytic Zoo 的服务 API,已经将深度学习和模型服务流程嵌入到基于 Apache NiFi 构建的企业数据流水线中。为了验证基于 Analytics Zoo 构建的深度学习推荐算法,万事达卡对 Spark 机器学习和 Analytics Zoo 的 BigDL 模型进行了基准测试,前者选择 Spark MLlib 方法的交替最小二乘法(Alternating Least Squares,ALS)模型。深度学习模型与ALS 模型方法比较框图如图 2-3-8 所示。图 2-3-8 将深度学习模型与 ALS 模型进行比较特征工程 机器学习(MLlib)深度学习Anylatics Zoo Keras数据准备大数据架构(Spark 集群)ALS 模型深度学习 NCF 模型深度学习WAD 模型 不同的合格消费者:675,000 用于基准的目标商家(优惠或广告系列):2,000 已知交易:14 亿(原始数据 53 GB)消费时间:12-24 个月作为训练,1-2 个月作为验证万事达卡推荐系统的深度学习模型与 ALS 模型的对比效果主要基于以下四个指标:1.ROC 曲线下面积(ROC AUG)2.精确度与召回率曲线下面积(PR AUC)3.精准度与召回率4.每位客户的前 20%精准度从验证结果来看,深度学习模型比 ALS 模型有显著的改进,如下表所示:表 1 深度学习模型相比 ALS 模型的改进结果NCF 模型WAD 模型对比ALS,召回率改进29&%对比ALS,精准度提升18!%对比ALS,前20%精准度增长14%小结金融作为一个注重数据和流程的传统行业,在多年的运作中积累了大量数据,而通过AI应用,可以从中发掘更多的价值,辅助开展各类业务,并为终端用户提供更多的个性化服务,提升用户体验。利用Analytics Zoo提供的端到端AI与大数据分析能力,以及其中大量的模型和API,金融企业得以快速地利用自己的数据资源,在其既有大数据平台,例如Hadoop、Spark上构建基于NCF、WAD等深度学习模型的推荐系统,而无须从头建设,可大幅减少金融企业建设业务推荐系统的成本与时间。在中国人寿上海数据中心、万事达卡等案例中,解决方案都采用了英特尔 至强 处理器/英特尔 至强 可扩展处理器为基础的硬件平台。在未来,用户还可以选择性能更强、在AI领域有着更多优化方法的第二代英特尔 至强 可扩展处理器等更新一代硬件产品,来构建性能更出色、AI训练/推理能力更强劲的解决方案。万事达卡推荐服务优化 背景与挑战作为全球领先的支付解决方案提供商,万事达卡(MasterCard)拥有 26 亿张信用卡,年交易量达 560 亿笔,并正通过将 AI集成到其平台来更好地为客户服务。但在这一过程中,万事达卡也遇到了如下挑战:部署时间长,大量的深度学习模块均需要在万事达卡既有系统上重建;方案配置与成效对比方案中,采用过去三年万事达卡从特定渠道收集的数据集,包括了:4342实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册用 AI 加速保险行业影像分析保险行业中的影像分析保险行业中的各个险种都对影像分析有着巨大需求。例如,车险的投保和出险,需要被投保人在投保系统中上传身份证、行驶证、车辆合格证等证照,再由后台工作人员进行审核。常用的各类证件、签章多达数十个,全部采用人工审核不仅费时费力,也很容易出现错误。又如,日益受到关注的健康险,也需要相关核保人员判读被保险人的 X 光、CT 等影像,进而对被投保人的近期和远期健康状况做出准确评估。增强 AI 能力,提升用户体验目前,包括人脸检测识别、图像分割等一系列基于影像分析的 AI 应用,正在保险行业中得到越来越广泛的应用。将 AI 影像分析应用嵌入到保险业务经营、风险管理、智能客服以及内部控制的全流程,能够有效捕捉风险、优化业务流程,实现保险行业的 AI 赋能。例如在上述的车险、健康险处理中,通过AI影像分析,结合NLP技术,可以快速筛选出必要的理赔材料,自动提取审核信息,然后通过核赔规则以及风控模型给出理赔金,自动、高效完成理赔。针对该领域的AI应用需求,英特尔在人脸检测、比对、识别、活检等各个模块上都有相应的算法和模型可供参考。例如,由英特尔推出的OpenVino 工具套件已经提供了几十个预训练好的AI模型,让用户无需从零开始,即可立即构建诸如人脸检测识别等AI应用。*更多OpenVino 工具套件的技术细节,请参阅本手册技术篇相关介绍。再以人脸活体检测为例,FeatherNet 是英特尔与华中科技大学合作,针对人脸识别反欺诈应用研发的一个轻量级卷积神经网络(Convolutional Neural Networks,CNN)。与传统CNN 相比,它主要有两个特点:首先是以流模块(Streaming Model)替代了全局平均池化(Global Average Pooling,GAP),GAP 虽然在许多深度神经网络中可用于降维和防止过拟合,但由于其缺乏区域权重区分的能力,因此在人脸识别场景中,反而容易降低准确率。而 FeatherNet 中加入了含有DWConv 层的流模块来替代 GAP,在准确率上获得了大幅提升。其次,FeatherNet 针对多模态数据的融合,构建了一种新的融合分类器,能够把从多模态数据中学习到的模型进行组合和级联,用来帮助模型提升准确率13。13 有关 FeatherNet 技术与性能描述请详见 https:/arxiv.org/pdf/1904.09290.pdf42实战篇加速AI影像分析能力推动AI赋能保险行业基于 ResNet 的深度学习方法 ResNet 简介深度神经网络是目前 AI 影像分析中应用最广泛的网络模型之一,在经典的深度神经网络中,网络层数越多,能够提取到的不同层次的特征越丰富。同时,更深的网络能够使得提取到的特征更抽象,更富有语义信息。但随着深度不断增加,退化(Degradation)问题也随之产生,即准确率会先上升直至饱和,而继续增加深度,却导致准确率逐渐下降。残差网络(Residual Net,ResNet)可以有效地解决这一问题。如图 2-4-1 所示,在 ResNet 中可以构成多个残差块结构,其输入与期望输出相等,构成一种恒等映射的关系。这样的结构,可以让深度神经网络在不断增加深度的同时保持准确率。现在,ResNet 已经被广泛地使用在图像识别等 AI 应用场景。模型实现面向英特尔 架构优化的Caffe,为RESNET50网络提供了优化版本的caffe prototxt文件,位于:使用 dummy 数据的 prototxt 文件位于:xF(x)F(x) xrelurelu权重层相同的 x权重层图 2-4-1 ResNet 残差块构造4544实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册 面向英特尔 架构优化的 Caffe 的内存优化14 默认情况下,面向英特尔 架构优化的Caffe为每个层都分配了单独的输出缓冲区。由于输出缓冲区使用不同的内存地址,而不是在本地内存缓存中,在层转发中的许多内存查找都会导致潜在的缓存未命中。因此,循环缓冲区共享机制,即跨层复用预先分配的内存缓冲区的方法,在面向英特尔 架构优化的Caffe中可被用于降低缓存丢失率。在编译阶段,通过图遍历来标识输出缓冲区的最大尺寸。在执行阶段,一旦一个层完成执行,该层的内存缓冲区将被释放并放回循环队列以供重用。同时,在多实例执行时,也可以利用权重共享技术,来为系统提供的更好的性能表现。权重共享的机制是通过在同一个NUMA 节点内的多个进程之间,共享权重缓冲区来提高处理器三级缓存(L3 Cache)和内存之间的缓存命中率。利用 NUMA 特征来控制处理器计算资源的使用在数据中心,通常会引入NUMA技术使众多服务器像单一系统那样运转。由于处理器访问它自己的本地存储器的速度比非本地存储器快一些。为了在这样的系统中获得更好的计算性能,需要通过一些特定指令来加以控制。numactl就是用于控制进程与共享存储的一种技术机制,它是Linux系统中广泛使用的计算资源控制方法。面向英特尔 架构优化的Caffe在运行推理时,也可以使用numactl的命令来提高计算的效率,提升吞吐量。在英特尔 至强 处理器平台上优化代码运行效率 面向英特尔 架构优化的Caffe的安装基于面向英特尔 架构优化的Caffe 1.1.6的安装方法如下:把面向英特尔 架构优化的Caffe的Python目录添加到 Pythonpath 这个环境变量:14 详细技术描述请参阅:https:/arxiv.org/abs/1805.08691具体使用方法如下所示:在执行时,只使用了处理器#CPU0 中的 0-19 和 40-59 核,以及与处理器#CPU0 对应的近端内存。那么相应的,还可以在处理器#CPU1 上面运行类似的命令:将数据规模限定为 128 128 64 大小的三维数据,设Batch Size=1,估算卷积网络的内存负载。在计算参数所占内存时需要注意考虑 bias,故数据所需内存负载为:313.7864M 4Bytes=1255.1456MB 1.23GB(注意这里只是前向计算过程,后向计算过程大概需要两倍于此的内存)权值所需内存负载为:77.44695M4Bytes=309.7878MB 0.303GB;整个网络模型所需的内存负载大小约为:1.23 0.303 1.53GB;如果增加一倍的内存临时储存,就需要:3.06GB。此外,很多代码囿于并行度难以大幅提高,如果把这些任务在更少的处理器核心上面运行,效率会更高。所以,如果用numactl 的方式绑定处理器核心来运行更多的实例,往往可以获得更高的吞吐量。尽管延时可能会有所上升,但通常还是会在应用可以接受的范围内。基于 3D V-Net 分割网络的深度学习方法V-Net 采用端到端训练的完全卷积网络来处理 3D 影像数据,完成影像分割工作。网络模型不再对数据进行切片,而是使用 3D 卷积网络层,直接处理三维数据。此外,它还可利用基于相似系数定制的目标函数指导网络训练,来优化训练、提升速度。图 2-4-2 V-Net 卷积神经网络略图卷积层2x2 过滤器,步长:2解卷积层2x2 过滤器,步长:2细粒度特征转发使用 5x5x5 过滤器,步长:1元素总和非线性 PReLu向下卷积向下卷积向下卷积向下卷积向下卷积向上卷积向上卷积向上卷积向上卷积向上卷积Layer(batch-size=1)Data(M)Weight(M)Input1.0485760Conv1Conv3D1116.777220.002016Conv3D1216.777220.032016Conv3D1316.777220.032016Pool1Conv3D4.1943040.004128Conv2Conv3D214.1943040.128032Conv3D224.1943040.128032Conv3D234.1943040.128032Pool2Conv3D1.0485760.016448Conv3Conv3D311.0485760.512064Conv3D321.0485760.512064Conv3D331.0485760.512064Pool3Conv3D0.2621440.065664Conv4Conv3D410.2621442.048128Conv3D420.2621442.048128Conv3D430.2621442.048128Pool4Conv3D0.0655360.2624BottomConv3D510.0655368.192256Conv3D520.0655368.192256Conv3D530.0655368.192256Deconv4Deconv3D410.5242880.524544rConv3D410.5242888.192256rConv3D420.5242888.192256rConv3D430.5242888.192256rConv3D440.5242888.192256Deconv3Deconv3D312.0971520.262272rConv3D312.0971522.048128rConv3D322.0971522.048128rConv3D332.0971522.048128rConv3D342.0971522.048128Deconv2Deconv3D2111.010050.0656rConv3D2111.010050.512064rConv3D2211.010050.512064rConv3D2311.010050.512064rConv3D2411.010050.512064Deconv1Deconv3D1133.554430.016416rConv3D1133.554430.128032rConv3D1233.554430.128032rConv3D1333.554430.128032rConv3D1433.554430.128032SoftmaxConv3D2.0971520.000066Output2.0971520总计313.786477.44695同时,英特尔 架构处理器针对众多流行 AI 框架,诸如 BVLC Caffe、TensorFlow、Apache MXNet 等,进行了大量的优化工作。以面向英特尔 架构优化的 Caffe 为例,其相较于 BVLC Caffe,让英特尔 至强 可扩展处理器的优势得到进一步释放15,实现了 1 12 的效果。面向英特尔 架构优化的 Caffe 方法与代码面向英特尔 架构优化的 Caffe 通过在层内部调用英特尔 MKL-DNN 的 API 来调用优化的指令集,大幅提升程序的指令并行化效果。而英特尔 MKL-DNN 会自动调用英特尔 至强 可扩展处理器内置的英特尔 AVX-512指令集以及第二代英特尔 至强 可扩展处理器内置的深度学习加速技术(VNNI 指令集)。*更多第二代英特尔 至强 可扩展处理器以及 VNNI 指令集的技术细节,请参阅本手册技术篇相关介绍。层融合层融合(Layer Fusion)技术,例如 BN Scale,Conv Sum,Conv Relu,BN InPlace 以及 Sparse Fusion 等,可用来提升深度学习的性能。层融合技术与面向英特尔 架构优化的Caffe 框架融合,使 ResNet 等卷积神经网络在英特尔 至强 可扩展处理器平台上进行 2D 图像推理时,性能可媲美甚至超越现有平台。同时,它们还对可从 VNNI 指令集获得优化支持的 INT8 精度推理提供良好的支持,且框架提供的 calibration等工具可以帮助用户将神经网络无缝切换到 INT8,进而实现更大幅度的性能提升。一项数据表明,与使用 BVLC Caffe 相比,面向英特尔 架构优化的 Caffe 运行在英特尔 至强 可扩展处理器上的同时加入层融合技术,并使用 ResNet50 卷积神经网络,在同等测评环境中执行 AI 推理,如图 2-4-3 所示,单位时间推理性能可提升达前者的 51 倍之多,推理时长则缩短至前者的 4.7。英特尔 架构带来的性能提升 英特尔 至强 可扩展处理器的 AI 增强特性具有创新微架构的新一代英特尔 至强 可扩展处理器具有更多的内核、更高并发度的线程和更充沛的高速缓存。同时,它集成的大量硬件增强技术,特别是英特尔 AVX-512等技术,能够为 AI 推理过程提供强劲的并行计算能力,让用户获得更好的深度学习效果。15 针对英特尔 架构优化的 Caffe 官方网站:https:/ 该数据援引自Highly Efficient 8-bit Low Precision Inference of Convolutional Neural Networks with IntelCaffe一文:https:/arxiv.org/pdf/1805.08691.pdf,测试配置如下:卷积模型:ResNet50,硬件:AWS single-socket c5.18xlarge。BLVC Caffe面向英特尔 架构优化的Caffe FP32基准BatchNorm层展开后融合掉融合的卷积层和Relu层融合的卷积层和Element-wise 求和层消除稀疏性40030020010006.25312图 2-4-3 面向英特尔 架构优化的 Caffe 在英特尔 至强 可扩展处理器上加入优化方案后,在推理吞吐量和推理时长性能上与 BLVC Caffe 对比*更多面向英特尔 架构优化的Caffe的技术细节,请参阅本手册技术篇相关介绍。BLVC Caffe面向英特尔 架构优化的Caffe FP32基准BatchNorm层展开后融合掉融合的卷积层和Relu层融合的卷积层和Element-wise 求和层消除稀疏性6040200131.8推理时长(豪秒)10.77.87.576.24746实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册软硬件配置建议以上基于AI的影像分析模型的构建,可以参考以下基于英特尔 架构的平台,环境配置如下:硬件配置中国平安应用案例背景健康险是商业保险的重要险种之一。随着人们对大病医疗重视程度的日益提高,该险种的保费规模、产品种类以及投保范围等方面也在逐步拓展。来自中国银保监会的统计数据显示,截止到2018年底,健康险业务原保险保费收入达5448.13亿元,同比增长 24.12%,占全部原保险保费收入的 14.33。与更为成熟的保险市场相比,这一数字仍有巨大的提升空间。以美国为例,其商业健康险在保费总额中的占比为 40%左右18。由此也可以预见健康险在中国巨大的市场潜力。但健康险市场在快速发展的过程中,也正受到一些短板的制约。与其他险种相比,健康险的标的物是被保险人的健康。保险公司需要对被保险人的疾病状况和意外伤害进行准确、明晰的评估,以降低健康险经营风险、控制赔付率。然而,这一工作的技术难度、管理难度远比其他险种来得复杂,需要相关工作人员具备极专业的病理知识和实践经验。医学影像不仅是医疗机构最常用的诊疗依据,也是保险机构判断被保险人健康状况的重要依据。虽然医学影像设备已在各级医院中得到广泛的使用,但医学影像的精准判读却面临挑战。读片医生不仅需要有临床医学、医学影像学等方面的专业知识,也必须熟练掌握放射学、CT、核磁共振、超声学等相关技能,同时,还需要具备运用各种影像诊断技术进行疾病判断的能力。因此,通常只有经验丰富的影像科医生才具备准确判读的能力。现在,利用先进的 AI 技术来协助进行医学影像判读,不仅可对图像实施有效的分割和定位,而且可通过对图像的深层次分析,察觉肉眼难以发现的细微病理特征,从而提升各类恶性疾病的早期发现概率。因此,基于 AI 的 2D/3D 医学影像训练与推理,在有效帮助各大医疗机构提升诊疗效率的同时,也可为保险机构进行精准的健康评估提供有效手段。解决方案在机器学习或深度学习的概念中,由训练得到的 AI 模型被应用于新的数据,这一过程被称为推理。在医学影像判读中,利用训练得到的模型,被用于推理判断病理特征。因此,推理效率的高低直接关系到医学影像判读的效率。本案例中,平安正利用前文介绍的在2D图像分类、检测及定位上有着非常优异特性的ResNET和前沿的3D图像分割模型V-Net分割网络,以及面向英特尔 架构优化的Caffe等深度学习框架,对2D/3D医学影像进行AI推理。如图2-4-5所示,平安医学影像应用的推理过程主要分为四个阶段:在前处理阶段,系统会进行医学影像切片、ROI区域选取、数据增强、归一化输入准备等操作;在推理引擎中,系统软件配置图 2-4-4 近年来国内健康险业务占比趋势17 该数据援引自中国银保监会官网:http:/ 该数据援引自媒体报道:http:/ 至强 金牌6148 处理器或更高基础频率2.40Ghz核心/线程20/40HTOnTurboOn内存192G(16G DDR4 2666MHz x12)BIOS1.46名称规格操作系统Ubuntu 16.04Linux内核3.10.0-693.21.1.el7.x86_64工作负载Resnet50/VNet基础频率Gcc 4.8.5深度学习加速库英特尔 MKL-DNN 最新版本深度学习框架面向英特尔 架构优化的Caffe发布版原保险保费总收入(亿元)健康险业务收入(亿元)健康险业务占比2013 年4000016.00.00.00.00%8.00%6.00%4.00%2.00%0.00500030000250002000000002014 年2015 年2016 年2017 年2018 年会利用ResNet网络和3D V-Net分割网络,运行在面向英特尔 架构优化的Caffe框架上,对输入的医学影像进行推理操作,并得到处理结果;在后处理阶段,系统会根据需求,进行多种形态学处理、执行预测结果合并等操作;在最后的应用层处理阶段,系统能以XML等方式,对外输出和显示结果。前处理推理引擎后处理应用层处理图 2-4-5 平安医学影像 AI 推理流程利用 ResNet 网络和 3D V-Net 分割网络,平安 AI 团队开展了高效的 AI 推理工作,并取得可喜成果。如图 2-4-6 所示,在使用这些领先技术对老年黄斑变性等眼科疾病的光学相干断层扫描(Optical Coherence tomography,OCT)影像进行病灶分割后,通过结果可以清晰地发现,病患的视网膜内积液(黄线圈定部分)、视网膜下积液(红线圈定部分)以及视网膜下高反射物质(紫线圈定部分)均能被智能应用清晰地标注出来。过去需要经验丰富的医生费时费力去完成的工作,现在通过 AI 应用,仅需数秒就可以完成。通过实验室以及临床的反复训练和推理,平安智能医学影像分析已在多个应用场景中获得骄人战绩。例如在肺结节检测上,肺结节的早期确认是降低肺癌死亡率的良好手段,它可以通过低剂量CT检查来筛查高风险人群,从而及早获知风险,但由此带来的海量 CT 影像也大大迟滞了筛查的效率,而利用AI 来做肺结节检测,可以大大提升筛查的效率。在 2018 年初的肺结节分析(LUng Nodule Analysis,LUNA)评测中,平安不仅凭借“平安肺结节智能读片技术”荣获全球第一,更分别以 95.1%和 96.8%的精度,刷新了“肺结节检测”和“假阳性筛查”的世界纪录19。另一方面,高效的医学影像分析也可以准确地分析出所核实的保险是否是骗保的行为,从而大大提升了平安保险业务的反欺诈能力。图 2-4-6 基于智能应用实现的 OCT 病灶分割结果小结基于AI的影像分析能够有效助力金融机构提高业务办理效率、防范欺诈风险并改善用户体验。通过 Caffe、TensorFlow 等深度学习框架,此类应用已经在保险行业的智能核保流程中,针对病理影像判读,票据处理等场景获得了广泛的使用。将英特尔 至强 可扩展处理器与针对英特尔 架构优化的深度学习框架引入这些智能应用中,不仅可以有效提升智能应用的推理效率,而且能够以更高的性价比增强应用的落地能力和可部署性,加速AI在保险行业的应用。19 数据援引自 Luna 官网:https:/luna16.grand-challenge.org/Results/4948实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册实战篇维护数据安全,打破数据孤岛 为AI应用提供更丰富数据源借助联邦学习方法,探索多源数据在 AI 中的应用AI 与联邦学习 多样性数据集对于 AI 发展的重要意义得益于算法、算力和数据的不断发展,人工智能(Artificial Intelligence,AI)技术也在近十年间获得巨大突破,并逐渐落地于金融、医疗、制造等行业。这其中,训练数据集的规模和质量,正深刻影响着AI性能的优劣。如图2-5-1所示,研究数据表明,用户训练数据集规模越大,所获得的训练效果也更佳20。同时,一些研究也表明,更大的训练数据集,也能有效解决金融行业 AI 训练中常见的数据不平衡等问题 21。因此可见,通过结合日趋成熟的算法、以及日渐丰沛的算力,寻求更大规模与更高质量的数据集,将成为左右 AI 效能的重要因素。但在实际中,AI 训练所需的海量数据集往往分布在不同企业、不同部门所属的数据源中,并出于数据安全性的考虑而彼此割裂。这种数据孤岛现象,显然会带来 AI 训练在金融行业中的训练效果不佳的问题。传统上,多个金融企业或部门想要共同训练模型,需要利用分布式系统这类模式,将数据整合到其中一方,但这种简单的数据整合,既无法保证数据交互的安全性,也极大增加了数据隐私泄露的风险。数据安全和隐私日益受到人们的关注,同时,法律法规在此方面的保护也越来越细致和成熟。例如,在 2019 年 5 月由国家互联网信息办公室会同相关部门研究起草的数据安全管理办法(征求意见稿)中,就对数据处理使用和数据安全监督管理提出了明确的意见要求。图 2-5-1 更大训练数据集带来更好训练效果图 2-5-2 联邦学习基本架构20数据与图表援引自 De Berker,A.,Predicting the Performance of Deep Learning Models,https:/ 结论援引自 Juba,B.and H.S.Le,Precision-Recall Versus Accuracy and the Role of Large Data Sets,Association for the Advancement of Artificial Intelligence,2018.现在,对多源海量高质量训练数据的渴求,和对数据安全的担忧这一矛盾,无疑已成为阻碍 AI 技术在各行各业特别是金融行业的发展与应用落地的巨大挑战。为有效应对这一挑战,2016 年,来自 Google AI 的研究人员提出了针对数据孤岛问题的用于训练深度学习网络的联邦学习(Federated Learning)方法,来满足 AI 训练可以在保证隐私和信息安全的情况下进行跨用户,跨部门、跨企业的数据使用。主流联邦学习方法目前主流的联邦学习的基本流程如图 2-5-2 所示,以 A、B 两个金融企业对一个风控模型实施联合训练的场景为例,企业A、B 的业务系统各自拥有大量的用户信用卡刷卡记录数据,出于数据安全考虑,这些高度敏感数据存在于各自的数据中心中,并通过防火墙实施了高等级隔离,任何直接的数据访问都会被拒绝。通过纵向联邦学习的方式来训练这两组数据源,首先要进行数据对齐。由于不同数据源的数据样本并非雷同,因此,如图2-5-2 中左半部分所示,联邦学习系统需要通过加密的数据实体对齐技术,在 A、B 不公开各自数据的前提下确认双方的共有数据样本(即共同用户),以便联合这些数据的特征进行建模。通过横向联邦学习的方式来训练这两组数据源,也首先要进行特征对齐。由于不同数据源的特征维度并非雷同,因此,还是如图 2-5-2 中左半部分所示,联邦学习系统需要通过加密的数据实体对齐技术,在 A、B 不公开各自数据的前提下确认双方的共有特征维度(即共同特征),以便联合所有数据的共同特征进行建模。准确率错误率训练数据量训练数据量0050000500005000000025000250003000030000350003500040000400000.50.40.30.20.10.5750.5500.5250.5000.4750.4500.4250.400485150实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册在确定共有数据样本及共同特征后,A、B 双方就可利用这些样本进行模型训练。为保证训练过程中的数据保密性,如图2-5-2 中右半部分所示,需要借助协同方 C 进行加密训练。加密训练过程分为以下四步:第一步:协同方 C 把公钥分发给 A 和 B,用以对训练过程中需要交换的数据进行加密;第二步:A 和 B 之间互相以加密的形式交互用于计算梯度的中间结果;第三步:A 和 B 分别基于加密的梯度值进行计算,并将结果汇总给协同方 C。协同方 C 通过汇总结果计算总梯度值并进行解密;第四步:协同方 C 将解密后的梯度分别回传给 A 和 B,A 和 B再根据梯度更新各自模型的参数。上述训练迭代步骤将一直持续至损失函数收敛,训练过程完成并得到最终的模型。可以看出,与一般的分布式机器学习/深度学习方法相比,联邦学习方法具有以下特征:数据不脱离本地:参与者利用自身拥有的数据训练全局模型;每个参与方都参与学习过程,模型损失可控;训练过程中兼顾隐私和安全,参与各方能够在不披露底层数据及其加密形态的前提下共建模型。同时,联邦学习的另一重要特点,是其具有良好的效果激励机制,即,建立模型以后,模型的效果会在实际应用中表现出来,并记录在永久数据记录机制(如区块链)上。提供数据多的机构所获得的模型效果会更好,模型效果取决于数据提供方对自己和他人的贡献。这些模型的效果在联邦机制上会分发给各数据源,并继续激励更多数据源加入。借由以上特点,联邦学习为各行业 AI 应用提供了跨企业、跨部门的数据使用方式和模型构建方法,实现各数据源的私密数据不出本地,只通过加密机制下的参数交换,在不违反数据隐私法规的情况下建立学习模型优化机制。Google 的联邦学习源码可参考:https:/www.tensorflow.org/federated/正如前面例子的描述,联邦学习不只有一种方式。根据数据集的不同,联邦学习可以分为横向联邦学习(Horizontal Federated Learning)、纵 向 联 邦 学 习(Vertical Federated Learning)以及联邦迁移学习(Federated Transfer Learning)三种主要方式。其中,横向联邦学习是在不同数据集的用户特征重叠较多,而用户重叠较少的情况下,将数据集按用户维度切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。例如,在同一家商业银行中,来自不同分行的用户的同一用户数据,就可以按照横向联邦学习方式进行训练。纵向联邦学习,是在不同数据集的用户重叠较多而用户特征重叠较少的情况下,将数据集按照特征维度切分,并取出双方用户相同、而用户特征不完全相同的那部分数据进行训练。典型场景例如同一金融集团旗下,同一批用户在保险业务和信用卡业务中的数据,就可以按照纵向联邦学习方式进行训练。而联邦迁移学习是在用户和用户特征重叠较少的情况下,不对数据进行切分,而利用迁移学习的方法来完成数据联合训练。联邦学习方案在金融行业的应用联邦学习从诞生伊始,就获得用户的巨大关注,并在行业用户的大力推动和不断实践下,衍生出大量行业解决方案。金融行业虽然一贯重视信息技术的发展,并在长期的经营中积累了丰厚的业务数据,但金融行业集团化、规模化经营的方式,以及金融数据的高度敏感性,也造成部门与部门之间,分公司与分公司之间,乃至金融企业与外部企业之间的天然数据孤岛。在金融企业纷纷将智能风控、精准营销、反欺诈等 AI 应用作为其业务转型的重要引擎,联邦学习也日渐成为金融行业有效维护数据安全、打破数据孤岛,为 AI 应用提供更丰富数据源的有力抓手。由上节的联邦学习流程我们可以得知,在金融企业利用联邦学习方法,聚合多源数据实施 AI 模型训练的过程中,AI 模型、数据或过程参数需要通过网络在各个数据节点中进行传输和交互。众所周知,数据的暴露面越大,其所面临的安全风险也越高。因此,无论是各节点中的硬件设施、操作系统等,还是路由器、网关等网络设备受到“污染”,都有可能带来数据泄露和被篡改的安全风险。例如,黑客可能通过在网络转发设备上安装嗅探器(Sniffer)来截取数据报文,也可能利用冷启动(Cold Boot)攻击方式来读取服务器重启后的数据残留,或者直接通过内存总线窥探、内存篡改等方法攻击内存中的数据。形形色色的攻击方法令系统防不胜防。而要构建自下而上、涵盖软、硬件和操作系统的安全防护机制,不仅会带来巨大的资源消耗,增加用户的总拥有成本(Total Cost of Ownership,TCO),实际防护效果也未必尽如人意。因此,企业构建联邦学习系统的最核心的环节,是为用户打造高效可信的数据共享方式。目前,基于硬件可信执行环境(Trusted Execution Environment,TEE)技术的可信计算解决方案越来越受到金融行业的青睐。其核心概念为,以第三方硬件为载体,为不同的数据源提供安全可信的环境。如图2-5-3 所示,是采用可信执行环境(TEE)之后建议采用的联邦学习架构。如图所示,来自 A、B 不同数据源的数据,可以在上方由硬件创建的 TEE 环境中进行共享和模型训练。作为 TEE 方案技术实现的典型代表,英特尔 软件防护扩展(Intel Software Guard Extensions,英特尔 SGX)技术通过在特定硬件(例如内存)中构造出一个可信的“飞地”(Enclave),如图 2-5-4 所示,使数据和应用程序的安全边界仅限于飞地本身以及处理器内,同时,其运行过程也可不依赖于其他软、硬件设备。这意味着,数据的安全保护是独立于软件操作系统或硬件配置之外,即便在硬件驱动程序、虚拟机乃至操作系统均受到攻击破坏的情况下,也能有助于防止数据泄露。此外,作为硬件级的安全技术,SGX/TEE 的技术方案具有其他技术所不可比拟的高效率,其对应带来的经济性和实用性是企业构建联邦学习系统做方案选择时最看重的因素。现在,英特尔正率先与众多金融领域合作伙伴一起,在安全可信的环境中,利用多源数据协同实施 AI 训练。这一探索现在已在实践中取得了丰硕的实践成果,并在众多项目中赢得了用户的良好反馈。图 2-5-3 TEE 方案架构图 2-5-5 被实施内部攻击的应用程序图 2-5-4 英特尔 SGX 技术以可信“飞地”来确保数据安全英特尔 SGX 技术 英特尔 SGX 技术简介英特尔于 2013 年推出的英特尔 SGX 技术,是通过一组新的指令集扩展与访问控制机制,实现不同应用程序间的隔离运行,从而增强应用程序代码和数据的安全性,为它们提供更强的保护性来防止信息泄漏或被篡改。传统上,数据的隐私保护和安全防护大都是工作在操作系统或软件层面,但是当操作系统或软件也受到了“感染”时,数据的安全性就变得岌岌可危。如图 2-5-5 所示,虽然应用程序可以通过安全扫描,防火墙等对来自外部黑客或应用程序的攻击进行防护,但是恶意软件、恶意代码如果利用操作系统漏洞,就可以绕过这些防护,直接攻击关键的隐私数据。而英特尔 SGX 技术的特性,是允许开发人员可将敏感信息或应用程序置于飞地中。飞地是在特定硬件(例如内存)中划出的,具有更强安全保护的执行区域,其不依赖于固件和软件的安全状态,拥有基于硬件的机密性和完整性,因此可以帮助系统阻止来自更高权限进程的访问。因此,英特尔 SGX 可以为用户提供以下主要特性:a)增强的保密性和完整性如图 2-5-6 所示,飞地工作在隔离的硬件环境(支持 SGX 技术的英特尔架构处理器、内存)中,并通过密钥对应用系统和数据实施鉴权,即使在操作系统(OS)、BIOS 或虚拟机(VMM)等中存在高权限恶意软件或恶意代码,也很难对数据实施攻击;隐私数据漏洞恶意软件恶意代码攻击黑客攻击防护防护TEE 环境TEE 飞地TEE 环境TEE 环境数据源 A数据源 B加密加密原始数据原始数据加密认证模块认证模块认证模块认证模块加密模型训练应用程序应用程序5352实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册图 2-5-6 SGX 具有增强的保密性和完整性图 2-5-8 基于英特尔 EPID 的远端鉴权图 2-5-9 基于英特尔 SGX DCAP 的远端鉴权图 2-5-7 SGX 具有更小的安全攻击面b)更小的安全攻击面如图 2-5-7 所示,SGX 技术将应用程序与敏感数据限定运行在受保护的硬件飞地中,杜绝了传统上恶意程序可能从硬件、虚拟机和操作系统发起的攻击,更小的攻击面带来了更高的安全性;API 函数库 文档 样本源码 工具您可以访问以下链接获得最新的英特尔 SGX SDK:基于 Windows 系统的 SDK 下载地址https:/ Linux 系统的 SDK 下载地址https:/01.org/intel-software-guard-extensions/downloads要使用英特尔 SGX 技术,用户需要首先确认当前使用的CPU 支持该技术,并且在 BIOS 菜单中确认 SGX 已设为“enabled”状态。然后,用户可参阅 SDK 附带的安装指南来完成 SDK 安装过程。在不支持英特尔 SGX 的硬件平台上,用户也可以安装 SDK并使用模拟模式(simulation mode)来进行 SGX 应用程序的开发工作,应用程序在模拟模式下运行时的行为和支持SGX 的真实硬件环境下基本一致,但在此模式下运行应用程序不会得到 SGX 提供的实际保护。英特尔 SGX鉴权方法鉴权是英特尔 SGX 技术使用中,保护数据私密性和安全性的关键步骤,其可以为系统提供以下三种安全能力:飞地中应用程序,或数据的身份认证;飞地中未测量状态(例如执行模式)的详细信息;飞地中是否存在应用程序,或数据被篡改的可能。目前英特尔 SGX 提供了两类远端鉴权方法,英特尔 EPID(Intel Enhanced Privacy ID)和英特尔 SGX DCAP(Intel Software Guard Extensions Data Center Attestation Primitives)。下面分别对这两种方法做一个简单介绍。基于英特尔 EPID 的远端鉴权基于英特尔 EPID 的远端鉴权方法是通过英特尔 EPID 签名来对飞地中的应用程序或数据实施鉴权,其可以最大限度地降低使用英特尔 SGX 可信计算基础(TCB)的平台,在处理多个安全性版本时的复杂性。c)远程鉴权和控制能力用户可以通过执行远程鉴权,向各参与方证明运行环境实在合法的飞地里进行加载的;这样,可以更安全地将密钥、凭据和其他敏感数据提供给飞地;d)更低学习曲线采用 SGX 技术的相关应用程序都可以基于英特尔 处理器开发、集成和执行,开发人员无需熟悉额外的软硬件环境,学习曲线更低。英特尔 SGX 安装与配置用户可以通过引入英特尔 SGX SDK 来创建基于 SGX 技术的解决方案,该 SDK 提供了以下内容:如图 2-5-8 所示,这一鉴权方法是为设备提供了授权后的EPID 密钥,如果设备使用的私钥被窃取或泄露,EPID 系统会自动识别出此情况,并吊销该设备以防止信息的泄露。更多英特尔 EPID 安全性技术具体请参阅:https:/ SGX DCAP的远端鉴权基于英特尔 SGX DCAP 的远端鉴权允许用户构建并部署自己的鉴权服务,这对于满足以下企业、数据中心和云服务提供商的要求:AI 服务所在的网络环境无法访问互联网服务;用户具有严格的内部鉴权机制;在特殊网络、架构中部署中部署的 AI 服务,例如对等网络。DCAP 方法中一次完整的鉴权过程可在用户自身的网络环境中完成,仅在服务器部署阶段和 TCB Recovery 阶段才需要从外部获取鉴权信息。因此,在数据中心环境中,DCAP 方法具有更低的延时和更灵活的网络环境适应性。用户可以参阅以下的技术文档获得更多细节:数据中心鉴证定向指南:https:/download.01.org/intel-sgx/dcap-1.1/linux/docs/Intel_SGX_DCAP_ECDSA_Orientation.pdf 基于 Linux 系统的安装程序和文档:https:/01.org/intel-software-guard-extensions/downloads 支持英特尔 SGX DCAP 的第三方鉴证:https:/ 英特尔 SGX DCAP 源码(含例子程序):https:/ 基于英特尔 SGX的应用开发和移植在开发基于 SGX 的应用程序时,用户可以使用 SGX SDK 提供的可信运行库(Trusted Libraries)。可信运行库中包括了 C/C 的大部分 API,以及受保护的文件系统、常用密码学操作、多线程支持等功能。要查看 SGX SDK 提供的所有API,可查阅 SGX 开发人员参考手册。Windows 版 SGX 开发人员参考手册https:/ 版 SGX 开发人员参考手册https:/01.org/intel-softwareguard-extensions/documentation/intelr-software-guard-extensions-documentation对于 AI 类型的应用程序开发,SGX SDK 专门提供了用于深 度 神 经 网 络 的 英 特 尔 DNNL(Deep Neural Network Library),使得用户在 SGX 的可信执行环境中也能调用DNNL 的标准 API。用户可将已有的、基于 DNNL API 开发的深度神经网络应用程序容易地移植到 SGX 飞地中运行。SGX DNNL 开源代码:https:/ SGX 的 AI 应用时,用户通常用以下方式保护数据的机密性:负责计算的节点 1 在 SGX 飞地中产生一个安全的随机数,以此作为密钥。节点 1 运行的代码不能将密钥、用密钥解密出的数据和计算时的中间结果传递到飞地外;如图 2-5-9 所示,与基于英特尔 EPID 的远端鉴权方法相比,5554实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册 节点 1 使用一种远端鉴权方式,产生报告证明自己的软硬件环境是安全的。然后,节点 1 向另一个提供数据或梯度的节点 2 发送数据请求;节点 2 验证节点 1 的报告,确定节点 1 是安全的。同时,节点 2 用其他方法确定节点 1 有权访问该数据;节点 2 用节点 1 提供的密钥加密数据并发送,供节点 1 解密后使用。以联邦学习为例,使用以上方式进行设计,一个联邦学习应用可以在 SGX 中实现以下工作流程:1.应用程序创建一个 SGX 飞地的实例,在其中运行自身的可信部分(trusted code)。2.应用程序的可信部分随机产生一个非对称密钥对,将私钥保留在 SGX 飞地中。3.应用程序使用远端鉴权产生一个可验证的软硬件环境报告,其中包含 2 中产生的公钥,作为当前节点的身份。4.应用程序将远端鉴权的报告和公钥发送给网络中的其他节点。其他节点在验证当前节点的报告后,记录下当前节点的公钥作为可信的参与方之一。5.重复 1-4 的过程,直到所有节点都记录下其他节点的公钥。6.节点之间按照联邦学习算法完成加密的数据对齐和梯度交换步骤。每个节点使用其他节点的公钥,用于加密后续通信中的数据。英特尔 SGX与Graphene的集成英特尔 SGX 技术为用户带来了基于硬件环境的安全机制,使其中基于关键数据的 AI 训练和推理变得更为安全可靠。但在实际部署中,用户可能面临一个新的问题,对于新的 AI 应用,用户可以在代码构建之初就可如上一节所述,与 SGX SDK 提供的可信运行库进行集成。但在有些 AI 应用开发过程中,用户会重用一些已有的开源框架或算法实现,例如基于 Python和 TensorFlow 实现的神经网络模型,此时就需要对相关应用进行大量的移植工作。要工程师拥有娴熟的英特尔 SGX 移植技巧和经验,同时还需要工程师能够对进行移植的应用程序(如开源框架、算法实现等)的源代码保持相当的熟悉度,而在一些金融企业中,许多应用的开源框架或算法实现都已经有了较长历史,因此源代码修改移植的工作量会非常巨大。为减少上述应用程序移植的工作量,避免用 C/C 语言重新编写这些代码,用户可选择使用一些支持英特尔 SGX 的Library OS 来运行这些已有的代码,例如 Graphene(https:/ 等。需要注意的是,如果用户选用基于 Library OS 的方案,还需要正确配置 Library OS 中的安全选项,并评估载入的现有代码,否则不正确的软件行为会影响应用的性能、安全性或稳定性。作为英特尔 SGX 重要的开源兼容性工具,Graphene 可以通过对动态加载库,动态链接、多进程抽象以及文件认证等的支持,使用户可在 Graphene SGX 环境中直接运行原始应用。以运行 TensorFlow 框架为例,如图 2-5-11 所示,Graphene SGX 环境可以基于硬件中的 TEE 环境构建,其上用户可通过创建一个在 Graphene SGX 环境中运行的 Python运行环境,然后在这个环境中运行 TensorFlow 和用户需要的神经网络模型代码。同样这些应用也可以在 C 等环境中运行,而在深度学习方法中常用的 OpenVINO 工具套件、Analytic Zoo 平台等,也可在这一环境中便捷地运行。支持英特尔 SGX 技术的处理器值得一提的是,随着金融行业中,基于云服务(包括公有云、私有云和混合云)的 AI 应用变得愈来愈广泛,而既有云服务器硬件设备未必全部支持英特尔 SGX 技术,这给企业使用SGX 技术带来了障碍。企业要么需要耐心等待下一个硬件更新周期,要么需要付出额外的采购成本。为解决这一难题,英特尔正逐步在其处理器中集成 SGX 技术,为用户提供了快速部署 SGX 技术的能力。英特尔 至强 E-2200 处理器是英特尔旨在帮助企业构建高效可靠的 IT 系统(包括云服务),推动业务持续性增长的处理器平台,其共有 12 种型号,SKU 指定为 E-22xxG,核心/线程数量从 4/4 到 8/16 不等。就最高处理速度而言,两个高端 SKU 的最大睿频均为 5.0 GHz。同时,英特尔 至强 E-2200 处理器集成了英特尔 SGX 技术来提供硬件增强型安全。对于用户而言,第二代智能英特尔 至强 E 处理器带来的优势包括以下 4 个主要方面:性能:根据英特尔的测试,第二代智能英特尔 至强 E 处理器的性能是 2015 年推出的入门级服务器性能的 2 倍 可扩展性:第二代智能英特尔 至强 E 处理器的最大内存增加了一倍,达到 128GB,最大内存带宽增加了约 20%,达到 41.6 GB/秒。可靠性:服务器管理功能内置在采用了英特尔 主动管理技术(英特尔 AMT)的第二代智能英特尔 至强 E 处理器中,并且通过新的固件更新,提供了英特尔服务器平台服务和节点管理器。安全性:得益于英特尔 SGX,硬件增强型安全是新款处理器的重要组成部分。图 2-5-12 英特尔推出的英特尔 至强 E-2200 处理器图 2-5-10 应用程序与英特尔 SGX 技术的集成图 2-5-11 基于 Graphene SGX 环境运行应用程序图 2-5-13 使用英特尔 SGX 技术的联邦学习方案基于英特尔 SGX 的解决方案 1 N 式多源数据 AI 模型训练解决方案借助英特尔 SGX 技术,金融企业可以根据自身的实际情况构建多样化的解决方案。下文将简单介绍一种基于英特尔 SGX技术的 1 N 式的多源数据 AI 模型训练解决方案。1 N 式解决方案架构如图 2-5-13 所示,其由位于中心的聚合服务器(Aggregator)“飞地”以及部署在各处的 N 个边缘“飞地”组成网络。聚合服务器和各个数据源中的“飞地”,均是由英特尔 SGX 技术提供的处理器指令,在内存中构造出的具有高等级安全访问权限的可信区域。方案中,在加密通道中被传输的是待训练优化的 AI 模型以及相关的中间参数,而训练数据、明文 AI 模型以及 AI 算法则被留存在各个节点本地。在初始化过程中,“飞地”会自己产生公私密钥对,公钥注册到聚合服务器,私钥保存在各自的 “飞地”里。当训练开始时,首先,聚合服务器会和目标“飞地”建立加密连接(通过公私密钥对的非对称算法提供的能力,来协商本次连接的对称加密密钥,防止中间人攻击)。连接建立后,聚合服务器会首先将待训练的AI模型加密推送到各个 “飞地”中,然后各个“飞地”把模型解密传送到本地 AI 训练环境对本地数据实施训练。训练结束后,本地 AI 训练环境将训练得到的中间参数返回至本地的“飞地”。如图 2-5-10 所示,用户首先需要基于英特尔 SGX 技术,对应用源代码(基于 C 、Python 等语言编写)进行修改移植,然后与英特尔 SGX SDK 提供的可信运行库进行编译集成形成应用程序,最后再去硬件可信环境中执行。这一过程不仅需这一过程中,用户无需修改相应的模块代码,即可在 SGX 环境中执行所需的计算工作。而 Graphene 会在不受信任的主机接口上执行加密和语义检查,开发人员只需提供一个清单文件来配置应用程序环境和隔离策略,其余都可由Graphene来自动完成。除此之外,英特尔也正计划在更多处理器平台,例如至强系列处理器中加入英特尔 SGX 技术,帮助用户更便捷地部署基于硬件增强的安全机制,从而推动联邦学习等方法在 AI 领域的应用与发展。移植后源代码英特尔 SGX SDK 在可信环境中执行的应用程序移植到英特尔 SGX编译执行源代码应用程序MKL/MKL-DNN/DAALTensorFlowAnalytic ZooOpenVINOGraphene SGX 环境应用(Python/C )Guest OSSGX 接口TEE 环境the intel xeon e-2200 processor for servers8-402x5.02xall newup toup toup tovs.4 cores in the 4-year-oldIntel Xeon processor E3-1280 v5compared to a 4-year-old server(estimated)1with Intel Turbo BoostTechnology 2.028GB DDR4-2666 vs.64GB DDR4-2133coreskuspcie lanesper serverperformanceincreasethe ecc memory capacityvs.4-year-old systemghz模型更新模型更新更新聚合加密 AI 模型加密 AI 模型AI 模型本地数据 明文AI模型 AI算法本地数据 明文AI模型 AI算法联邦学习飞地#1联邦学习飞地#N联邦学习聚合服务器飞地加解密加解密公钥私钥私钥00015756实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册解决方案还可针对业务需求,加入了一系列创新流程:例如,每个本地环境中的“飞地”都是联邦的可信代理,随着后期算法可以直接运行在“飞地”里,这个可信代理在本地环境里可以做的事情会越来越多。接下来,“飞地”会在加密连接里,把中间参数加密传回给聚合服务器“飞地”。聚合服务器“飞地”会将收到的中间参数进行快速聚合,并根据结果对 AI 模型进行优化调整,而后进行下一轮的迭代。上述过程都是在“飞地”中实现的。也就是说,在方案的整个循环迭代过程中,AI 模型以及中间参数,都在加密通道以及“飞地”内进行传递和交互,并不与外界软、硬件接触,形成了安全可信的“内循环”。而基于英特尔 SGX 架构的处理器,可为“飞地”的构建、加密通道的铺设以及中间参数交互和聚合提供强大算力。对于各节点对训练效果贡献度的评估,解决方案也给出了令人满意的实践方法。在方案中,当有 N 个数据源时,可以先对所有节点进行训练,得到全量的训练效果。尔后再对除了待评估节点以外的 N-1 个节点分别进行训练(例如,评估节点#1 时,对节点#2 至#N 进行训练)。在得到不同训练效果的模型后,系统可以计算出每个数据节点在联邦学习中的“贡献系数”,进而对各个数据节点在 AI 联合训练中的贡献度给出精确评估,并据此进行方案调整。软件配置名称规格处理器英特尔 至强 E-2200 处理器或更高基础频率最大睿频5.0GHz核心/线程8/16HTOffTurboOn内存最高 128GB DDR4 2666MHz硬盘英特尔 DC S3320 数据中心级固态盘 480GB名称规格操作系统Ubuntu Linux release 18.04Linux内核4.15.0-74-generic工作负载LSTM,XGBoost编译器GCC 7.4开源软件库Graphene 1.0,Python 3.6.8,TensorFlow 1.14,XGBoost 0.9SGX 软件开发套件 Intel SGX Linux 2.8 Release技术展望基于 TEE 的联邦学习架构是一个新兴的领域,也为其它联邦学习的实现方式提供了新的可选项,在本文中,介绍了以英特尔 SGX 为代表的 TEE 组件在联邦学习领域的实现价值。目前,英特尔正与诸多合作伙伴一起,推动将 TEE 纳入到联邦学习架构设计中去,和其它的实现方式一起,共同实现一个互相补充,有机结合,可落地的解决方案。在未来,英特尔与合作伙伴还计划在以下方面进一步充实本文介绍的基于 TEE 的联邦学习架构:1.根据英特尔的产品路线图,把此架构实现在其它具有 SGX功能的英特尔 至强 服务器里;2.实现算法优化,能够把更多的联邦学习算法加载到 SGX 飞地中;3.基于区块链来实现联邦学习密钥自主协商和分配。软、硬件建议配置以上 1 N 式的多源数据 AI 模型训练解决方案的构建,可以参考如下基于英特尔 架构平台完成,环境配置如下:硬件配置 基于 Graphene 构建深度学习训练模型通过 Graphene 工具,用户可以便捷地在支持英特尔 SGX 技术的硬件环境中迅速地搭建深度学习训练模型,下文将简述如何快速构建 Graphene SGX 环境,并在其上运行 TensorFlow框架来进行模型训练。以 Ubuntu 18.04 及 Python 3.6 环境为例,基本流程如下:a)安装英特尔 SGX SDK,SGX PSW 和 SGX Driver下载链接:https:/download.01.org/intel-sgx/linux-/安装具体步骤请参考以下链接:https:/ Graphene 工具:从 github 上下载最新的 Graphene 工具:可以参考以下步骤,运行 Graphene-sgx 环境(可根据实际情况予以调整):1.安装与 SGX 相关的依赖项2.安装以 FSGSBASE 修补的 Linux 内核按 照 Ubuntu Wiki(https:/ python.manifest.templatehttps:/ 下载到 graphene/Examples/python-test 目录下并运行以下命令:d)准备测试的 test_resnet.py 文件:e)在 python-test 目录下在本例中,数据集采用 cifar10 开源数据集,构造 Resnet50网络进行训练。训练的模型会保存在 python-test/scripts/saved_models 中。在程序中加入以下语句,可使得模型能够正常保存。可以直接运行。对 python-test/python.manifest.template 文件作相应的修改,添加以下内容:3.生成签名密钥4.编译更详细步骤说明,请参考链接:https:/graphene.readthedocs.io/en/latest/building.html安装结束后,若能成功运行 Examples/python-scipy-insecure 样例,则证明安装成功。具体运行步骤可参考以下链接:https:/ SGX 技术以及英特尔架构处理器等先进软硬件产品,正助力金融企业有效应对 AI 应用进阶时遇到的多源数据安全协同难题。这一过程中,针对金融企业在风险评估、反洗钱、投顾、投研、信贷、保险和监管等应用场景中的需求,英特尔与众多金融行业合作伙伴一起,利用基于联邦学习的 AI 应用构建起更有效的风控、营销和管理模型,有效识别信用卡盗刷、贷款逾期、金融欺诈等潜在金融风险,大为减少金融企业的经营风险,为联邦学习方法在金融行业的应用落地提供了有益的参考。未来,英特尔还计划与更多金融企业深入开展技术合作,以先进的技术驱动数据资源在联邦学习中的安全运转和高效转化,在保证数据安全的前提下消除数据孤岛,推动联邦学习的快速发展和应用。不触及用户数据的情况下开展保险定价模型的 AI 训练。在已有的实践中,来自一线的反馈表明,保险个性化定价效果得到了明显的提升。除了在投保个性化定价系统中的应用,蜂巢联邦学习平台还在以下应用场景中获得了良好的效果:车联网大数据智能分析蜂巢联邦学习平台能在满足数据隐私保护的合法合规的前提下,整合不同行业客户的特点(如:保险公司、运营车队、二手车评估平台等),为用户提供定制化的大数据发布服务(分析结果/报告等),充分体现“自有数据运营”的价值。也可以用实际数据来验证、评价、预测相关业务的正确性,更全面地为车厂创造更多价值。从经济性、环境适用性、可靠性、安全性等方面挖掘数据价值,向车厂研发部、质量控制部等提供业务决策依据。精准完善的社会征信评分系统个人征信系统线上线下联动并逐步向完善的方向发展,是不可逆的趋势和潮流。蜂巢联邦学习平台让民间征信的数据纬度变得更加多元化,通过联合民生、金融、社交网络、电商、交通、和监管这六大领域的累计数据,更全面地勾勒出每个人在信用方面的画像,进而建立精准的社会征信用评分系统。医疗临床决策支持系统蜂巢联邦学习平台所具备的联邦图像分析和识别技术,可帮助医疗联邦系统为基层医疗机构打造病医联体和医疗信息平台,利用识别医疗影像(X 光,CT,MRI)数据,或者挖掘医疗文献数据建立医疗专家数据库,为医护人员提供智能的解决方案,从而提高工作效率和诊疗质量。智能语音管理系统蜂巢联邦学习平台能够支持金融领域应用级电话语音录入,为各参与方提供联合建立语音识别系统、电话语音转写记录以及语音数据智能统计分析的功能。通过优化后的语音识别系统,能对大量通话记录内容进行识别、统计、分析,从而帮助小微金融机构在最短时间内了解不同业务的话务结构,实现更高效准确的智能质检和价值信息提取,定位导致客户投诉、流失、话务异常等问题原因、并预测业务热点趋势、发现潜在客户。图 2-5-14 蜂巢联邦学习平台架构中国平安蜂巢联邦学习平台蜂巢联邦学习平台,是平安科技联邦学习团队结合英特尔 SGX 技术,为用户提供的基于数据隐私安全保护的多源数据AI 训练一站式解决方案。平台特征如下:提供多种加密方式,支持同态加密等多方安全计算机制;支持单机和多机训练;可直接使用英特尔架构处理器实施训练;支持多种深度学习/机器学习算法和框架。平台架构如图 2-5-14 所示。蜂巢联邦学习平台自下而上共分为四层,最底层是由一系列硬件设备组成的基础设施层,包括了基于英特尔 架构的处理器等;其上是算子层,平台在这里为用户提供了丰富的深度学习框架支持,包括了常见的TensorFlow,Keras,PyTorch,MXNet 等。同时,算子层集成了主要的联邦学习功能模块,例如样本对齐、特征对齐、梯度计算器等。用户的 AI 模型、数据以及参数,将通过算子层内的各个模块来调用英特尔 SGX 技术,在基础设施层内构建飞地,形成可信任的 AI 训练环境。在算法层,蜂巢联邦学习平台集成了同构逻辑回归、同构RNN、异构随机森林等一大批常见的深度学习/机器学习算法,基本涵盖了金融领域在风险评估、反洗钱、投顾、投研、信贷、保险和监管等众多应用场景中的需求;而在顶层的表现层,平台则提供了一系列用户交互能力和任务管理能力,方便用户更有效地协调 AI 训练任务。除了传统联邦学习平台所具有的功能外,蜂巢联邦学习平台推出的创新功能还包括:基于联邦学习的医疗影像数据平台、扩接融合用户特征与个性推荐系统和动态车险定价模型系统等。这些深入结合金融行业具体应用的功能,可以帮助用户获得更低的学习曲线,实现更快的业务融合。平台应用场景目前,蜂巢联邦学习平台在一系列业务场景中的广泛应用,均取得了良好的效果。以平台在保险行业的应用为例,以往,用户在投保时,业务人员只能根据用户的年龄、性别等基本信息来确定保费金额。而今,用户数据的数量和特征维度在信息化环境中有了巨大的增加。以健康类险种为例,业务系统如果能够利用海量的病历、家族病史数据等进行 AI 预测,并得到更加细分的健康评估类别,就能提升投保人健康评估结果的准确度。但病历、病史等无疑是各个健康医疗机构中绝对不能公开且需要提升安全等级进行保护的绝对隐私数据。现在,通过结合英特尔 SGX 技术的蜂巢联邦学习平台的引入,企业可以在中国平安应用案例案例背景作为平安集团旗下的科技解决方案专家,平安科技正基于人工智能、云计算,为 5 亿 生态用户提供覆盖金融、医疗、汽车、房产、智慧城市五大生态圈的端对端智能科技服务,助力企业实施智能化转型。这一过程中,平安科技希望通过聚合多种数据源,为 AI 应用提供更多、更优质的训练数据集,从而提升 AI 平台在不同场景下的训练效果。但数据访问、聚合和交互过程中的安全风险,令用户的数据隐私安全无法获得充分保护。因此,平安科技亟待寻找一种更完善的解决方案,在保证数据隐私的前提下来充分挖掘数据的价值。平安科技内重要的 AI 技术实践专家-平安科技联邦学习技术团队(以下简称“联邦学习团队”)通过探索和运用联邦学习方法、聚合了更多数据,提升了其 AI 模型训练效果。在这一过程中,联邦学习团队也与英特尔开展了一系列深入合作,使用英特尔 SGX 技术,成功构建起基于数据隐私安全保护的多源数据 AI 训练一站式解决方案:蜂巢联邦学习平台。该方案在多个场景的运用中均获得了令人满意的成果,为探索多方数据协同实施 AI 训练提供了有益的实践。用户服务模块同构逻辑回归(LR)样本对齐模块加密模块PyTorch计算/存储Keras硬件加密TensorFlow资源调度MXNet通信模块异构逻辑回归(LR)数据服务模块 SQL任务管理服务模块算法服务模块同构 RNN/LSTM特征对齐模块梯度处理器特征工程模块效果评估模块异构随机森林表现层算法层算子层基础设施层代码验证模块同构 CNN异构XGBoost6160实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册60实战篇英特尔中国金融行业AI实战手册实战篇先进内存产品与创新算法模型 推动高可用、低 TCO 的金融AI 解决方案落地基于金融数据特征的 AI 落地解决方案高维特征金融数据需要更优内存方案 金融数据的高维特征作为 AI 三驾马车之一,数据在 AI 应用和解决方案中起着至关重要的作用。在 AI 应用和解决方案的落地过程中,不同行业的数据特征表示能力会对所涉及的算法算力提出不同需求。例如在社交场景中,数据主要包括用户交互记录、用户身份等,数据关联性强,数据维度单一;在电商场景中,数据以销售记录、商品数据以及用户购买行为等为主,特点是数据维度少,数据特征相对复杂;而在工业制造领域,数据则主要是日志等过程数据,数据时序性强,特征相对集中。在金融行业中,银行、保险等金融机构所面对和处理的数据同样也有其鲜明的特性。以常见的预测系统为例,如图 2-6-1所示,某商业银行需要通过预测 A 市未来一段时间的房价走势来预判信贷风险,其基本流程是将所采集的样本数据集通过机器学习/深度学习方法训练得到相应模型,然后将其置于预测数据集中进行推理得到结果,结果与实际验证结果相校验后,再通过模型自我学习来进行优化。上述过程中,数据集(样本数据集、预测数据集)特征的表示能力对机器学习/深度学习方法的性能至关重要。在金融行业中,数据特征的表示通常可分为宏观和微观两个层面。以个性化推荐系统为例,物品和系统的属性,例如价格、期限等,是全部用户的通用特征(宏观描述),而用户各自的属性,例如年龄、性别等则属于专项特征(微观刻画);而对于反欺诈业务而言,银行平台层面的属性属于宏观层面的通用特征,而用户各自的交易和账号信息则属于微观层面的专项特征。以上用图 2-6-1 基于 AI 方法的金融预测系统户数据特征经梳理和衍生后,最终可获得极为可观的数据维度。具有高维特征的金融数据在构建AI学习方法时,通常会遇到训练效率问题。究其原因,是数据集拥有的大量用户样本在微观层面虽有大规模专项特征,能更精确地表述个体行为,表示能力更强,但由于数据样本量巨大,因而在构建机器学习/深度学习模型时,会对系统的计算、存储性能提出更高要求。因此,金融AI应用在处理具有高维特征的数据时,既需要选择创新、独特的算法,也需要寻求更先进的硬件基础平台来提供强大的性能助力。金融高维数据模型对内存方案提出更高挑战众所周知,机器学习/深度学习模型的训练样本量越大,数据维度越高,其蕴含的信息量也就越多,但相应的计算处理过程也会变得更复杂,这对基础硬件设施,尤其是内存的性能也提出了更高的要求。对于高维模型而言,其构建的金字塔型的巨型数据矩阵,底层数据维数可能高达上亿乃至数十亿。这一方面对处理平台的并行实时计算能力有着更高需求,需要处理器具备更高的主频、更多的核心/处理线程以及更优化的微架构;另一方面,高维数据模型也对大容量高性能内存有着迫切需求。数据建模分析表明,当数据模型的维度在百万级时,模型文件大小一般为 GB 级,在十亿维度时,文件大小可至 TB 级。而当 AI 系统进行模型计算和更新时,会产生大量的中间结果数据用于迭代过程。在传统系统设计中,这些有着低延迟、高吞吐性能要求的数据迭代任务都由高性能动态随机存取存储器(Dynamic Random Access Memory,DRAM)内存来承载。但随着金融数据的维度不断向上突破,DRAM 内存的使用就变得不再“实用”。模型自学习样本数据集*机器学习训练预测模型推理预测数据集*样本数据集特征城市A 市A 市A 市A 市二环二环三环二环284.69,000,0007,200,000城市地段地段面积面积楼高楼高价格价格特征学习样本预测对象*预测数据集实际验证结果预测结果?606362实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册以上文的推荐系统为例,其数据维度具有数百个原始特征,再进一步实施衍生后,可出现近亿列特征,单个推荐系统所使用的内存数据库所需内存容量可达数百 GB,当企业同时使用十余个推荐系统时,数据库所需内存将高达数 TB。TB 级的内存需求不仅给金融企业用户带来了沉重的成本开支,同时大容量的 DRAM 也需要企业部署更大规模的集群来应对,不仅给企业的 IT 运维和管理带来了巨大压力,也给 AI 解决方案的落地带来挑战。为应对这一挑战,英特尔正与第四范式等合作伙伴一起,结合一系列创新高维特征算法以及RTiDB实时特征数据库等技术,以英特尔 傲腾 持久内存和其他英特尔先进软硬件产品与技术为基础,为金融企业提供高维数据场景下的可参考金融 AI应用范例。先进内存产品结合创新算法为金融 AI 应用“降本增效”面向高维特征数据的创新算法金融行业中常用的传统机器学习或深度学习算法,如逻辑回归(Logistics Regression,LR)、梯度提升回归机(Gradient Boosting Machine,GBM)以及深度神经网络(Deep Neural Network,DNN)等,在处理高维特征数据集时,往往面临内存资源消耗大、计算复杂度高、训练效率低等问题。为使英特尔 傲腾 持久内存在此类场景中发挥出更大效能,英特尔与第四范式一起,针对高维数据特征场景对一系列模型算法进行了优化,包括:HD-LR 线性模型:其使用 FTRL(Follow The Regularized Leader)算法来迭代求解模型,从而拥有更快的求解速度,并对正则化算子予以了支持,非常适于处理含大量稀疏特征的超大规模数据集;HD-GBM 梯度提升回归机:其增加了一个 HD-Linear 模型,在处理高维稀疏特征数据时,决策树子模型可与 HD-Linear子模型交替进行迭代提升,通过提高两者间的交互来获得更好的训练效果;HD-DSN 深度稀疏网络算法:相较传统 DNN 算法,HD-DSN 算法不仅能对多种超高维稀疏数据实施高层次特征抽象,还可自动学习嵌入式表达。目前 HD-DSN 算法所支持的数据维数已达十万亿级之多;HD-He-Treenet 高维离散嵌入树模型:在面对一些时序性较强的数据集时,高维离散嵌入树模型可通过一系列基于统计的算法,将高维稀疏离散特征实施嵌入,从而大幅降低特当工作在内存模式(Memory Mode)下时,如图 2-6-3 所示,基于英特尔 傲腾 技术构建的英特尔 傲腾 持久内存不仅可以插入到标准的双列直插式存储模块(Dual-Inline-Memory-Modules,DIMM)内存插槽中与 DRAM 内存相兼容,同时与 DRAM 内存 不同的是,英特尔 傲腾 持久内存还能提供了两项彻底改变内存和存储功能的重要特性:持久性和高密度。前者意味着即使断电或重启,数据仍会保留;后者则指容量高达512GB/每 DIMM 插槽,是当前 DRAM 内存最大密度的数倍。凭借这两种特性,一方面金融企业部署的内存数据库等在进行系统维护,或发生意外停机后,数据可以得到保留而无需重新加载,不仅避免因数据丢失引起的一系列问题,使 AI 系统的训练和推理不再受到意外的影响而保持强一致性,同时系统恢复时间也可压缩至数秒内;另一方面,更低的每 GB 内存成本,也使金融企业可以灵活地在数据中心配置更多大容量内存数据库,为虚拟机配备更大内存,或进一步加大虚拟机密度等,从各个方面提升面向金融数据的 AI 应用的工作效率,使其可更游刃有余地处理高维数据特征。面向金融数据的英特尔 PMDK工具包在先进硬件产品之外,英特尔也通过英特尔 持久化内存开发工具包(Persistent Memory Development Kit,PMDK)为用户提供了面向英特尔 傲腾 持久内存的编程模型和环境,通过与高性能内存数据库相配合,构建面向金融数据的持久化内存解决方案,使金融企业可以便捷地将高维数据转化为持久化内存式数据结构,用于后续的模型训练和推理。在这一解决方案中,由于持久化内存的数据生命周期往往大于程序进程的生命周期,所以传统的基于易失性内存(例如DRAM 内存)的编程模型,包括内存分配与管理、基于虚拟地址的指针等将不再适用。英特尔 PMDK 工具包通过引入一种新的持久性内存编程模型,即以最新的 libpmemobj-cpp来实现持久化的数据结构,打造 KV(key-value)存储引擎,从而帮助用户用尽量小的代码改动将已有的、基于传统内存模征维度,在不损失原特征所含信息量的同时将稀疏变为稠密。同时,变换后的特征在嵌入时序信息后,特征的信息量也得以进一步丰富,令训练效果获得进一步提升。适于高维特征的英特尔 傲腾 持久内存在传统金融企业信息化系统中,大规模中间业务数据的“落盘”任务,通常由硬盘(Hard Disk Drive,HDD)或固态盘(Solid State Drive,SSD)来承担,但随着推荐系统等金融 AI 应用所需处理的数据特征呈指数级增长,更高的实时性需求亟待系统能大幅提升数据访问速度,而其中最有效的方法之一,是将更多数据存储在更靠近处理器的位置(如图 2-6-2 所示,越向上越靠近处理器)。近年来,随着大量数据存储围绕着 DRAM 内存展开,各类内存数据库已经成为 AI 应用中“热数据”处理不可或缺的载体。但大规模 DRAM 内存的使用不仅带来了更高的采购和维护成本,同时 DRAM 内存的易失性特征,也使系统在遭遇宕机等问题时,需要花上更多时间来使工作进程重新加载数据。图 2-6-2 兼顾内存级性能和大容量持久化存储能力的英特尔 傲腾 持久内存22 图 2-6-3 英特尔 傲腾 持久内存2322图片引自英特尔官网:https:/ AI 数据平台架构型的程序平滑过渡到持久化内存中,并保证所有数据在任何情况下(重启、软硬件错误导致的系统崩溃等)的一致性。下文将对这一方案中,PmemStore-KV 存储引擎的设计与实现,以及其与高性能RTiDB实时特征数据库的整合进行简要描述。底层数据结构的设计与实现底层数据结构决定了 key 的组织方式,或 value 的索引方式(index),将直接影响到 KV 引擎在不同工作负载下的性能,如点查询(point query)较多时,hash-based index 会比较合适,而范围查询(range search)更适合采用 b tree,skiplist 等方式。持久性数据结构的 debug 和数据一致性测试是当今推广持久化内存编程最重要的难题之一,业界仍然处于探索阶段,目前已有一些受到广泛认可的工具,如 pmemcheck(in valgrind)、pmreorder 等,这些对基于英特尔 PMDK 的程序查错都有一定帮助。KV 引擎架构设计与实现基于keypmem_pointer,pmem_pointervalue的架构,英特尔 PMDK 工具包可以帮助用户实现一个基本的本地 KV引擎,此时如何管理 value 将成为影响性能的关键。为此方案采取了以下设计:基于英特尔 PMDK 的持久化内存管理,其可以有效解决value 的空间分配回收管理;提供不同性能的数据一致性策略供选择,用户可以根据性能要求进行取舍。高性能 RTiDB 实时特征数据库传统关系数据库或内存数据库,如 MySQL、Redis 等,并非为时序抽取而设计,在性能上无法达到毫秒级的高维时序特征抽取速度,更难以应对因高维特征抽取而导致的 I/O 爆发。而即便是特定的一些特定的时序数据库(Time Series DB),在性能上也无法满足 TP99(即满足 99%的请求所需最低时延)为 5 毫秒的金融硬实时场景需求。而由第四范式推出的 RTiDB 是以基于排序的核心数据结构、读写之间的非阻塞执行以及少事务性作为基本设计理念,通过内置的高维特性抽取引擎 Feature Extractor 等,在高维特征数据处理上,有着巨大的优势。与常见的内存数据库相比,时序抽取性能可以达到其 5-10 倍,而 PUT 性能则能达到其 2 倍24。因此非常适于金融行业反欺诈、反洗钱、营销、推荐等多种场景。为此,通过与上节中各创新算法的结合,英特尔针对高维特征模型处理过程中,大容量、低时延、以及高性能数据加载/读写等方面的要求,基于英特尔 傲腾 技术提供了高可用、低TCO 的持久内存(Persistent Memory Module,PMM)解决方案,来兼顾金融行业AI应用在高性能和大容量两方面的需求。作为兼顾内存级性能和大容量持久化存储能力的英特尔 傲腾 持久内存,其以独特的 3D XPoint 存储介质构建,能够在密集、无晶体管以及可堆叠的设计中单独寻址内存单元,通过与其他英特尔先进系统内存和存储控制器、接口硬件以及软件增强功能相结合,可获得与 DRAM 内存相近的读写性能和访问延时。6564实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册从 RTiDB 的系统设计可以看出,其核心的 Tablet Server 模块由基于内存的存储引擎以及独特的内存恢复模型构成。前者需要大容量、高性能内存予以支持,传统 DRAM 内存相对昂贵的价格,以及相对受限的单机内存密度无疑是其发挥更大作用的瓶颈。而后者则有赖于持久化的内存式数据结构。因此让RTiDB 发挥更大效能的关键,是找到一种兼顾大容量和持久性特性的内存产品与其配合,而英特尔 傲腾 持久内存无疑是非常符合这一需求的先进内存产品。目前,通过英特尔 PMDK 工具包提供的 KV 引擎架构设计,RTiDB 实时特征数据库已经与英特尔 傲腾 持久内存实现了良好的整合。目前英特尔正与第四范式一起围绕性能优化探索更多优化方案。虽然基于 DRAM 内存的 RTiDB 相比基于英特尔 傲腾 持久内存的 RTIDB 仍有性能优势,但通过移除 snapshot/binlog 与磁盘的同步写,能使得基于英特尔 傲腾 持久内存的 RTIDB 在新的持久化模型下,对写操作有着TP9999/TP99999(即满足 99.99%/99.999%的请求所需最低延迟)延迟优化。更多英特尔 PMDK 工具包详情,请参阅 https:/pmem.io/pmdk/利用PMDK实现数据库快速恢复实例首先,系统管理员和应用程序开发人员可以通过访问 https:/pmem.io/来获得 PMDK 工具包,其安装方法如下:同时还需要安装额外的 libpmemobj-cpp 库:纳入必要的头文件进行初始化时,需要创建或打开 pmempool。参考代码如下:PMemRoot 是保存在 pmempool 的 root 位置,也是找到所有 RTiDB 表数据的入口。可以用 libpmemobj-cpp 提供的persistent concurrent hash map 来实现 table id tabledata的 mapping table。参考代码如下:在打开已有的RTiDB表时,也是先查看root中的mapping table是否存在,如果不存在则需要预先创建。然后在 mapping table 中找到 RTiDB 表的必要数据(PmemTableData),用于对表进行即时恢复。参考代码如下:测试流程:1.数据准备在创建 RTiDB 新表时,需要先查看 root 中的 mapping table是否存在,如果不存在则需要预先创建。然后初始化 RTiDB 表 的 必 要 数 据(PmemTableData),并 插 入 到 mapping table 中。参考代码如下:基于英特尔 傲腾 持久内存的性能和TCO测评为验证英特尔 傲腾 持久内存与 RTiDB 等产品与技术相整合后,对金融行业 AI 场景带来的性能与 TCO 提升,英特尔与第四范式一起进行了一项 DRAM 内存与英特尔 傲腾 持久内存在性能和 TCO 等指标上的对比测试,测试配置如下表所示:系统配置处理器双路英特尔 至强 铂金 8280L 处理器处理器频率2.70GHz(Turbo Boost 4.0GHz)L1/L2/L3 缓存 1.75MB/28MB/38.5MBDRAM 内存384GB(12*32GB DDR4 2666MHz)英特尔 傲腾 持久内存2TB(8*256GB 2666MHz)存储750GB 英特尔 傲腾 固态盘 DC P4800X操作系统CentOS-7.6(Kernel 5.1.9-1.el7)英特尔 傲腾 持久内存固件01.02.00.5375RTiDB 配置DRAM 内存Volatile SkiplistDRAM 内存日志存储于英特尔 傲腾 固态盘英特尔 傲腾 持久内存Persistent Skiplist英特尔 傲腾 持久内存(AD 模式)日志无需额外存储英特尔 傲腾 持久内存测评配置2.get&scan 操作 get 与 scan 合并操作;操作*key*50 条数据;压力测试:采用 1-128 个线程,压测时间为 1 小时。3.put 操作 在原有表存在情况下,另新建一表,键值对(key-value)数量随机。压力测试:采用 128 个线程,压测时间为 10 分钟。6766实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册测试结果如图 2-6-4 所示,在不同的数据规模下,英特尔 傲腾 持久内存可比 DRAM 内存综合降低 50%的 TCO,同时数据恢复速度提升 8.6 倍,TP9999 性能(即满足 99.99%的请求所需最低时延)提升70%。更多测试详情,请参阅第四范式内部报告 Sigmod2020 Paper Experimental Results:https:/ 2-6-5 典型边缘计算节点部署架构图 2-6-6 全新第二代英特尔 傲腾 持久内存28技术展望随着金融业务对实时性、交互性,以及 AI 应用能力提出更高的要求,内存数据库正在金融企业中获得更广泛的部署。而作为一种创新的内存技术,英特尔 傲腾 持久内存产品以其更具经济性的容量以及对数据持久性的良好支持,正助力金融企业更有效地围绕内存数据库,开展基于高维时序数据的一系列机器学习/深度学习方法,为金融业务提供卓有成效的 AI 能力支撑。在未来,更多金融行业用户正计划将英特尔 傲腾 持久内存与更多技术和业务场景相融合,打造更有效的高级数据分析能力和 AI 应用。例如随着 5G 时代的到来,超低延迟、超大带宽的网络体验也促使金融业务能够提供与之匹配的,更快捷的数据分析和 AI 应用反应速度。但传统构建在数据中心、或云上的数据处理能力,其响应速度无疑会受到网络质量、带宽等因素的影响。为此,越来越多的金融企业正在网络边缘部署边缘计算(MEC)节点来应对以上挑战。典型的边缘计算节点部署架构如图2-6-5 所示,边缘服务器能帮助企业将低时延、大带宽和本地化业务,尤其是需要进行大量数据处理、存储和传输的应用下沉到网络边缘,令这些业务的用户感知和体验更友好。但边缘服务器由此也会承受更大的性能、容量以及可用性挑战,而英特尔 傲腾 持久内存产品在这三个方面,无疑比传统选用DRAM 内存的边缘服务器更具优势。一方面,目前最大规格的英特尔 傲腾 持久内存单条容量已达 512GB,而常见 DRAM内存单条容量仅为 32GB,内存密度相差巨大。更多的内存意味着金融企业可以在边缘服务器中部署更多的虚拟机或业务进程,并减少服务器数量,降低 TCO。另一方面,英特尔 傲腾 持久内存内置的 AES 256 bit 硬件加密技术,也能在边缘侧为金融业务带来更高的数据安全性。为进一步帮助用户提升数据处理能力,目前英特尔已经推出了全新第二代英特尔 傲腾 持久内存,如图 2-6-6 所示,新一代产品的内存带宽平均增幅较上代可提升 25%,每路内存容量容量高达4.5TB26,在一些场景中,可帮助用户缩短数据库启动时间达 12.5 倍27。因此可为用户提供更为强劲的处理性能和更大的数据处理空间,为金融行业提供更优质的数据处理舞台。供应链金融:通过对供应链数据、企业数据、市场数据以及金融机构数据实施深度分析与实时计算监测,方案可使金融机构及时获取企业资金需求,并精准认知企业经营能力与风险状态,从而提供更优质的服务;另一方面,方案也可将金融服务融合到供应链交易管理过程中,与企业的生产经营管理深度结合,让中小企业简单、顺畅地享受到金融服务。智能客服:方案可使用海量数据建立对话模型,结合多轮对话与实时反馈自主学习,精准识别用户意图,支持文字、语音、图片的交互,实现了多领域的语义解析和多形式的问答对话,将智能客服由此前的“辅助问答”向“主动问答”转变,提升用户体验。软、硬件建议配置以上基于英特尔 傲腾 持久内存的机器学习解决方案的构建,可以参考如下基于英特尔 架构的平台完成,环境配置如下:硬件配置软件配置名称规格处理器双路英特尔 至强 铂金 8280L 处理器或更高基础频率2.70GHz(Turbo Boost 4.0GHz)核心/线程28/56HTOnTurboOn内存2TB(8*256GB 2666MHz)英特尔 傲腾 持久内存或更高存储750GB 英特尔 傲腾 固态盘 DC P4800X或更高名称规格操作系统CentOS-7 或其他 Linux 系统Linux 内核5.1.9-1.el7工作负载第四范式先知内置特征数据库 RTiDB编译器GCC 5.4库Jdk(jdk-8u121-linux-x64.tar.gz)Zookeeper3.4图 2-6-4 DRAM 内存与英特尔 傲腾 持久内存的性能和 TCO 对比6TBDRAM 集群DRAM 集群DRAM 集群DRAM 集群DRAM 集群PMem 集群PMem 集群对于 100G 数据恢复,RTIDB on DRAM 用时 320s,RTIDB on PMem 用时 37sRTIDB on DRAM,TP9999 为 17585us,RTIDB on PMem,TP9999 为 10465 usPMem 集群PMem 集群PMem 集群图示表示加速比,越高表示性能越好图示表示加速比,越高表示性能越好8TB10TB服务器数量4568.6x1.7x总拥有成本(TCO)降低50%数据恢复速度提升8.6倍TP9999 性能提升70%(大幅缩减服务器规模)数据规模DRAM 服务器数量PMem 服务器数量6TB848TB11510TB14625 数据测试配置为:基准配置:单节点,搭载 1 颗英特尔 至强 8280L 28C2.7GHz 处理器的 Neon City,单个持久性内存模块配置(6 个32GB DDR4 DRAM;1 个 128GB,256GB,512GB 英特尔 傲腾 持久内存 100 系列模块,15W),ucode 0 x04002f00,用以运行 Fedora29 内核5.1.18-200.fc29.x86_64和 App-Direct 模式下的 3.8版本 MLC。数据来源:2020ww18_CPX_BPS_DI。英特尔于 2020年 4 月 27 日测试。新配置:单节点,搭载 1 颗英特尔 至强 预生产 CPX6 28C 2.9GHz 处理器的 Cooper City,单个持久性内存模块配置(6 个 32GB DDR4 DRAM;1 个128GB,256GB,512GB 英特尔 傲腾 持久内存 200 系列模块,15W),ucode 预生产,用以运行 Fedora29 内核 5.1.18-200.fc29.x86_64 和App-Direct 模式下的 3.8 版本 MLC。数据来源:2020ww18_CPX_BPS_BG。英特尔于 2020 年 3 月 31 曰测试。26 配置为 6 个 512 GB 英特尔 傲腾 持久内存(3,072 GB) 6 个 256 GB DDR4 DRAM(1,536 GB)=每路总内存 4,608 GB。27 数据基于2018年5月30日逬行的测试。SAP HANA模拟工作负载,使用SAP BW版本的SAP HANA标准应用基准测试版本2(2018年5月30日)。传统DRAM的基准配置:联想ThinkSystem SR950服务器,搭载8颗英特尔 至强 铂金8176M处理器(28颗内核,165瓦,2.1 GHz)。总内存包括48个16 GB TruDDR4 2,666 MHz RDIMM和5个ThinkSystem 2.5英寸PM1633a 3.84TB 容量 SAS 12GB 热插拔固态盘(SSD),用于SAPHANA存储。操作系统是SUSE Linux Enterprise Server 12 SP3,使用 SAP HANA 2.0 SPS 03,带有6TB数据集。表预加载10次迭代后所有已完成数据的平均启动时间:50分钟。28 图引用自英特尔官网:https:/ 以及英特尔 傲腾 持久内存的结合,面向高维特征数据的 AI 解决方案已在多个领域的金融场景中进行应用和推广。包括:交易欺诈侦测:一方面,新方案可以结合银行、支付机构的反欺诈场景,建立超高维机器学习模型来实施欺诈防控。另一方面,方案也可结合实时信息处理,实现实时信息处理和在线服务,为银行、电商、支付机构提供实时交易反欺诈能力。与传统专家系统相比,识别准确率较原有规则提升数倍,并可实现毫秒级的事中交易实时阻断。信贷风控:方案可联合知识图谱、自然语言处理(Natural Language Processing,NLP)等技术,为信贷全生命周期中的各个关键业务环节保驾护航。涵盖风险预警、信息验真、人机博弈、欺诈识别、贷后管理、催收预警、失联修复等多个业务场景。5G 网络传统有线网络边缘服务器互联网数据中心私有云公有云各类数据分析、AI 应用6968实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册第四范式创新算法在某商业银行应用案例案例背景手机银行 APP 已成为各大商业银行最重要的线上渠道之一,如何在功能基本雷同的一众 APP 中脱颖而出?针对不同用户属性,在 APP 页面中部署“千人千面”的个性化推荐位,无疑是赢得客户青睐的好方法。在金融 AI 道路上耕耘多年的某商业银行,亦希望在其手机银行 APP 的推荐展位上,向客户推荐合适的理财产品,从而提升客户响应率,增加理财销售收入。但一般地,金融企业会通过在 APP 中以“埋点”的形式,获取客户的 APP 使用习惯、使用轨迹、行为热力图等,从而感知客户的偏好和关注点,进而选取合适的推荐位向客户进行推荐。由于该银行的手机银行 APP 开发较早,APP 中并没有埋点,同时,银行还希望这一推荐系统可以与该银行其他渠道的历史理财购买行为相互关联,提高推荐成功率。通过数据分析可知,各个渠道累计的海量历史数据具有典型的高维、稀疏特性,这在提供丰富信息的同时,也对AI推荐方案的构建提出了挑战。英特尔与第四范式一起,将创新算法、RTiDB 与英特尔 傲腾 持久内存结合,利用机器学习方法对具有高维特性的银行理财历史数据进行训练和推理,从而精准判断客户的理财需求,为APP 提供合适的产品推荐方案。方案架构及部署新的基于机器学习的银行营销推荐系统架构如图 2-6-7 所示,在方案中,选取了银行综合理财系统中最近一年内的用户数据作为样本集,包括用户基本信息、理财产品信息、理财购买记录以及用户功能信息等。小结通过创新算法、RTiDB 以及先进英特尔 傲腾 持久内存产品的结合,英特尔与第四范式等合作伙伴一起,构建了面向金融数据特性的实时线上机器学习方法,助力金融企业更多地将AI 应用推广到营销推荐、风险评估等领域。这其中,一系列创新的算法有效降低了高维、稀疏特征带来的计算复杂度和耗时,提升了训练效果;高性能的 RTiDB 实时特征数据库以高维特性抽取引擎提供了强有力的时序特征抽取性能。更为关键的是,由英特尔提供的英特尔 傲腾 持久内存,不仅以大容量、高性能的内存产品特性,解决了高维、稀疏特征数据处理所需的大内存,更以其持久性特性,提供了良好的数据恢复速度,为机器学习方法的在线运行提供有力保障。未来,英特尔还计划与更多合作伙伴一起,基于金融数据特性展开更多技术探讨,以先进的软硬件产品与创新算法模型相结合,推动高可用、低 TCO 的金融 AI 解决方案快速落地和应用。图 2-6-7 某商业银行营销推荐系统架构图 2-6-9 样本构造流程图 2-6-10 三种推荐方法对比方案设计图 2-6-11 不同推荐方法营销效果对比图 2-6-8 样本定义流程样本集首先会在架构底层的机器学习模型训练组件中进行数据预处理、特征抽取以及模型训练。模型训练得到的结果会被加载到预测组件中,执行数据抽取、模型加载和推理工作。推理得到的预估结果会经由银行的推荐系统,最后呈现在手机银行APP 上。这其中,样本定义、样本构造等几个步骤是影响方案效能的关键。样本定义如图 2-6-8 所示,方案设定客户营销日期开始的 7 天内购买了某款理财产品作为正样本客户,而 7 天内如果客户没有购买某款理财产品,则作为该款产品的负样本客户。方案成效为验证基于机器学习的推荐方法是否更具优势,方案中设置了一组随机推荐方法(随机组)、一组基于专家规则的推荐方法(专家规则组)与机器学习方法(机器学习组)进行了对比测试。三种推荐方法的对比方案设计如图 2-6-10 所示。对比方案采用 A/B 测试方式,比较专家规则组、随机组与机器学习组各自的响应率。测试方式首先筛选出符合该款产品购买条件的对私客户约 150 万。然后专家规则组、随机组和机器学习组分别对该名单进行筛选,对符合条件的客户进行短信营销。三组方法各自按照自己的规则生成 20,000 个客户名单用于真实的短信营销,并在营销结束后统计结果。测试结果如图 2-6-11 所示,机器学习组的营销效果远优于专家规则组和随机组。其中机器学习组共有 163 名客户购买,占所有购买客户的 29%,销售额累计 2,601 万元,占所有购买客户的 23%;而专家经验足共有 40 名客户购买,占所有购买客户的 7%,销售额累计 1,107 万元,占所有购买客户的10%;最后,随机营销组 2 万名客户中仅有 10 名客户购买,占所有购买者的 2%,销售额累计 87 万元,占所有购买客户的不足 1%。值得一提的是,基于机器学习方法的推荐方法可以完全通过在线方式进行训练、推理和效果评估。与传统的专家规则推荐方法相比,新方案可以让用户实时地了解到推荐效果的变化,并及时做出策略调整,这对于“寸时寸金”的金融行业而言,无疑是巨大的利好。在样本构造过程中,如图 2-6-9 所示,方案将成功购买理财产品的记录作为正样本,营销时间按照购买时间往前推7天(防止穿越,配合回收策略),并记录为:;而负样本则以产品为维度,从历史上没有该款产品的客户中,按照正负比例 1:50(这一比例是权衡理财产品购买平均响应率,生成样本的代价以及训练运行时间后得出)选择客户作为负样本客户,营销时间从该款产品的正例营销时间中随机选取,记为:接下来,方案会进行特征抽取,根据对综合理财系统中历史数据的分析,方案将数据分为用户状态类、产品属性类、用户行为类、统计类等不同的特征大类,每个大类下又细分出几十上百种不同的特征小类。进而衍生出近亿特征列。在模型训练过程中,方案通过筛选 trans_time,考虑 22 天的数据可得性 gap,得到正样本的流水,同时方案也控制每款理财产品的比例保持一致,负样本的客户则从没购买过该产品的客户群中进行筛选(例如 A 产品的负样本客户从没有购买过 A产品的客户群中筛选,B 产品的负样本客户从没有购买过 B 产品的客户群中筛选),最后筛选得到 2 个月的流水,通过机器学习方法训练得到 17021921 个样本。最后,方案选取了该商业银行在售的一款众享型长期产品对预测效果进行了评估。此处负样本客户包含两种情况,一是历史上从未没有购买过理财产品的客户,用于区分客户是否会购买理财产品;二是历史上没有购买 A 产品,但是购买过 B 产品的客户,此部分用户会作为 A 产品的负样本客户,用于模拟客户对产品的选择性。163 人2,600万元机器学习模型名单人数20,00040 人1,100万元专家经验名单人数20,000营销内容推荐规则管理策略计算手机银行 APP推荐系统数据请求预估结果交易数据模型训练结果历史交易数据数据抽取模型加载模型推理数据预处理特征抽取模型训练预测组件综合理财系统机器学习模型训练组件营销日期T营销后 7 天T 77 天正样本负样本7 天内购买7 天内未购买全量客户结果比较随机选取机器学习模型选取专家规则选取筛选符合条件的客户营销执行或事后验证自然购买情况营销日期购买日期构造 7 天符合正样本定义的购买行为根据正样本分布分配负样本7170实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册70实战篇英特尔中国金融行业AI实战手册实战篇巧妙运用“新芯”动力,以知识图谱助力金融行业挖掘更多高价值信息知识图谱在金融行业的应用金融行业中的知识图谱 知识图谱简介作为 AI 技术的重要分支,知识图谱(Knowledge Graph)以其对复杂信息关系的准确勾勒,正在各行各业中获得越来越多的部署与应用。如图 2-7-1 所示,知识图谱是由一系列实体、实体属性以及实体间关系构成的 AI 系统。通过知识图谱,用户能更精准地剖析互联网时代数据海洋中蕴含的高价值信息,以及信息之间的内在关系,从而获得更有深度,更具效能的解决方案。现在,知识图谱系统已在信息检索、推荐系统、信息反欺诈、舆情监测、市场细分、社交链等领域获得了大量成功应用。例如在信息检索中,搜索引擎可利用知识图谱对信息进行精准聚合和匹配、加深对关键词的理解和对搜索意图的语义分析,提升搜索效率;在推荐系统中,知识图谱能作为一种辅助信息图 2-7-1 勾勒复杂信息关系的知识图谱图 2-7-2 常见金融行业知识图谱系统组成工具,集成在电子商务等场景中,精准匹配用户的购买意愿和商品候选集合,为用户提供更精准的推荐选项;在社交领域,知识图谱可提供可视化的关系表示,优化好友推荐体验、喜好聚合等功能。金融行业知识图谱系统构建在金融行业,知识图谱同样也获得了广泛的运用,例如在金融风控领域,金融机构可以通过知识图谱来分析实体之间的关系,进而分析金融风险等级,便于制定应对措施;在金融营销领域,金融机构可以通过知识图谱来分析挖掘客户潜在商机,开拓更多关联优质客户,使业务人员在传统关系型营销获客模式外,增添更多获客模式,扩大潜在客户源。如图2-7-2所示,金融行业的知识图谱系统通常可由数据采集、数据预处理、实体和实体关系抽取、图展现、数据存储&管理、任务调度以及各类对内对外的服务接口等模块组成。在数据采集步骤,一方面,系统通过合法合规的方式从多个内外数据源中采集到企业和自然人的公开,或内部数据信息。公开信息例如可从互联网获得的企业相关信息、各类舆情新闻等,内部信息例如金融机构各个信息化系统提供的内部担保数据、抵押数据等,这些数据需要运用高效成熟的 NLP 技术来实施采集;另一方面,系统也需要接入大量非文本化数据信息,例如存在于图像、视频的信息,这需要系统具备强有力的光学字符识别(Optical Character Recognition,OCR)能力。在其后的数据预处理模块,首先,系统会在数据清洗步骤将一些不规范数据、错误数据以及重复数据予以剔除,然后再通过数据融合,将同一个实体下来自内外部不同源的数据进行融合和对齐。¥任务调度实体抽取数据采集服务接口数据预处理图展现实体关系抽取数据存储&管理英特尔 傲腾 固态盘英特尔 傲腾 持久内存英特尔 固态盘数据库风险预警隐形关联客户调查贷后管理授信审查数据推送数据库数据库OCR707372实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册在核心的实体&实体关系抽取模块,系统会先通过 AI 算法,构建出企业、自然人等实体;然后,实体属性挖掘模块和关系挖掘模块会利用 AI 算法引擎对实体数据进行分析,获取实体间的关系和属性,并最终转化成具有实体、实体属性以及实体关系的知识图谱数据结构。如图 2-7-2,展现模块通常能以可视化的方式,在各类终端上向用户展示上述的实体、属性和关系。展现的方式一般有网格状方式和树状方式,其中网格状方式在展示与中心实体的关联关系外,还可展示其他关联实体之间的关联关系;而树状方式则是展示与中心实体关联的对应实体。通过实体&实体关系抽取后的数据,既可以通过数据存储&管理模块保存到金融机构的数据库中,也能以服务接口的方式,供内外部系统在不同场景下进行调用,例如可以通过内部Wiki 系统供信息筛选检索;也可以通过集成插件的形式,对外提供统一数据服务,例如在企业门户网站中供实时信息展示。实体抽取方法如上节所述,在面向金融行业构建的知识图谱系统中,核心模块是进行实体和实体关系的抽取。BERT(Bidirectional Encoder Representations from Transformers)是目前较为常见的实体抽取模型,其作为一种双向 Transformer 编码器,本质上是采用了对语言表征进行预训练(Pre-train)的方法,即通过大量文本语料库训练获得通用的语言理解模型。经典的 BERT 结构如图 2-7-3 左侧所示,其采用了 Transformer Encoder 模型作为语言模型。Transformer 模型结构如图2-7-3 右侧所示,模型抛弃了经典的 RNN/CNN 等深度学习模型结构,而是采用 Attention 机制来进行 input-output 之间这一模型主要包含了三层网络结构。底层是 Embedding Layer,其利用 BERT 字向量对每个字符进行语义表示;第二层是 BiLSTM Layer,即双向的 LSTM 模型结构。如前文章节所述,LSTM 是 RNN 重要的衍伸模型,其可以通过特别的门结构设计来避免长期依赖问题,大幅提升记忆时长。基于LSTM 的网络结构非常适合运用在基于序列的分析任务中。双向 LSTM 同时具有前向和后向传播的能力,这使得网络能够更好的学习上下文语义的信息;第三层是 CRF 层,CRF 层通过训练学习到条件随机场中的转移概率矩阵,从而可以增加标签间的约束关系特征。实体关系抽取方法实体关系抽取作为信息抽取的重要任务,是指再识别实体的基础上,抽取出预定义的实体关系。如图 2-7-5 所示,实体对的关系可以用形式化的描述为关系三元组。对于实体关系抽取,常见的深度学习方法有 TextCNN 模型、知识增强语义表示(Enhanced Representation from kNowledge IntEgration,ERNIE)模型等。其中 TextCNN 模型的输入为序列的词向量,即将词向量通过卷积层、池化层得到最终的特征向量(这里也可以设置多层卷积),其最后一层接入全连接的 Softmax,输出实体关系的类别。而 ERNIE 模型则是在经典 BERT 模型上进行了改进,首先其通过在 Masked LM 中通过对词和实体概念等语义单元进行 mask 来预训练模型,使模型对语义知识单元的表示更贴近现图 2-7-4 BERT 字向量 BiLSTM CRF 三层模型结构图图 2-7-5 实体关系抽取架构图图 2-7-6 利用图谱关系挖掘实体间关系(源自合合信息的“企业图谱”产品)29经典 BERT 模型相关描述援引自 Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova,BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding:https:/arxiv.org/pdf/1810.04805.pdf30 数据援引自艾瑞网2020 年中国知识图谱行业研究报告:http:/ ERNIR Softmax 分类模型,以相关实体所在句子组成相关段落作为输入加以训练,从而预测出实体间的相互关系。知识图谱在金融行业中的应用知识图谱在金融行业中的广泛应用随着知识图谱技术的不断发展,其应用范围和市场规模也在加速扩展。来自行业研究报告的数据显示,2019 年涵盖知识图谱领域及自然语言处理应用的大数据智能市场规模约为 106.6亿元,而到 2023 年,这一数字预计将突破 300 亿元。这其中,目前又以金融领域占比最大30。通过数十年的建设与积累,金融机构的信息化系统及其他相关系统往往采集和保存了海量的结构化业务数据。这些数据蕴含着大量多维度的企业和个人信息,是金融行业推动运营效率,提升用户体验,降低企业风险的财富宝库。利用这些数据,在高效的基础硬件设施上推动知识图谱系统的构建,可以帮助金融机构直接抽取出数据中实体、实体属性、以及实体间的关系,以简洁明了的方式向用户展示网格化的信息链,有效避免传统关系型数据库在交互式查询时遇到的性能短板。例如从基础工商数据、业务日志等数据中,可以抽取出企业名称、企业董监高人员等实体,也可以利用股东关系、对外投资、资金往来、担保等业务数据,构建实体间的关系。如图 2-7-6所示,金融机构能以庞大的图数据库为基础,运用针对性的大数据分析算法,可视化展示企业幕后的关联关系。从而更高效地规避企业间的关联风险。A技术有限公司张三B投资公司C投资公司D技术有限公司张三投资公司股东股东股东股东股东甲技术有限公司乙技术有限公司丙技术有限公司李四E技术有限公司F技术有限公司G技术有限公司股东股东股东股东董监高董监高董监高董监高董监高法定代表人,董监高图 2-7-3 BERT 结构与 Transformer 模型29关系的计算。由于采用了 Transformer Encoder,也就是每个时刻的 Attention 计算都能够得到全部时刻的输入。BERT 模型的优势在于可通过无监督的学习掌握了很多自然语言的一些语法和语义知识,在少量数据集上也能通过微调(Fine Tune)方式来取得较好的推理效果。更多 BERT 模型信息,可参阅 Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova,BERT:Pre-training of Deep Bidirectional Transformers for Language Understandinghttps:/arxiv.org/pdf/1810.04805.pdf在此基础上,用户可以根据金融行业普遍的结构化数据特征,以及英特尔 架构软硬件产品所提供的优化能力,采用一些衍生优化的模型,例如图 2-7-4 所示的“BERT 字向量 BiLSTM CRF”三层实体识别模型。CRF LayerBiLSTM LayerEmbedding LayerBERT Embedding 张三在合合信息上班B-PERE-PERB-COME-COMI-COMI-COMOOOOutput ProbabilitiesSoftmaxLinearFeedForwardMulti-Head AttentionMulti-Head AttentionInput EmbeddingInputsOutputs(shifted right)Positional EncodingPositional EncodingNxNxOutput EmbeddingMaskedMulti-Head AttentionFeedForwardAdd&NormAdd&NormAdd&NormAdd&NormAdd&NormBERT(Ours)T1E1TrmTrmTrmTrmTrmTrmT2E2TNEN数据采集数据预处理实体关系抽取实体关系三元组7574实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册目前,知识图谱在金融行业中有以下的典型应用场景:基于图谱关系挖掘与风险挖掘技术实现金融风险防控错综复杂的企业股权关系,使商业银行等金融机构在进行授信风控、贷款审核,信贷预期防控等工作时,难免有所错漏。利用大数据平台,构建企业画像,并基于知识图谱数据库围绕“实体、关系、事件、属性”进行高效存储和管理,能更有效规避以上风险,帮助客户经理、风险管理条线、授信审批条线等工作人员更好地发现隐藏在复杂网络之下的风险关系网络,以及隐性关联关系。基于司法关系抽取构建金融防控系统司法关系与金融风险息息相关,随着我国司法数据逐步公开,金融机构可通过各种方式获得越来越多的案件判决信息,但目前存在于互联网的裁判文书往往是大段文本,不利于案件的检索、分析和利用。利用知识图谱对各类裁判文书中涉及的多种实体(案件类型、原告、被告、涉案金额等)、实体关系(原告-负责人、原告-委托代理人等主要关系)进行快速梳理,有助于金融机构在进行授信、关联担保等业务时,对涉及的企业和个人信用等级做出准确判断,提前对可能的司法隐患进行“排雷”。基于互联网信息实施企业经营风险防控任何突发或热点事件,都可能会对企业经营造成影响,带来隐形的经营风险。例如 A 地区突发的虫害,可能影响农作物 B的产量,进而降低相应农业机械 C 的销售量,最终影响机械厂商 D 的贷款偿还能力。这种长链分析能力,过去需要由经验丰富的专家来执行,且准确率和时效性不高。现在,通过 NLP技术与知识图谱系统的加入,金融企业可以迅速采集和辨识包含在互联网中的各种细微信息,并做出相关应对措施。金融行业典型应用场景:企业图谱关系挖掘与风险挖掘企业作为商业银行等金融机构的最主要客户群,其生产经营状况的好坏,对商业银行在信贷、授信等业务上有着巨大的影响。现代企业往往有着非常复杂的股权关系,彼此交错形成关联共同体;同时,企业风险是在生产、经营等一系列活动过程中产生和发展的,是一个动态的过程,并且具有很强的传导性。风险通过特定的传导机制累积、放大甚至突发,最后可能会引发连锁型的危机。因此金融机构如果只了解单一企业,单一部门的生产经营状况,并无法判定风险的全貌。目前,越来越多的金融机构正选择知识图谱来实施企业图谱关系挖掘与风险挖掘。图 2-7-7 企业图谱示例图(源自合合信息 “启信宝”产品)图 2-7-8 英特尔为知识图谱系统提供整体性技术支撑一般地,企业关联风险可分为以下两种方式:内部风险传导:在集团内部,部分分公司出现风险问题会对集团各分公司产生风险传导影响,以及对整个集团产生影响;外部风险传导:集团外部的供应商、经销商以及合作企业的产生的风险会对集团及集团下各分公司产生风险传导影响;因此,金融机构首先要通过知识图谱系统来捋清企业图谱关系,然后再构建企业关联风险传导模型,来清晰地展现风险传导状况。如图 2-7-7 所示,企业图谱可展示了企业全貌,是对企业相关信息的一次性全面解剖图示,其包括股东、高管、对外投资、法院判决、法院公告、历史股东及疑似关系等 7 个方面。以商业银行在开展信贷、授信以及资金监管等业务时,较为关心的“实际控制人”和“企业关联关系”等信息为例,传统上通过人工调查和维护的模式,在企业规模越来越庞大时,会变得耗时耗力,每增加一家关联企业或股权发生变化时,相关信息都需要很长时间才会传导到金融机构。现在,金融机构一方面可以通过企业图谱可以向上追溯企业股东,查看各个股东的出资比例,深度剖析企业的实际控制人;另一方面也可通过查看关联股东的出资比例、风险等信息,监控当前公司的运营情况,并向下挖掘企业的对外投资,多层次展示企业的投资路径,分析企业股权关系,发现投资关系的交叉持股现象。在获得企业图谱后,金融机构就可以进一步基于企业风险预警信号体系、企业指标库等能力,有针对性地建设企业关联风险传导模型,例如,以图谱技术、半监督的标签传播聚类、邻近网络算法等,逐步迭代数据和模型,实现事件 产业链风险传导模型分析。金融行业运用知识图谱所面临的挑战不断发展的知识图谱技术,在为金融等行业用户提供深度高价值信息挖掘能力的同时,也对相关的算法、算力和数据能力提出了更高要求,这使金融企业传统的信息化系统面临着更多的挑战,这些挑战包括:金融数据中越来越多的实体、实体关系信息,对金融机构既有信息化系统的计算、存储和传输能力带来更大挑战。一般地,高维度的结构化金融数据,模型迭代时的中间结果数据规模往往达到 GB 级别乃至 TB 级别,需要核心处理平台具备更高的主频、更多的核心数量以及线程数量,同时还需要内存具有更大的容量和性能;金融机构构建知识图谱系统,涵盖了训练与推理、高性能存储、机器视觉等一系列技术要素,需要一个完整的、包括运用深度学习技术在内的端到端技术链来支撑整个场景;构建高精度的实体语料库需要投入大量人力物力,在实操中须对标注人员进行大量培训;同时高速增长的金融业务数据使实体语料库不断变化,新旧语料往往覆盖不全。一些大型金融机构每天可能新增千万条数据,因此,金融行业在构建知识图谱系统时,需要引入新的深度学习方法,尤其是无监督的深度学习方法来应对以上变化;同时,更多深度学习方法的加入,也需要基础硬件平台针对新方法的需求,针对处理器平台、深度学习框架等提出新的优化方案。英特尔从云到端的全栈平台包含丰富的软硬件产品,正好来应对这些知识图谱应用上的各种挑战,接下来的章节会详细介绍英特尔软硬件产品如何对各种深度学习方法提供支持来解决上述的问题。先进软硬件产品为基于深度学习的知识图谱提供支撑可以看到,金融企业知识图谱系统要发挥更佳效能,就需要在系统的每个环节,数据采集/处理、知识图谱构建/优化、数据存储/管理以及最终的图展现上,都部署更优的计算、存储硬件设备以及相应的软件优化技术。为此,如图 2-7-8 所示,英特尔以其完整的技术链,为知识图谱系统提供整体性的技术支撑。实体抽取数据采集/处理图展现实体关系抽取数据存储&管理英特尔 傲腾 固态盘英特尔 傲腾 持久内存英特尔 固态盘英特尔 至强 可扩展处理器OpenVINO 工具套件英特尔 AVX-512英特尔 酷睿 处理器英特尔 赛扬 处理器英特尔 凌动 处理器英特尔 至强 可扩展处理器英特尔 AVX-512英特尔 DLBoost英特尔 MKL-DNN数据库数据库数据库OCR7776实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册而英特尔 傲腾 固态盘则可从另一维度,帮助知识图谱系统获得高效的存储性能支撑。与英特尔 傲腾 持久内存相比,英特尔 傲腾 固态盘更注重性能、容量和成本的平衡。利用一系列先进内存控制器、接口硬件和软件技术的组合,英特尔 傲腾 固态盘在低延迟、高稳定等多方面均有着良好表现。以英特尔 傲腾 固态盘 DC P4800X 为例,其具有高达 55 万IOPS 的随机读写能力,低至 10 微秒的读写延迟,可更好地应对金融行业中多用户、高并发的各类应用场景。同时,其优异的写入寿命(Drive Writes Per Day,DWPD),也能赋予系统更长的生命周期,确保系统具有更佳的经济性。基于英特尔 架构的处理器为模型推理提供强劲算力在知识图谱构建/优化阶段,英特尔 至强 可扩展处理器可以有效提升知识图谱系统中,实体/实体关系抽取等深度学习模型的推理速度。新一代的英特尔 至强 可扩展处理器不仅具有多达 56 个处理器内核,112 个线程,微架构也进行了全图 2-7-9 OpenVINO 工具套件归一化性能对比31图 2-7-10 各类存储硬件的性能与成本比较面升级优化,配备了更快、效率更高的高速缓存来提升处理效能,并可支持高达 36TB 的系统级内存容量32。同时,新一代英特尔 至强 处理器所集成的英特尔 AVX-512 指令集也可为系统提供更宽的矢量计算功能,供用户在进行系统设计时,能针对性地进行更多底层浮点数计算优化。而矢量神经网络指令(VNNI)的引入,也使新一代英特尔 至强 可扩展处理器在深度学习推理速度上有着耀眼的表明,与上一代产品相比,其推理性能提升高达 30 倍33,有力提升了知识图谱系统的应用效率。同时,英特尔也为各个主流深度学习框架,如 TensorFlow、Caffe 等都提供了丰富的优化函数库,例如英特尔 MKL 和英特尔 MKL-DNN,这些函数库的引入,可以大幅提升基于深度学习方法的知识图谱系统在英特尔 架构处理器平台上运行时的性能。更多英特尔 MKL 和英特尔 MKL-DNN 介绍,请参阅本手册技术篇相关介绍。存储新技术为系统提供有效数据支撑知识图谱能为用户提供高价值信息的根源,是其基于深度学习方法,对海量数据开展训练和推理。随着数据规模的不断增加,尤其在金融行业内,大型金融机构每日新增的结构化数据可达数千万条,数据增量超过 100GB。同时在实体/实体关系抽取等深度学习模型的训练和推理过程中,金融数据的高维特性,也会使系统产生 GB 级,乃至 TB 级的中间文件。在传统存储架构中,这类大容量存储主要由硬盘(Hard Disk Drive,HDD)或固态盘(Solid State Drive,SSD)来承担,但知识图谱系统所需的实时性(尤其在金融风控等关键应用场景中),对存储的高性能、低延时提出了更高要求。此时采用更多的 DRAM 内存,无疑可以获得更好的性能,但由此也会给用户带来急剧提升的成本。如图 2-7-10 所示,基于英特尔 傲腾 技术构建的各级存储产品,可以满足知识图谱系统在以上数据存储中的不同需求。一方面,基于 3D XPoint 存储介质构建的英特尔 傲腾 持久内存,不仅拥有与 DRAM 内存相近的读写性能、访问延时,以及相比固态盘更强的耐用性,在金融行业各类高并发的应用场景31 数据源于合合信息内部测试,测试配置为:处理器:英特尔 至强 金牌 6248R 处理器,主频 3.0GHz,24 核心/48 线程,固定输入尺寸:1,3,768,768;迭代次数:50 次;测试对象:FPS32 相关参数援引自英特尔官网:https:/ 数据援引自英特尔官网:https:/ 能力为抓手,通过信息技术实力以及电子银行平台打造自身竞争优势,并以产品创新和卓越的客户服务树立高美誉度的品牌。随着该银行投资主体多元化的不断推进,业务范围跨行业、跨区域的集团客户越来越多。企业间的关联关系日趋错综复杂,信用状况参差不齐,银行因关联企业识别不充分所造成的各种风险隐患或实际损失也屡见不鲜。在一项银行内部开展的在集中,也能有着不亚于 DRAM 内存的性能表现。同时,它还可凭借大容量的特性,帮助金融机构轻松构建起TB级的内存数据库。而且其具备的非易失性特性,也能为系统带来更好的可用性,例如在遇到宕机、断电等情况时,利用英特尔 傲腾 持久内存的非易失性特性,系统可以在极短的时间内予以恢复。团关系验证中,行内抽取 10 个集团的内部企业家谱进行识别,发现有 86 家企业有错误录入问题,同时有 92%的成员企业未覆盖完全,这对银行业务的开展而言,显然增加了大量不可控风险。为有效控制金融风险,保证银行信贷资产安全,银行希望通过构建基于知识图谱技术的风险门户系统,对关联企业实施高效识别,防止出现集团客户多头授信、过度授信、关联担保等经营风险。针对新系统的构建,银行提出了以下的需求:关联关系图谱能提供门户页面、关系插件、数据接口三种对外服务类型,行内用户能快捷高效地获取想要部分的内容;可支持全维度搜索企业,展现全量全维度企业信息,行内用户无需在多个系统与站点中来回切换查询,增加业务操作效率;可在同一门户中快速便捷地查看所有企业的各类关系信息,发现疑似风险信息。同时可与银行已有风险信息系统相结合,对行内的风险前置和风险预警作补充。能实现图谱数据统一查询,帮助行内用户全面掌握客户信息,避免由于孤立数据等造成的信息不一致、信用重复、信息不完整等问题。同时,可利用知识图谱的属性和关系挖掘功能,挖掘出一些可以用于信贷审核的隐藏信息。可深度挖掘行内数据信息,如交易、担保等数据内隐含的大量高价值信息,帮助银行达到提前发现与规避风险的目的。“开箱即得”式的便捷部署模式,可视化的关系展现模式,并避免二次开发工作;为帮助银行顺利完成这一构想,深耕知识图谱与 NLP 技术多年的合合信息与英特尔一起,基于英特尔 至强 可扩展处理器、英特尔 AVX-512、OpenVINO 工具套件等英特尔 架构软硬件产品与技术,为其量身打造全新的风险门户系统并顺利投入使用。新系统在实践中展现出良好的工作效能,并获得了银行内外部使用者的一致好评。关于合合信息一直专注于商业智能化之路的上海合合信息科技股份有限公司,正率先将各类 AI 深度学习技术应用到传统模式识别、企业知识图谱系统构建等场景中去,结合丰富的客户风险管理、营销管理等业务场景知识,帮助各类用户,尤其是金融行业用户快速构建覆盖企业内外部数据知识的知识图谱分析与应用能力。更多信息,请访问合合信息官网:https:/ 3D NAND 固态盘成本高低 OpenVINO 工具套件助力提升数据采集效率在数据采集/处理阶段,一方面针对数据采集中涉及的大量互联网舆情信息,新系统需要依赖各类爬虫技术进行抓取。高速爬虫系统通常会采用大规模并行处理的方式,而英特尔为之提供的,具有众核、高频能力的英特尔 至强 可扩展处理器可在此发挥长处。同时,处理器所集成的英特尔 AVX-512 技术也可加速系统的并行处理能力。另一方面,对于大量的非文本化信息,英特尔也通过 OpenVINO 工具套件等开源技术的加入,为常用的 OCR 检测算法提供性能助力。OpenVINO工具套件是由英特尔推出的,旨在加速图像视频处理、深度学习推理及部署效率的开源软件工具套件,其不仅内置了大量 OpenCV、OpenXV 视觉库的传统 API 来实现图像视频处理的加速与优化,也加入了深度学习部署工具包,使系统能够更充分地利用英特尔 架构处理器的计算能力,从硬件指令集层面加速深度学习模型的运行效率。在 一 项 针 对 基 于 ResNet101 模 型 的 FPN-SSD 上 做 延 时优先的测试时,开源 ONNX Runtime 引擎使用与未使用OpenVINO 工具套件插件(详情请参阅:https:/ 2-7-9 所示,使用 OpenVINO 工具套件对比 ONNX Runtime 引擎在 OpenMP 线程数为 24 的时候有着 2.10 倍的性能优势。4.504.003.503.002.502.001.501.000.500.001.00481224OpenVINOONNXRuntime0.731.831.272.491.533.951.887978实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册合合信息知识图谱方案架构及优化方案 方案总体架构如图 2-7-11 所示,新系统的整体架构至上而下依次分为基础设施层、技术层、数据层、模型层以及应用层。在基础设施层,由英特尔提供的一系列软硬件产品,包括英特尔 至强 可扩展处理器、英特尔 AVX-512、英特尔 MKL、OpenVINO 工具套件等为整个架构提供了强有力的计算、存储和传输能力;在技术层,是由合合信息针对英特尔软硬件平台特点为更上层应用引入的BERT、TextCNN等深度学习和大数据技术模型;在数据层,是系统对接的各类内外部多源化数据;在模型层,则是合合信息结合客户风险管理、营销管理等各类业务场景知识,所部署的风险传导模型算法、风险传导系数模型等。在顶层,系统能以封装 API、集成插件等形式,为银行各系统输出各类风控能力。值得一提的是,在新项目中,合合信息以2.3亿家全国全量全维度企业数据为基础,帮助用户构建了十大客户关联关系图谱,如图2-7-12所示,图谱包括了企业的股权结构、对外投资、实际控制人、集团关系、疑似、涉诉、地址、事件关系等8种外部数据关系,同时也结合了银行内的交易担保数据,构建企业的交易、担保关系。方案成效以知识图谱技术为核心的风险门户项目在该商业银行上线后,获得了银行内各个部门的积极响应与反馈。系统通过逐次迭代不断优化,应用效果不断获得提升。其中基于知识图谱企业数据库、大数据挖掘和企业风险实时监控技术,已成功帮助某分行及时获悉被抵押股权遭冻结信息,及时风险预警,及时阻断因信息不对称而引发的风险控制问题。银行内部统计数据表明,累计使用的分行、子公司总计 55家;被查看过的企业数量总计 75,596 家;总访问人次总计91,423 次;主动推送的重点信息达 1,971 条;如图 2-7-13所示,其中企业基本信息、风险信息、关注信息分别成为客户经理、风险经理、审贷官们最受欢迎的模块。同时,系统也帮助银行在舆情预测应用上获得了良好的效果,来自实际使用的数据表明,在基于英特尔 至强 可扩展处理器平台上,预测时间仅为 0.232 秒,超过 0.5 秒的业务需求。预测精确率(Precision)为0.968,召回率(Recall)为0.952,F1 值达 0.959,完全达到了银行的预期 F1=0.95 的目标37。小结利用知识图谱的方法,更深挖掘海量业务数据中蕴含的高价值信息,是合合信息与英特尔一起合作,面向金融行业用户进行的有益探索。基于深度学习方法构建的知识图谱系统,能让金融行业用户不仅可通过图谱关系挖掘、风险挖掘技术、司法关系抽取等能力的建设,有效构筑起针对信贷风控、授信风控、企业经营防控等金融风险的樊篱,还可以从互联网信息中快速判别突发或热点事件对企业经营带来的影响,并作出相应措施。英特尔不仅为全新基于深度学习方法的知识图谱系统提供了高性能的英特尔 至强 处理器平台作为其计算核心,还提供了英特尔 AVX-512、英特尔 MKL、OpenVINO 工具套件等一系列软硬件技术,对系统工作效能提供了全方位的优化。目前,新的知识图谱系统已在某商业银行获得实践部署,在为用户带去便捷、高效的金融风控能力的同时,获得了行内用户的一致好评。未来,合合信息还计划就知识图谱在各行业的应用,与英特尔携手开展进一步的探索。合合信息希望能够依托英特尔从云到端的技术优势和全栈平台,进一步拓展英特尔 AI 创新生态,在各行业各场景中,推动 AI 技术的发展和突破,加速智能应用落地,助力产业智能变革。利用多个不同的 kernel_size 来提取文本中的关键信息,从而更好的学习局部相关性;kernel_sizes=3,4,5,6,分类准确率(F1 Score)提升约 1%;加入多层卷积,并将 BatchNorm 合并到卷积层中,可以进行归一化并加速训练数据的拟合 0.3%;类别分布不均衡,对数据进行重采样并结合同义词替换,目的是增加数据的多样性;其中少类别提升约 2%。在实施优化后,模型与基准模型(基于词的TextCNN模型结构,kernel_size=3,一层卷积且无 BatchNorm)相比较,整体准确率(F1 Score)提升约为 4.56。图 2-7-11 某商业银行风险门户系统架构图 2-7-12 客户关联关系图谱构建图 2-7-13 某商业银行不同用户对新系统使用覆盖率 基于经典 BERT 模型的实体识别模块优化针对新方案中,所涉及的不同数据特征,合合信息也与英特尔一起,基于经典 BERT 模型和 TextCNN 模型,分别在实体抽取和实体关系抽取模块上开展了大量针对性的优化方法。其中,实体抽取模型上主要优化方法包括:对经典 BERT 模型进行微调,加入 BiLSTM CRF 层。因为在序列标注任务中,位置信息是有必要的,甚至方向信息也很重要;而经典 BERT 模型弱化了位置信息,因此加入BiLSTM 可以更好的学习观测序列上的依赖关系;该方法在项目中常见的企业名实体(通常该类型实体长度较长)类型上可提升约 0.5%的准确率(F1 Score);设置合理的学习率(learning rate),对 BERT 层与 CRF 层设置不同的学习率;CRF 层设置更大一些,这可以让 CRF 层快速学习;整体平均准确率(F1 Score)提升约 0.2%;使用 1 层 BiLSTM。BERT 本身具有很强的学习能力,底层的已经特征足够丰富,因此 1 层 BiLSTM 便可以取得较好的效果。在实施优化后,模型与基准模型(基于字符的 BiLSTM CRF模型结构)相比较,整体准确率(F1 Score)提升约 44;而与单独使用 BERT CRF 模型相比,整体平均准确率(F1 Score)的提升约为 0.85;基于 TextCNN 模型的实体关系分类模块优化主要优化方法包括:在 Embedding 层引入更丰富的特征,进行特征融合,包括字特征,词特征,词性特征等;与单独使用词特征相比,分类准确率(F1 Score)约提升 0.9%;软、硬件建议配置以上金融系统知识图谱解决方案的构建,可以参考如下基于英特尔 架构的平台完成,环境配置如下:硬件配置软件配置名称规格处理器英特尔 至强 金牌 6248R 处理器或更高基础频率3.00GHz(Turbo Boost 4.00GHz)核心/线程24/48HTOnTurboOn内存384G(32G DDR4 2933MHz x12)存储英特尔 固态盘 D5 P4320 系列及以上名称规格操作系统Centos 7.7.1908Linux 内核3.10.0-1062.1.2.el7.x86_64工作负载ResNet101 FPN/BERT NER编译器gcc 7.5.0库LLVM OpenMP runtime:Libomp-dev 5.0.1-1OpenVINO 工具套件OpenVINO 2020 R334、35数据源自合合信息的内部测试。36数据源自合合信息的内部测试。37 测试配置为:处理器:英特尔 至强 金牌 6248R 处理器,主频 3.00GHz,24 核心/48 线程;测试场景为随机选取 100 篇舆情新闻,共计 1,327 个句子,Batch Size 设置为 6,测试结果为单一批次平均预测时间及整体的准确率。对外服务接口应用层企业信贷业务集团客户授信有贷户风险评估企业风险预警抗风险能力评估模型风险传导系数模型风险危害评估模型风险传导模型算法模型层数据层英特尔 至强 可扩展处理器英特尔 AVX-512英特尔 MKL/英特尔 MKL-DNNOpenVINO 工具套件英特尔 傲腾 固态盘英特尔 傲腾 持久内存英特尔 固态盘英特尔 以太网适配器英特尔 以太网控制器和连接大数据技术特征工程机器学习K-BFS最短路径算法Veterbi 算法.企业数据经营信息投融资信息资产信息知识产权失信信息被执行人司法诉讼税收违法股权关系对外投资关系实控人关系受益人关系行政处罚经营异常税收违法.疑似关系上下游关系企业关系图.招聘信息招投标信息行业情况.风险数据关系数据技术层基础设施层基础关系股权结构地址对外投资交易关系担保关系集团关系实际控制人疑似涉诉事件涉诉关系行内数据图挖掘关系82.71%风险经理客户经理审贷官80.18a.6580实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册80实战篇英特尔中国金融行业AI实战手册实战篇端到端统一大数据 AI平台,助力金融行业实施大数据到深度学习的“无缝切换”基于金融大数据的深度学习方法探索深度学习方法为更多金融业务提供 AI 助力 大数据已成为金融行业的基础设施金融行业与移动互联网、大数据、5G、云计算等新兴技术的不断融合,正催生出网上银行、在线支付等新型金融业务模式,也驱动金融机构启动以智能化、智慧化转型为目标的新一轮信息化建设。这其中,如现代化城市建设之初需要进行“七通一平”工程一样,大数据平台以及其上的应用能力建设,也成为金融机构开展新业务、新功能之前,所必要的“基建”项目。如图 2-8-1 所示,一项数据表明,中国金融行业大数据规模正以惊人的速度不断扩张。同时,一些分析报告的观点也指出,面对不断创新的业务场景,金融大数据平台也在积极变革,在目前其通常需具备下几个特性:良好的实时计算支持:更复杂的业务场景以及更高的监管要求,例如实时风控、交易预警、反欺诈等,对大数据平台的联机事务处理(On-Line Transaction Processing,OLTP)性能提出了更高要求。通过英特尔 架构软硬件产品等构建的基础设施,以及高效的计算、存储引擎,正助力大数据平台提供毫秒、乃至微秒级的实时计算、存储能力;拥抱云平台:更多金融机构正根据业务需要,选择不同类型的云平台(公有云、私有云以及混合云)部署其大数据服务,以便于形成多维度的数据安全防护体系和异地容灾方案。同时,云化的大数据服务也便于按需交付,并形成一点接入、多点互联的便捷性;分布式架构与数据湖:新一代的大数据平台往往选择Hadoop Apache Spark 等为代表的分布式系统架构。基于 x86 服务器集群的大数据平台,为其提供了良好的横向图 2-8-1 中国金融行业大数据规模不断扩大图 2-8-2 典型的金融机构大数据平台扩展能力、线性存储方式以及计算资源,能够助其大幅消减计算和 I/O 资源瓶颈。为快速推动变革,一些金融机构甚至已着手建设混合式架构的数据湖(Data Lake)方案,为深层次的联机分析处理(On-Line Analytical Processing,OLAP)需求提供助力。以上趋势明确显示,与 AI 能力的融合无疑正成为金融行业非常关注,且扮演越来越重要角色的部分。众所周知,AI 的发展离不开算法、算力和数据的支撑,而金融行业大数据可以作为金融 AI 应用的天然载体,为一系列深度学习/机器学习方法提供丰富的训练数据集。近年来,基于金融业务大数据以及英特尔 架构软硬件产品构建的基础设施,诸多金融机构已在反欺诈、金融风控、信贷风险预测、智能客服等方面构建了多样化的 AI 应用能力。这些解决方案前面章节已有详细分析,这里不做赘述。金融大数据平台以及AI能力建设为满足海量金融业务数据的存储,很多金融机构都已建设了基于 Hadoop/Spark 分布式系统存储架构的大数据平台。并以之为基础,开展各类大数据应用或 AI 能力建设。典型的金融机构大数据平台如图 2-8-2 所示,其底层是由客户数据、交易数据、账户数据等结构化、非结构化数据构成的数据源。其上是由 Hadoop 服务器集群构建的数据服务能力,为平台提供分布式文件系统、资源/任务调度以及计算服务。数据服务之上是金融机构根据自身的需求,构建的各类数据应用。数据应用数据服务数据源应用开发智能客服元数据管理安全管理运维管理客户数据交易数据账户数据其他数据灾备管理统计报表风控分析贷后管理风险评估Hadoop 集群数据采集与传输计算引擎分布式文件系统资源 任务调度Spark 任务调度 内存计算应用逻辑结构化数据计算框架非结构化数据函数库半结构化数据2017-2022 年中国金融行业大数据应用市场规模(单位:亿元,%)2018E 2019E 2020E 2021E 2022E 2023E 7006005004003002006320497663808382实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册作为整个平台的核心,Hadoop 集群可为海量的金融业务数据提供高效的分布式文件系统、计算框架、数据仓库以及调度能力。近年来,在英特尔、Cloudera 等企业的推动下,越来越多的金融机构开始采用 Spark 作为大数据平台的计算引擎。与 Hadoop 中的 MapReduce 相比,Spark 能对不同来源、不间断输入数据进行准实时的流式处理,同时其也能使用大规模、复杂的机器学习/深度学习和图计算,对海量数据进行深度挖掘和分析。另外,Spark 还可以使用分布式高速内存数据缓存,用以支持交互式、迭代计算和数据分析,使数据计算速度大幅提升。基于以上大数据平台,很多金融机构开展了大量 AI 应用的探索与实践。例如一些商业银行正利用 XGBoost 算法搭建贷款风险预测模型,并取得了良好的成果。但值得注意的是,目前金融机构在中间业务领域,例如代收代付、结算、信用卡发放等金融中间业务的 AI 应用上,主要还是采用机器学习方法。究其原因是,商业银行等既有的用户、资金数据,一般是宽表、结构化数据,且有着显著的序列化特征,因此从机器学习方法着手,更易于开启 AI 应用探索。随着 AI 应用规模不断扩大,传统单一的机器学习方法也显露出短板。以典型的资金流转预测场景为例,当资金流转的规模和关联性达到一定程度,其呈现出的高智能性、强相关性、紧耦合性以及随机性,使它成为一个复杂的非线性动力系统,而深度学习的方法在预测场景上有着更好表现。另外,传统机器学习方法也难以实现自动化学习,无法从复杂数据中自我学习,以及通过迭代来优化 AI 效果。同时,金融机构大数据平台拥有的海量数据,也能为深度学习训练提供所需的大量数据集。而这些都为金融机构开展基于金融大数据的深度学习方法探索,提供了必要的前置条件。基于既有大数据平台构建深度学习方法遇到的挑战但金融机构从大数据平台向深度学习方法的延伸也并非一蹴而就。这一过程中,金融机构的数据专家和 AI 应用工程师可能会遇到以下问题:既有的 Hadoop/Spark 分布式系统存储架构,在提供强大存储能力的同时,也加深了深度学习框架获取、利用数据的复杂度。从既有大数据平台上构建深度学习模型,如果缺乏端到端的可用平台,将间接抬升金融机构开展深度学习方法研究与探索的门槛;针对不同的业务场景,金融机构在构建 AI 模型时,会根据自身情况选择不同的深度学习框架,以及配套的软硬件基础设施,包括数据平台、计算平台等,这些都会影响预测效率和准确率,并带来大量调试成本;既有大数据平台往往缺乏统一的软硬件集成体系,在使用不同的深度学习框架时,无法有效地为底层算力提供优化、加速。同时,深度学习框架、代码自身的调优,也会消耗大量的人力和时间。为帮助更多金融机构高效地将其既有大数据平台与深度学习方法探索结合起来,英特尔在为大数据平台、深度学习方法提供一系列软硬件产品和技术方案外,也通过与金融行业伙伴开展的深度合作,为以上从大数据到深度学习的“无缝切换”提供了以 Analytics Zoo 为代表的端到端方法、流程和工具平台,并在多个用户的部署实践中,获得了令人满足的成果。基于金融大数据的深度学习方法探索 构建资金流转预测场景下的深度学习方法金融机构要在既有金融大数据平台上实现从机器学习到深度学习的“切换”,需要在一系列的实践中,通过解决以下问题,来形成一套行之有效的方法论以及转换流程:如何根据金融机构业务场景,选择合适的深度学习方法、算法;新的深度学习方法、算法如何与既有大数据平台对接,使大数据平台与深度学习系统形成有效的数据互动;如何利用金融机构信息化系统既有算力和资源,选择合理的优化库,为深度学习方法提供加速;如何降低深度学习方法中,所需的超参数调优等工作给金融机构带来的成本负担。因此,如图 2-8-3 所示,英特尔要帮助金融机构基于大数据平台,开展深度学习方法的探索,就需要与用户一起构建端到端的方法、流程与工具平台。首先,在深度学习方法的选择上,虽然已经有越来越多的深度学习方法被应用于金融领域的各个业务场景,例如,利用深度学习方法在影像分析上的优势,开发人脸检测识别、图像分割等 AI 应用,运用于保险理赔、智能客服等领域。但在资金流转预测等场景中,还是采用机器学习方法为主,这是因为传统的深度学习方法在结构化金融数据这类离散化的数据领域中并不占优。同时,其还面临着需要使用大量标签数据进行训练、理论分析复杂、参数调整要求高等问题。随着深度学习算法、算力和相关优化加速能力的持续提升,以及日趋成熟的金融大数据平台可为深度学习方法提供更多的优质训练数据集,越来越多的金融机构开始探索深度学习方法在资金流转预测等领域中的应用。这些方法包括多层感知机(Multilayer Perceptron,MLP)、差分整合移动平均自回归(Autoregressive Integrated Moving Average Model,ARIMA)、DNN、CNN、LSTM 等不同的算法模型。金融机构可以根据自己的应用目标和数据类型,选择最适宜的算法模型。下文,将对广泛地应用于资金流转预测解决方案的 MLP模型做简单介绍。其次,金融大数据平台往往采用分布式架构部署,因此在部署深度学习方法时,也需要有相应的应对方案。一些金融机构正尝试引入分布式深度学习框架,例如 BigDL,其是由英特尔开源、基于 Spark 计算引擎的分布式深度学习库。通过 BigDL的引入,用户可以将资金流转预测等深度学习应用程序作为标准 Spark 程序,直接运行在现有大数据平台的 Hadoop/Spark 集群上。深度学习方法的构建也需要大量的计算力资源予以支持,这既需要对用户既有信息化系统的资源(具备丰富的通用处理器算力)加以利用,避免重复投资,降低用户 CAPEX 成本;也需要根据处理器特性,开展针对性的优化,提升计算力效率。例如,当 AI 解决方案采用 TensorFlow 框架时,用户可以引入面向英特尔 架构优化的 TensorFlow。优化的框架既可以利用英特尔 MKL 函数库对图运算过程进行优化,也可以对多个线程库进行优化,进而提升计算资源的利用率,加速深度学习方法的执行。图 2-8-3 基于大数据平台构建深度学习方法需要端到端的方法、流程与工具平台图 2-8-4 典型的 MLP 模型架构最后,在传统机器学习/深度学习方法中,需要开展大量的训练数据打标签、超参数调优等工作,这会耗费用户大量的人力资源。因此,为面向未来开展的深度学习方法探索,金融行业用户也迫切希望新方案具备深度学习方法自动调优能力。基于MLP模型的深度学习方法MLP 模型因其简洁、高效和易于部署的特性,而被广泛地应用于资金流转预测解决方案中。典型的 MLP 模型架构如图2-8-4 所示,其是一个由全连接层组成的神经网络,并至少含有至少一个隐藏层(图 2-8-4 作为示例,只有一个隐藏层),且每个隐藏层的输出通过激活函数来进行变换,MLP 模型的超参数是网络层数和各隐藏层中隐藏的单元个数。i1i2i3i4h1h2h3h4h5o1o2o3输入层隐藏层输出层金融业务场景深度学习方法金融企业既有信息化系统优化加速算力支撑训练数据集模型优化预测结果方法选择大数据平台端到端的方法、流程与工具平台OpenVINO面向英特尔架构优化的Python面向英特尔架构优化的Caffe英特尔 至强 可扩展处理器英特尔 FPGA英特尔 MovidiusVPU面向英特尔架构优化的TensorFlow面向英特尔架构优化的MKL-DNNBigDL8584实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册MLP 模型中常用的激活函数包括了 ReLU 函数、Sigmoid 函数和 tanh 函数,其中:ReLU函数提供了一个简单的非线性变换,对于给定元素x,函数定义为 ReLU(x)=Max(x,0 )。因此,ReLU 函数只保留正数元素,并将负数元素清零;sigmoid 函数可将元素的值变换到0和1之间,即 sigmoid(x)=1/(1 exp(x),根据链式法则,sigmoid 函数的导数为sigmoid(x)=sigmoid(x)(1sigmoid(x);tanh 函数可以将元素的值变换到-1 和 1 之间,即 tanh(x)=(1exp(2x)/(1 exp(2x)。根据链式法则,tanh 函数的导数为 tanh(x)=1 tanh2(x),当输入为 0 时,tanh 函数的导数达到最大值 1;当输入越偏离 0 时,tanh函数的导数越接近 0。与其他深度学习方法相比,MLP 模型一方面有着良好的非线性全局作用和容错性,并具有联想记忆功能,在训练数据集规模较大的情况下,可获得优异的预测效果;另一方面,该模型也具有良好的并行处理能力,而这正是拥有众核、高频能力的英特尔 架构处理器最为擅长之处,金融机构可以利用其既有信息化系统中大量的英特尔 架构处理器算力来提升 AI 应用的效能。在 MLP 模型之外,英特尔同时也在帮助金融机构利用其他深度学习模型,例如 DNN、CNN 以及 LSTM 等,在不同金融业务场景中开展预测、推荐等 AI 应用的探索。英特尔为深度学习方法探索提供端到端统一工具平台除了需要确定方法、流程,金融机构在基于大数据平台开展深度学习方法探索时,还需要统一的、端到端工具平台,来承载这些方法和流程。由英特尔推出的开源 Analytics Zoo“大数据分析 AI”平台,一方面可以无缝地将 Spark、PyTorch、TensorFlow、Keras 等软件与框架集成到一个统一的体系中,并方便地扩展到 Hadoop/Spark 集群中,同时也融合了多种软件库,如英特尔 MKL、英特尔 MKL-DNN 等,能够充分释放第二代英特尔 至强 可扩展处理器等计算平台所集成的向量和深度学习指令,大幅提高 AI 应用的训练和推理速度。通过内部集成的 Spark、BigDL 等模块,Analytics Zoo 能够与金融机构既有大数据平台架构“无缝融合”。如图 2-8-5 所示,一方面 Analytics Zoo 可以帮助用户将资金流转预测解决方案中,大数据平台和深度学习方法所需的 Spark、PyTorch 等软件和框架无缝集成到同一流程,有助于用户将数据存储、数据处理以及训练推理的流水线整合到统一的基础设施,从而大幅提升方案的部署效率、资源利用率和可扩展性,并减少硬件管理以及系统运维成本。另一方面,Analytics Zoo 也针对不同的计算处理器平台,提供了大量多样化的优化函数库,如英特尔 MKL、英特尔 MKL-DNN,也针对不同的深度学习框架和代码语言,提供了基于处理器平台的优化版本,例如面向英特尔 架构优化的TensorFlow、面向英特尔 架构优化的 Caffe 以及面向英特尔 图 2-8-5 与金融大数据平台相结合的 Analytics Zoo图 2-8-6 典型的 AutoML 执行流程架构优化的 Python 等;另外,Analytics Zoo 还面向不同 AI应用场景,预置了丰富的功能组件。例如,对于资金流转预测场景,Analytics Zoo 能够提供:预测方法中常见的深度学习模型:MLP、DNN、CNN、LSTM、MTNet、ARIMA 等;预测方法中常用的数据预处理和特征工程:Datetime features、Time diff、Log-transform、Rolling window 等;预测方法中普遍的异常探测方法:Percentile、Distribution-based、Uncertainty based、Autoencoder 等。最后,在最新版本的 Analytics Zoo 中也加入了 AutoML 框架,用于自动化特征选择、模型选择和超参调优等,令预测模型工作效率获得进一步提升。面向未来的AutoML框架一般地,传统深度学习或机器学习模型中的数据预处理、模型优化等工作,都需要富有经验的数据科学家来完成,这无疑提升了金融机构的系统维护压力和人力成本。为此,英特尔在其最新的 Analytics Zoo“大数据分析 AI”平台中,加入基于开源 Ray 分布式框架的 AutoML 框架,使特征生成、模型选择和超参数调优等流程实现了自动化,帮助用户进一步提升预测效率。如图 2-8-6 所示,AutoML 框架主要由 FeatureTransformer、Model、SearchEngine 和 Pipeline 等组件构成,其中:FeatureTransformer 定义了特征工程流程,包括了特征生成、特征缩放和特征选择等操作;Model 定义了模型以及所使用的优化算法;SearchEngine 用于搜索 FeatureTransformer 和 Model 的最佳超参数组合,是控制模型训练过程的核心;Pipeline 配置了 FeatureTransformer 与 Model 的最佳端到端数据分析流水线,可反复加载使用。以金融行业的资金流转预测为例。首先,AutoML 会将参数调整后的 FeatureTransformer 和 Model 送入 SearchEngine 中进行实例化,SearchEngine 随后会借助 Ray Tune 在右侧集群中进行多轮的试验(trail jobs),每轮试验都会使用不同的超参数组合,进行特征工程以及模型训练。最后,系统会选出最优的一组超参数和模型的组合(best model/parameters)返回给 SearchEngine,然后送入 Pipeline 供后续的预测训练与推理使用。更多 AutoML 的代码、Demo 和文档,请参阅:在 Analytics Zoo Repo 中的 branch https:/ AutoML 自述文档 https:/ Demo 手册 https:/ 优化方法示例为帮助金融机构用户更快、更便捷地利用 Analytics Zoo,开展基于金融大数据平台的深度学习方法探索,并获得良好的应用效果,英特尔为用户提供了多样化的代码优化实例。以下为一段供参考的优化示例代码,并主要分为几个主要功能块:定义 HADOOP_CONF_DIR 以及初始化 yarn;数据的预处理,包括数据清洗去重、数据的拆分等;定义模型的各种超参数,为后续模型的训练和预测做准备:模型的准备工作,包括模型定义、特征集获取、准备交叉验证数据集等:利用 Analytics Zoo 进行训练。前端应用前端应用智能产品实时风控智能营销数据源统一的大数据和 AI 平台统一的大数据和 AI 平台高层 API 管道后端APIDataModel智能柜面客户管理客户流失潜客挖掘行内数据同业数据外部数据个性产品推荐用户画像智能投顾贷前贷中风控交易欺诈用户画像个人信贷公司信贷理财推荐工资卡营销贷后监控应用案例支持的模型支持的数据预期催收CRM推荐系统图片分类图片TensorFlowKerasBigDLOneDNNApache SparkApache FlinkOpenVINO3D 图片Tfpark:基于 Spark 的分布式 TFnnframes:Spark DataFrame&深度学习和机器学习 pipeline基于 Spark 分布式 Keras 自动求导分布式模型服务:批处理,流式和在线学习文本时间序列目标检测Seq2SeqBERTTransformer异常检测文本分类文本匹配.资产负债网站APPATM智能客服每次实验运行超参数的不同组合实验工作搜索到的最佳模型和参数实验实验实验Ray Tune实验参数可调节参数可调节配置已算出的最佳性能的参数和模型预设置搜索FeatureTransformerModelPipelineSearchEngine8786实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册数据的预处理:定义模型的各种超参数:利用 Analytics Zoo 进行训练:模型的准备工作:定义 HADOOP_CONF_DIR 和初始化 yarn:某商业银行应用案例案例背景 大数据已成为金融行业的基础设施代发工资是商业银行重要的业务之一,其是接受企业等用人单位的委托,将所需支付的劳动报酬等款项,通过转账划入指定的员工账户。这一业务的开展,可为商业银行带来了以下的收益:企业对公账户和个人工资账户中的活期存款沉淀,一直是银行优质低息的纳储来源,通过代发工资业务,可以增加银行存款,帮助银行获得资金储备;为银行注入流量,增加新的有效客户数,并带来后续设立信用卡、各类信贷业务收入(汇兑、短信通知等等)以及销售理财产品的机会,乃至为银行带来贷款用户;代发工资业务,以及其配套的增值服务,可为银行带来持续的手续费收入,比如账户管理费、企业网银服务费、短信费等。同时,拥有工资卡的个人也能为银行带来年费、工本费、账户小额托管费等收入;通过代发工资业务的开展,银行还可基于此推动更多业务的开展,创造延伸性服务空间,例如为企业和员工提供专项附加扣除信息收集等全流程服务,提升用户体验。传统上,工资代发只是一种金融中间业务,很多个人客户在收到工资到账的信息后就把钱直接转走,银行并没有获得低成本高质量的资金沉淀,也无法开展服务延伸并从中产生利益,所以工资代发的后期管理就显得非常重要。在过去,商业银行通过客户经理对接、柜台业务推荐、广告手册等方式提高用户资金留存率。随着 IT 技术的不断进步,越来越多的商业银行正运用信息化技术,乃至 AI 能力,来构建资金流转预测系统,提升银行对金融中间业务的后期管理能力,实现对资金流转的精准把控,并助力赢得客户,提升竞争优势。作为全球排名前二十的知名金融机构,某股份制商业银行也一直积极发展工资代发等金融中间业务。随着银行数字化服务的不断升级,某具有大量用户的商业银行也围绕客户信息、账户信息、资金流转信息等业务数据,在英特尔、Cloudera 等合作伙伴的助力下,构建了高效的金融大数据平台。并在此基础上,通过聚类算法、XGBoost 等机器算法的引入,开发部署了资金流转预测、业务推荐、主动营销等 AI 应用。8988实战篇实战篇英特尔中国金融行业AI实战手册英特尔中国金融行业AI实战手册随着该行业务规模,尤其是个人客户规模的不断扩大,其金融中间业务涉及的数据量也大幅增加。同时,围绕工资代发业务开展的信用卡、个人理财、信用贷等业务,所具有的大量非线性、强相关和紧耦合特性,也使资金流转预测的复杂度急剧抬升。为有效应对以上变化,对金融科技和数字化创新始终有着高度敏感性的该商业银行,与英特尔一起,在日益成熟的Cloudera 金融大数据平台上探索构建深度学习方法,并将之应用于资金流转预测场景。为帮助用户更好地推进这一应用,英特尔除了为方案中的深度学习方法提供强劲的算力资源,以及软件调优方法,还为其提供了端到端的统一大数据 AI 平台Analytics Zoo。方案架构及部署成效在银行看来,工资代发不仅是其吸纳存款、保证资金流通的重要来源,也是开展其他高质量业务,诸如信用卡、理财、个人贷款等的重要抓手。因此,银行希望基于深度学习方法,对工资代发后用户三天内的资金流转情况进行预测,从而可以根据不同的用户行为特征,制定更有效的产品营销方案。通过充分的沟通和交流,在预测系统新方案的设计、构建与部署上,双方总结出了以下几个方面的需求:新方案需要和银行既有的 Cloudera 大数据平台无缝对接;新方案可以有效利用其信息化系统中英特尔 架构处理器的计算力;新方案可以面向不同应用场景,灵活使用不同的深度学习框架,例如其原有推荐系统使用的是 TensorFlow,但在预测系统中双方计划使用 PyTorch,方案需要对不同的框架都有良好的支持;预测系统新方案需要达到 80%的预测准确率(AUC 值)。基于以上需求,如图 2-8-7 所示,英特尔与银行一起,规划设计了基于 Cloudera 大数据平台的深度学习架构,其核心是通过引入开源 Analytics Zoo 平台,在银行既有 Hadoop/Spark大数据平台和基于深度学习的 AI 应用之间,构建起一条高速通道。方案借由 Analytics Zoo,在 Cloudera 大数据平台之上构建 5个主要能力,分别是深度学习框架、机器学习框架、模型训练/增量学习集群、模型分布式推理服务以及 AutoML 框架。首先,面向大数据平台的分布式架构,Analytics Zoo 平台通过 BigDL、模型分布式推理服务的引入,实现了分布式的工作流对接。其次,针对预测系统中用到的 Pytorch 框架,用户可以将其直接部署在 Analytics Zoo 平台中。另外,Analytics Zoo 平台也为新系统提供了一系列易于使用的抽象和 API,例如传输学习支持、签名操作、Spark 数据帧、在线模型服务API 等,用于开展模型训练和推理。软、硬件建议配置以上资金流转预测解决方案的构建,可以参考如下基于英特尔 架构的平台完成,环境配置如下:硬件配置软件配置图 2-8-7 某商业银行基于大数据平台开展深度学习图 2-8-8 某商业银行优化效果 AUC 值同时,为了更好地利用其既有信息化系统中英特尔 架构处理器提供的算力,Analytics Zoo 平台通过内置的各函数库,提供加速能力,提升其在预测系统的推理计算性能。为了让用户更快地在 Analytics Zoo 平台上构建起基于深度学习方法的预测系统,英特尔帮助用户使用 PyTorch 框架,在平台上使用 MLP 模型进行预测系统代码的重构,并根据测试结果进行了多轮迭代优化。如图 2-8-8 所示,在经过两轮优化后,预测效果(AUC 值)达到 878,满足了用户的预设需求。小结资金流转管理在商业银行运营中占有重要的地位,是银行实现收益最大化的一大保证,也是抵御风险的基础之一。通过合作开发基于深度学习方法的资金流转预测解决方案,英特尔与用户一起,对金融行业实施从大数据到深度学习的“无缝切换”进行了探索,并获得了宝贵经验。这其中,围绕着Analytics Zoo 平台开展的一系列工作流程、方法论以

    浏览量0人已浏览 发布时间2023-10-18 56页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 中国人民银行:2023公共数据金融应用白皮书(54页).pdf

    本白皮书版权属于中国人民银行成都分行营业管理部,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国人民银行成都分行营业管理部”。违反上述声明者,本部将追究其相关法律责. 

    浏览量195人已浏览 发布时间2023-08-18 54页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 中国信通院:2023年二季度互联网投融资运行情况研究报告(15页).pdf

     http:/ 政策与经济研究所 2023年二季度互联网投融资运行情况互联网团队2I.我国互联网投融资表现低迷。2023Q2,我国互联网投融资案例数环比下跌30.5%,同比下跌60.9%;披露的金额环比.

    浏览量16人已浏览 发布时间2023-07-30 15页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 神州信息:2023年手机银行MAU和AUM双增实操宝典(28页).pdf

    2023 年手机银行 MAU 和 AUM 双增实操宝典2023 年 6 月20232023 年手机银行年手机银行 MAUMAU 和和 AUAUM M双增实操宝典双增实操宝典杨娜杨娜|晋梅晋梅神州信息神.

    浏览量61人已浏览 发布时间2023-06-09 28页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 北京金融科技产业联盟:2023 5G消息金融应用白皮书(57页).pdf

    5G 消息金融应用白皮书北京金融科技产业联盟2023 年 5 月I版权声明本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本白皮书文字或观点的,应注明来源。违反上述声明者.

    浏览量37人已浏览 发布时间2023-05-18 57页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • IDC&腾讯云数据库:2023中国金融行业国产分布式数据库白皮书(33页).pdf

    以数字基础领域的全面进步助力金融企业创新发展中国金融行业国产分布式数据库白皮书ContentsIDC观点第一章 金融业深耕数字化转型,推进技术架构的现代化发展1.1 金融行业业务发展态势1.2 金融行. 

    浏览量148人已浏览 发布时间2023-05-05 33页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 北京金融科技产业联盟:2023智能流程自动化金融应用落地研究报告(38页).pdf

    智能流程自动化 金融应用落地研究报告 北京金融科技产业联盟 2023 年 3 月版权声明 本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本白皮书文字或观点的,应注明来源. 

    浏览量37人已浏览 发布时间2023-03-13 38页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 中国互联网金融协会:中国移动金融客户端应用软件(APP)发展运行报告(40页).pdf

     Powered by TCPDF(www.tcpdf.org) 

    浏览量106人已浏览 发布时间2023-03-02 40页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 普华永道&上海数交所:数启新篇智赢未来-“数据二十条”对金融行业的影响与启示(36页).pdf

    数启新篇,智赢未来“数据二十条”对金融行业的影响与启示1数启新篇,智赢未来“数据二十条”对金融行业的影响与启示12目录1.前言前言32.“数据二十条”解读和对金融行业的影响分析“数据二十条”解读和对金.

    浏览量66人已浏览 发布时间2023-03-02 36页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 北京金融科技产业联盟:基于区块链技术的数据协作网络金融应用研究报告(2023)(65页).pdf

    基于基于区块链区块链技术的技术的数据协作网络金融应数据协作网络金融应用研究用研究 The Research Report on Financial Industry Application of Da.

    浏览量42人已浏览 发布时间2023-03-01 65页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 埃森哲:SAP新技术:加速财务数字转型(14页).pdf

    SAP新技术:加速财务数字转型引言“因势而谋、应势而动、顺势而为。”新冠疫情之下,面对瞬息万变的市场环境和业务需求,如何准确把握时代脉搏,快速响应未知变化,是当今企业的重要课题。两年前,突如其来的全球.

    浏览量56人已浏览 发布时间2022-12-29 14页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 多元金融行业:互联网金融监管渐入常态化阶段-221207(27页).pdf

    免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 多元金融多元金融 互联网金融监管互联网金融监管渐入渐入常态化阶段常态化阶段 华泰研究华泰研究 多元金融多元金融 增持增持. 

    浏览量24人已浏览 发布时间2022-12-08 27页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 帆软:金融数字化经营解决方案(2022)(35页).pdf

    帆软大金融事业部打造行业移动端工作台创新产品应用,领跑行业移动端数据分析轻应用赛道,助力实现移动办公需求N 个场景化的数字化解决方案覆盖银行、证券、保险、信托、资管、基金、租赁等细分行业,涉及数字营销. 

    浏览量104人已浏览 发布时间2022-11-25 35页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 千际投行:2022年互联网金融行业研究报告(19页).pdf

     第一章 行业概况“互联网金融”是以互联网为载体进行的金融业务活动,包括但是不限于为第三方支付、在线理财产品的销售、信用评价审核、金融中介、金融电子商务等模式。从广义上讲,具备互联网精神的金融业态统称为.

    浏览量217人已浏览 发布时间2022-11-17 19页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 百分点:2021年第四季度互联网金融行业舆情分析(23页).pdf

    百分点舆情中心出品H E L P C U S T O M E R S Q U I C K L Y U N D E R S T A N D T H E P U B L I C O P I N I O N. 

    浏览量90人已浏览 发布时间2021-12-02 23页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 金融行业:互联网金融重定位-211115(18页).pdf

     自 2013 年,监管已经通过一系列政策和措施督促第三方支付行业提高交易透明度,降低风险,主要包括断直连和客户备付金管理。第三方支付领域的“断直连”指第三方支付机构在资金和信息上断开与银行的直接连接,. 

    浏览量167人已浏览 发布时间2021-11-16 18页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 金融行业: 互联网金融监管政策展望-210728(22页).pdf

    金融科技公司的信贷业务是近年来监管持续高度关注的领域,也是目前互金行业整改的核心领域。并不是所有的互联网平台公司都有支付牌照或者希望进入支付领域,但是几乎所有的平台公司都有信贷相关的业务,所以监管影响.

    浏览量264人已浏览 发布时间2021-07-29 22页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 众安在线-领先的互联网保险公司;首次覆盖“买入”评级-210720(21页).pdf

    公司的健康生态长期布局以百万医疗险尊享e生系列为核心的服务,尊享e生至今已经历19次迭代(截至2020年末)。公司旗下众安互联网医院与2,000余名医生、100余家外部伙伴合作,为用户提供一站式健康管.

    浏览量65人已浏览 发布时间2021-07-21 21页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
42条  共3
前往
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部