上海品茶

您的当前位置:上海品茶 > 报告分类 > PPTX报告下载

【中国科学院】大数据在金融行业价值发掘中的应用(56页).pptx

编号:92313 PPTX 56页 3.37MB 下载积分:VIP专享
下载报告请您先登录!

【中国科学院】大数据在金融行业价值发掘中的应用(56页).pptx

1、金融电子化厦门演讲,2016.11.24,大数据在金融行业价值挖掘中的应用,吕本富教授,目 录,引言一、数据与大数据二、数据分析的类型三、大数据催生新经济四、大数据塑造新模式五、发掘信用价值的对比,商鞅说:,“强国知十三数欲强国,不知国十三数,地虽利,民虽众,国愈弱至削”竟内仓、口之数,壮男、壮女之数,老、弱之 数,官、士之数,以言说取食者之数,利民之数,马、牛、刍藁之数。可见治国要做到心中有“数”。,劳氏说:,1987年,是印度传奇数学家拉曼努扬(SrinivasaRamanujan,1887-1920)的百年诞辰。当代著名统计学者,出生于印度的劳氏(C.Radhakrishna Rao,1

2、920),也应邀做了三场演讲。印度统计学研究所(IndianStatistical Institute)基于劳氏的演讲稿,于1989年,为他出版统计与真理(1997年发行第二版,http:/201508-70944.html),在第一版的序文中:我相信:在最终的分析中,所有知识皆为历史。在抽象的意义下,所有科学皆为数学。在理性的世界里,所有判断皆为统计。,一、数据和大数据,1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=1YB。数据体量从TB级别跃升到PB级别。,纽约证券交易所每天会产生1TB的数据,国外SNS网站Twitter每天产生的

3、数据总量则为8TB大型强子对撞机将产生350万TB的数据。2013年每天全球产生25PB数据,相当于1500个国家图书馆信息量的总和。人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。,管理学院,School of Management,UCAS,什么是数据?,数据(data)在拉丁文里是“已知”的意思,在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。笼统地说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。古人“结绳记事”,“结”是数据,绳子是存储。步入现代社会,信息的种类和数量越来越丰富,载体也越来越多。数

4、字是数据,文字是数据,图像、音频、视频等都是数据。,管理学院,School of Management,UCAS,研究数据、发现价值,人类科学发展史上的不少进步都和数据采集分析直接相关,例如现代医学流行病学的开端。伦敦1854年发生了大规模的霍乱,很长时间没有办法控制。一位医师用标点地图的方法研究了当地水井分布和霍乱患者分布之间的关系,发现有一口水井周围,霍乱患病率明显较高,借此找到了霍乱暴发的原因:一口被污染的水井。关闭这口水井之后,霍乱的发病率明显下降。这种方法,充分展示了数据的力量。,数据比方法重要,1913年,理查森加入英国气象服务战,作为一名物理学家,很快掌握了流体运动方程,这就意味

5、着利用物理和数学知识,可以预测第二天的天气情况。但是需要6个星期的数据准备。直到一战结束,理查森的预报基本没有准确性。到二十世纪,过去五年对未来3天的天气预报的准确度已经达到95%。利用的方程还是理查森的方程。现在预报利用精密的雷达和卫星地图,不再需要理查森那样到处收集参差不齐的大气数据。在加上计算机对数据的快速处理,基本能实时反馈。,大数据产生的动力,社会交往UGC数据、分享数据、碎片化数据,自然记录实时数据、机器数据、非结构化数据,各种智能设备,各种社交平台,新摩尔定律:过去18个月产生的数据等于计算机有史 以来的总和。或者说 网络空间的数据90%都是近2年产生的,成为跨界和颠覆的基础。,

6、个人行为的大数据,大数据时代,每个人都会“自发地”提供数据。我们的各种行为,如点击网页、使用手机、刷卡消费、观看电视、坐地铁出行、驾驶汽车,都会生成数据并被记录下来,我们的性别、职业、喜好、消费能力等信息,都会被从中挖掘出来,以分析个人行为的规律。,2022/8/17,大数据区别于数据,从数据到大数据,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据可以容易地被整合、分析,原本孤立的数据变得互相联通。这使得人们通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值。,2022/8/17,基于大数据治理策略更有效,小数据时代,政府做决策更多依凭经验和局部数据,难

7、免头痛医头、脚痛医脚。比如,交通堵塞就多修路。大数据时代,政府做决策能够从粗放型转向集约型。路堵了,利用大数据分析,可以得知哪一时间、哪一地段最容易堵,或在这一地段附近多修路,或提前预警引导居民合理安排出行,实现对交通流的最佳配置和控制,改善交通。,2022/8/17,摘自飞轮效应-数据驱动的企业,二、大数据分析的价值,首席数据官(CDO),数据科学家将负责在大型数据中集中探测,提取有用数据,加以清洗、分析、可视等处理供业务部门使用。建立数据模型,构思假设并在数据模型中进行测试,提出解决业务问题的作业模式。,1、“描述性分析”(Descriptive Analytics),根据IBM价值研究院

8、的报告,今天90以上的实时数据只是被静态地存储了起来,并没有经过分析,但60以上的实时数据只有在实时的决策中有价值,之后便变得毫无意义。没有洞察的数据,只是静态的数据,只能实现“描述性分析”(Descriptive Analytics),即根据历史数据进行统计归纳,可以实现现象的准确描述。这属于大数据分析的第一阶段,大多应用于消费互联网。,如何实时掌握艾滋病流行情况,2、“预测性分析”(Predictive Analytics),如果能够根据历史性数据,在数据中发现规律、形成洞察,就能够更加接近客观真相。IBM和美国亚特兰大州格威纳特县的公立教育机构合作,用大数据分析学生逃课的规律,发现需要帮

9、助的同学,并给他们及时提供更多的教育资源。根据分析数据呈现的规律,预测米兰时装周的流行趋势,了解小德在红土、草地、硬地上击球的力量和速度规律,蜂群迁移的方向。,Target的怀孕分析,Charles Duhigg在2012年纽约时报报道:有一名男子怒气冲冲地来到一家明尼苏达附近的Target连锁店,向店长投诉该公司最近给他十几岁的女儿邮寄婴儿服装和孕妇服装的优惠券。店长大方地向他道了歉。可不久后店长又收到这名男子的电话要求再次道歉只是这一次对方告知那个少女确实怀孕了。在她的父亲还没有意识到的时候。Target店如何“猜出”哪些是孕妇?通过分析所有女性客户购买记录,其发现女性客户会在怀孕四个月左

10、右,大量购买无香味乳液、无味湿纸巾和补镁药品。由此挖掘出25项与怀孕高度相关的商品,制作“怀孕预测”指数。,社交平台的情绪预测,社交媒体监测平台DataSift监测了Facebook(脸谱)IPO当天Twitter上的情感倾向与Facebook股价波动的关联。在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后Facebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。最终当股市接近收盘、Twitter上的情感转向负面时,10分钟后Facebook的股价又开始下跌。最终的结论是:Twitter上每一次情感倾向的转向都

11、会影响Facebook股价的波动。,3、“指导性分析”(Prescriptive Analytics),因为对于很多决策者来说,更重要的是如何在多变、不确定、动荡的当下作出正确的决策。去年APEC会议期间北京上空惊现“APEC蓝”,就是指导性分析的结果。IBM大数据分析和认知计算精确地测算出,在11月4日到5日和11月9日到11日两个时间段内,北京会遭受严重的空气污染,污染源分别来自北京西南周边地区和北京东南周边地区。这一情况提前三天就被预测出来,政府因此实现了小规模、分时段的管控,保障了会议期间北京的空气质量。值得一提的是,北京市政府并没有简单地对周边区域全部工厂进行大面积关停处理,而是用最

12、小的经济代价实现最大的社会价值。,大数据的纸牌屋,纸牌屋最大的特点在于,与以往电视剧的制作流程不同,这是一部“网络剧”。简而言之,不仅传播渠道是互联网观看,这部剧从诞生之初就是一部根据“大数据”,即互联网观众欣赏口味来设计的产品。Netflix成功之处在于其强大的推荐系统Cinematch,该系统基于用户视频点播的基础数据如评分、播放、快进、时间、地点、终端等,储存在数据库后通过数据分析,计算出用户可能喜爱的影片,并为他提供定制化的推荐。,三、大数据催生新经济,美国的金融重心正在从华尔街向硅谷转移,其背后的推手是以高科技与互联网企业为代表的新经济的兴起。新经济带来的不只是对传统商业模式的颠覆,

13、也为经济学引入了全新的思考。微观经济学和行为经济学成为硅谷企业了解消费者、研判趋势、设计未来的利器。,2022/8/17,何为新经济?,1.从基于实物商品的经济转变到基于软件和知识产权的经济。2.共享经济,减低信息成本,更简便高效地匹配市场供求。像Airbnb和Etsy这样的新经济网站给人们创造了新的赚钱途径在自己出外度假时把房子出租,或出售艺术创作和手工艺品。3.“组合职业”的兴起,每个人都是自身职业的创业家。新时代的就业者不仅需要不断学习新技能,而且要紧贴时代的经济脉搏,发掘新机遇。,2022/8/17,微观经济学的变革,硅谷引领的新经济让微观经济学家如鱼得水。他们精于某个特定领域,通常是

14、某一类型的市场或公司,试图揭示其运转原理。有了科技公司提供的大数据,微观经济学家对人们的行为做出了惊人的准确预测。微观经济学就是数据驱动,挖掘大数据的经济学。硅谷的公司越来越青睐他们:将一位最前沿的经济学家招致麾下,他们就能预测出消费者或者员工下一步可能的动向。,2022/8/17,SmarterTravel,以旅游服务公司TripAdvisor的子公司SmarterTravel为例,用户一点开其网站,一项由经济学家设计的算法就开始启动。各种数据,包括两次点击鼠标间隔的时间,都有助于预测该用户究竟是随便看看、打发时间还是潜在的买家。网站会在数毫秒内做出调整浏览者会看到更多的广告,而买家则会看到

15、一个更为简单的网页,以他们的选购为重点从而达到利润最大化。其他公司会出售自己的预测能力。任何一家担心员工流失的公司都可以请hiQ Labs的团队通过深入研究公司记录,找出最有可能离职或者被挖走的员工。人力资源总监就可以针对他们做工作。,2022/8/17,行为经济学的机遇,与微观经济学类似,基于人类非理性行为的观察,为了更好去解释人作为个体和群体在日常经济中的行为,经济学的另一重要领域也在快速发展行为经济学。与经典经济学本质不同之处在于,行为经济学不再把“理性人”作为经济学分析的客观假设,而是把人类行为的不理性纳入到经济学分析当中去。行为经济学研究的出发点恰恰是对人类非理性行为的观察。,202

16、2/8/17,发掘金钱“不等值效应”,我们对意外之财和自己每个月的薪水态度截然不同。自己已经拥有的东西和同等价值可以轻易买到的东西,我们更为珍爱前者。我们对问题的回应很大程度上取决于问题的呈现方式:我们觉得用信用卡支付时加收附加费用不公平,但却认为现金支付的折扣合情合理。,2022/8/17,经济学家角色转换,过去十年,宏观经济学家对整体经济的研判屡屡失误,集合微观经济学的大数据与行为学派的观点,应用于宏观研究,会是很有价值的尝试。微观经济学家在专注的领域屡有建树,在微观经济层面(即公司和个人行为层面),行为学派也已经站稳脚跟。,2022/8/17,三、大数据塑造新模式,金融信息中,最核心的是

17、资金供需双方信息,特别是资金需求方的信息,如借款者、发债企业、股票发行企业等,是金融资源配置和风险管理的基础。基于大数据的金融服务平台主要指拥有海量数据,关键是从大量数据中快速获取有用信息的能力,或者是从大数据资产中快速变现的能力。通过对其进行实时分析,可以为互联网金融机构提供客户全方位信息,通过分析和挖掘客户的交易和消费信息掌握客户的消费习惯,并准确预测客户行为,使金融机构和金融服务平台在营销和风险控制方面有的放矢。,1、团购金融,“团购金融”就是为高效聚合广大用户投资需求而发起的团购形态,参与产品的设计、购买、客服全流程,是一种新型的以金融理财产品和服务为交易对象的互联网金融新模式。团购金

18、融就是降低金融产品交易双方的成本,为广大投资者寻找最合适的投资收益机会。高效聚合、参与全流程、降低交易成本是三个关键点。金融机构的套利能否顺利实现的重要条件是交易成本的高低,资金归集越容易,数目越大,套利就越容易。团购金融一般是货币基金。,2、网络众筹,众筹(crowdfunding)大意为大众筹资或群众筹资,是指用团购预购的形式,向网友募集项目资金的模式。本意众筹是利用互联网和SNS传播的特性,让创业企业、艺术家或个人对公众展示他们的创意及项目,争取大家的关注和支持,进而获得所需要的资金援助。众筹平台的运作模式大同小异需要资金的个人或团队将项目策划交给众筹平台,经过相关审核后,便可以在平台的

19、网站上建立属于自己的页面,用来向公众介绍项目情况。,3、信用资质,社交网络生成和传播信息,特别是对个人和机构没有义务披露的信息,使得人们的“诚信”程度提高,大大降低了金融交易的成本,对金融交易有基础作用。社交网络具有的信息揭示作用可以表现为:个人和机构在社会中有大量利益相关者。这些利益相关者都掌握部分信息,比如财产状况、经营情况、消费习惯、信誉行为等。单个利益相关者的信息可能有限,但如果这些利益相关者都在社交网络上发布各自掌握的信息,汇在一起就能得到信用资质和盈利前景方面的完整信息。“淘宝网”类似商务社交网络,商户之间的交易形成的海量信息,特别是货物和资金交换的信息,显示了商户的信用资质。,4

20、、搜索和云计算,搜索引擎对信息的组织、排序和检索,能缓解信息超载问题,有针对性地满足信息需求。搜索引擎与社交网络融合是一个趋势,本质是利用社交网络蕴含的关系数据进行信息筛选,可以提高“诚信”程度。比如,抓取网页的“爬虫”算法和网页排序的链接分析方法(以Google的PageRank算法为代表)都利用了网页间的链接关系,属于关系数据。云计算保障海量信息高速处理能力,资金供需双方信息通过社交网络揭示和传播,被搜索引擎组织和标准化,最终形成时间连续、动态变化的信息序列。可以给出任何资金需求者(机构)的风险定价或动态违约概率,而且成本极低。这样,金融交易的信息基础(充分条件)就满足了。,5、场景匹配,

21、基于需求场景分析用户需求,可以让产品更接地气。它应该拥有这样的结构:“在某某时间(when),某某地点(where),周围出现了某些事物时(with what),特定类型的用户(who)萌发了某种欲望(desire),会想到通过某种手段(method)来满足欲望。场景和用户匹配,需要进行迭代式创新。,五、发掘信用价值的对比,互联网金融机构基于大数据的信用风险评分模型和传统金融机构采用的信用风险评分模型在数据来源、变量生成、模型方法、应用方式、应用目标上均存在一定差异传统的信用风险评分模型由于结构相对简单,数据来源相对固定,模型开发和运行所需的计算环境和性能要求相对单一。大数据信用风险评分模型,

22、无论在模型训练还是应用环节,均需要海量计算,对存储和计算性能要求较高。,2022/8/17,1956年,工程师BillFair和数学家EarlIsaac共同发明了著名的FICO评分方法。该方法基本以Logistic回归方法为技术核心,是当前业界应用最成熟的信用风险评分模型。在20世纪6080年代,随着信息技术的进步和业务的快速发展,信用评分模型在信用卡、消费信贷、住房抵押贷款和小企业贷款中得到了广泛应用。随着大数据和互联网金融的兴起,机器学习算法走出了学术领域,开始在部分互联网金融机构的信用风险评分模型中得到应用。以Zestfinance公司为例,该公司将机器学习算法应用于信用风险评分模型中,

23、这是大数据信用风险评分模型领域的早期探索之一。,2022/8/17,1、数据来源及数据特征的差异,传统信用风险评分模型的数据来源主要是三大类:客户向金融机构提交的个人申请信息、金融机构内部积累的客户历史数据、人民银行征信中心等外部机构提供的数据。数据的主要特点是数据质量和信息价值密度高、维度相对单一、可验证性较差、数据采集渠道规范性较好。传统金融机构基于传统的高价值密度的数据,研发出各类信用风险评分模型,实现对客户信用风险的评价,已经成为成熟的、规范化的运行方式。,2022/8/17,2、大数据信用数据特征,大数据时代的客户信息来源更加多元化,各互联网金融机构掌控的生态体系内积累的客户信息,以

24、及通过外部各种渠道采集的客户信息。其数据特征包括:一是数据较为稀疏。数据采集渠道的多元化和非标准化,导致客户信息缺失率较高,同一客户不同维度的信息经常不完整,最终体现为数据的稀疏性。二是价值密度相对较低。单项数据的信用评估价值密度较低,缺少传统金融机构拥有的含金量较高的征信类数据、历史违约数据。三是数据覆盖维度广。部分机构通过各种渠道积累了涉及用户行为各方面的数据,如不少机构采集了覆盖衣、食、住、行、娱乐、购物、通信等各种来源的信息。,2022/8/17,四是单变量风险区分能力弱。分析发现,尽管市场上常见的大数据机构采集了各种维度的客户行为信息,对客户总体形象的刻画更详细,但这类数据并未专注于

25、客户信用风险,往往缺少内部征信数据、外部征信数据、个人资产评估等有强区分能力的变量。大数据机构采集的客户衣食住行、社交类等信息,在信用风险评估领域大多属于弱区分能力变量,需要汇集、整合大量信息以后才能实现区分效果的实质性提升。五是数据来源规范性不足,不少大数据采集机构通过灰色渠道采集个人隐私数据,数据可持续性不佳。,2022/8/17,3、模型变量生成和挑选方式的差异,不同的数据特征直接影响到模型变量的生成、挑选方式。传统信用风险评分模型候选变量数量较少,单一模型候选变量常在数百至数千个数量级。进入模型的变量往往在数十个数量级。模型变量数量较少,客观上使得数据可以经过多番清洗,清洗后的数据质量

26、相对较好;同样由于变量较少,传统金融机构往往在变量挑选过程中开展多轮定量和定性分析。在筛选模型变量的过程中,除了参考变量的区分能力等定量维度,往往还需要参考机构内部业务专家的意见。,2022/8/17,大数据时代,由于原始数据体量较大,通过变量本身衍生、变量之间衍生后产生更多候选变量。在单个模型内,相近的候选变量可多达数百乃至上万个。由于缺乏专家团队支持,通常采用挑选规则等方式自动化挑选候选变量,人工干预和专家审核较少。同时,由于模型变量数量庞大和数据质量较差,容易出现模型变量未经严格数据清洗程序就进入模型的情况,对模型表现造成影响。,2022/8/17,4、建模技术方法的差异,不同的数据特征

27、直接影响到建模技术方法的选择。传统的信用风险评分模型以Logistic回归方法为核心。Logistic方法处理二分类因变量的数据有独特的优势,同时模型关于数据分布的假定较弱,在数据为非正态分布时,也有较好的表现。因此,该方法是当前国内外金融机构、征信机构最广泛应用的方法。,2022/8/17,大数据信用风险评分模型更多采用了神经网络(NeuralNetwork)、支持向量机(SupportVectorMachine)、随机森林(RandomForest)等算法。这些机器学习方法在解决特定问题时具有优势,如有些方法适用于处理稀疏的数据;有些能更好地解决模型过度拟合问题;有些能处理大量的输入变量,

28、预测准确度较高,能有效提升模型表现。和传统的Logistic方法相比,每类机器学习方法都有自己的特色,但并未完全超越传统方法。,2022/8/17,5、模型技术架构的差异,传统信用风险评分模型大多采用单层模型技术架构,即自变量因子通过WOE转换以后计算产生评分和违约概率。在这种技术架构下,传统模型运行维护相对较为简单,但模型少数关键变量直接影响模型的表现。一旦少数变量导致模型表现下降,需要通过研发新模型及时替换原有的模型。,2022/8/17,大数据信用风险评分模型的模型结构具有两大特点:一是采用母子模型结构。即先通过子模型将稀疏的大数据信息加工成密集信息,再将子模型的输出信息作为母模型的输入

29、变量,将信息逐层加工,形成模型嵌套模型的技术架构。子模型一般采用神经网络、随机森林、支持向量机等机器学习算法,母模型采用传统的、成熟的Logistic回归等技术方法,实现模型应用框架不发生太大变化的情况下,具有更好的区分效果。,2022/8/17,二是采用动态挑战者模型挑选和淘汰机制。在母子模型架构下,假设进入运行的子模型有100个,备选模型有200个,一旦在运行的子模型中有效果下降至某个最低阈值的模型,则会被剔除,而从备选的200个模型中挑选效果较好的替补模型进入到子模型序列中。这种动态调整机制在实现总体模型运行效果相对稳定的同时,也给模型的运行维护带来了较高的复杂度。,2022/8/17,

30、6、模型应用方式的差异,传统的信用风险评分模型本质上是对信贷专家决策过程的模拟,银行等传统金融机构在应用信用评分模型时通常采用人机结合的方式,对信息比较充分的客户,根据评分和规则实现自动化审批;对信息不充分的客户,由专家进行人工审批决策。互联网金融机构倾向于应用大数据信用风险评分模型,除了极少数情况(如信贷额度较大)外,均采用全自动化决策方式,一般不进行人工干涉。,2022/8/17,上述差异产生的原因主要包括:一是在传统金融机构内部,信用评分模型是整个信贷决策流程的一部分,完全采用模型决策代替人工决策,需要信贷决策的利益相关方逐步接受和适应;二是传统机构对部分客户掌握信息不够丰富,对部分灰色

31、区域的客户风险判断依据不足,需要结合审批人的专家判断作为补充;三是传统金融机构授信额度相对更大,在客户信息掌握不充分的情况下,潜在损失更大,而互联网金融机构授信额度普遍较低,完全通过模型进行信贷决策产生的潜在损失较小。,2022/8/17,7、模型上线运行方式的差异,模型技术架构的差异直接导致模型上线运行方式的差异。传统的信用风险评分模型通常将单一模型嵌入到在业务流程系统中,直接用于信贷决策。部分成熟的欧美银行可以同步运行23个挑战者模型,当单一模型表现下降的时候,实现及时切换。大数据信用风险评分模型中,数百个模型同步上线并行计算成为可能。这对部署在信贷业务流程系统中的决策引擎和数据环境提出了

32、更高的要求。如决策引擎需要采用分布式架构,以实现海量变量的同步计算,要求提前在数据环境中部署海量的原始变量和建模变量,以保障模型在切换时随时有新变量可供替换。,2022/8/17,8、模型应用目标的差异,传统的信用风险评分模型目标和大数据信用风险评分模型目标存在差异。简单地说,可以把传统模型盯住的目标变量认定为狭义的信用,大数据模型盯住的目标变量认定为广义的信用。传统信用风险评分模型的目标变量是客户信贷违约可能性,核心是预测客户在某个信贷产品上的违约概率。大数据信用风险评分模型的目标变量更多反映的是广义上客户信用品质,并未专注于客户信贷违约预测。因此,大数据信用评分模型也应用于客户信贷评价以外

33、的领域。,2022/8/17,9、模型优劣的判别标准,信用风险评分模型判别标准应当包括若干维度:模型区分能力、稳定性、可解释性、统计显著性、复杂度等。一个良好的信用风险评分模型,应当具备如下特点。一是区分能力优秀。优秀的信用风险评价模型应当具备准确区分客户的风险等级,并按照其风险等级进行准确排序的能力。这是判断信用风险评价模型优劣的主要标准。二是运行稳定。包括区分能力的稳定性和可持续运作的稳定性。区分能力的稳定性指模型不仅在开发阶段、开发样本中具备区分客户的能力,在投入运行后具备同样的能力。模型可持续运作能力很大程度取决于数据的可获得性,一旦数据无法持续获得,模型可持续运行能力将受到影响。,2

34、022/8/17,三是具备可解释性。模型的可解释性指向监管机构、金融机构内部利益相关方进行合理解释。这要求模型拟合结果符合基本经济学逻辑和业务逻辑,以便向监管机构、内部利益相关方清晰解释模型的运作机理和风险驱动因素。四是统计显著。如果是统计类模型,则在单变量及模型总体层面均需要通过统计检验,以确保基于实际数据建立的关系在统计上是成立的。五是复杂度尽可能低。一般来说,在同等效果或效果接近的情况下,优先采用简单模型。,2022/8/17,10、结论:,决定信用风险评分模型的区分能力的主要因素是有效的数据样本,而非模型本身。在以相同的建模样本为数据基础的情况下,机器学习算法模型和传统的Logistic回归模型在区分能力上的差异有限。只要对大数据进行适当加工处理,采用传统Logistic回归方法依然是可行的,区分能力是稳定的。,2022/8/17,适当调整当前的模型架构。传统信用风险评分模型采用单层的模型技术架构,导致难以在单一的模型内容纳足够的信息,客观上影响了区分能力的提升。建议可借鉴大数据信用风险模型技术架构,在不改变传统的Logistic方法框架基础上,嵌套23层子模型,将更多有价值信息纳入到模型中,提升模型表现。,2022/8/17,

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(【中国科学院】大数据在金融行业价值发掘中的应用(56页).pptx)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部