上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

湖仓一体方案在金融科技行业的实践-大数据平台技术论坛(19页).pdf

编号:84486 PDF 19页 1.36MB 下载积分:VIP专享
下载报告请您先登录!

湖仓一体方案在金融科技行业的实践-大数据平台技术论坛(19页).pdf

1、湖仓一体方案在金融科技行业的实践程俊杰上海数禾信息科技大数据平台负责人Contents目录01公司业务02湖仓一体架构的演进04湖仓一体的未来规划03基于 MaxCompute+Data Lake Formation+E-MapReduce的湖仓一体架构公司业务01公司业务模式服务数据让人人享有金融服务最优解做陪伴一生的智能金融家2015年成立,C轮,主要产品“还呗”、“拿铁智投”湖仓一体架构的演进022021.8-至今2018.12-2020.82015-2018.11湖仓一体架构的演进CDH+EMR混合云OSS+EMR生态的云原生数据湖基于MC+DLF+EMR的湖仓一体架构云上自建CDH集

2、群2020.9-2021.8云上自建CDH集群在数禾的应用Sqoop报表系统Jupyter机器学习RDS业务库统一用数交互式查询应用层传输层数据源RDS业务库对象存储日志数据KafkaFlume存储层HDFS计算层HiveSparkTEZ云上自建CDH集群的瓶颈自建CDH集群扩展性差,扩容操作难度高且有一定操作风险CDH组件的压力日益变大昼夜资源使用不均,导致资源无法合理使用CDH集群使用本地SSD磁盘,存储费用高随着公司业务的飞速发展,业务所用计算资源消耗越来越大CDH+EMR混合云在数禾的应用对象存储HDFS存储EMR Hive元数据CDH Hive元数据HiveSparkTezEMR报表

3、系统Jupyter机器学习RDS业务库统计用数交互式查询应用EMRHiveEMRHiveEMR Chive(兼容CDH Hive)元数据存储EMR Chive(兼容CDH Hive)日志数据Kafka业务数据RDS第三方存储数据源CDHCDH+EMR混合云的瓶颈元数据管理不完全统一用户权限管理不统一部门计算资源不能有效隔离HDFS和对象存储上的数据有冗余员工日益增多组织架构日趋复杂,集群架构不能满足需求OSS+EMR生态的云原生数据湖在数禾的应用业务数据RDS业务VPC日志数据Kafka资信数据OSS第三方存储数据源数据湖存储OSSEMR数据同步集群核心数仓集群业务集群JindoFS Cach

4、e模式JindoFS Cache模式JindoFS Cache模式标签集群JindoFS Cache模式Airflow Master统一LDAP用户管理统一Ranger权限管理GatewayAirflow WorkerGatewayAirflow WorkerGatewayAirflow WorkerGatewayAirflow Worker标签系统应用Jupyter机器学习报表系统统一用数交互式查询应用大数据VPCRAM访问控制统一Hive元数据03基于 MaxCompute+Data Lake Formation+E-MapReduce的湖仓一体架构OSS+EMR生态云原生数据湖的瓶颈异构

5、计算引擎元数据管理不统一异构计算引擎存储管理不统一湖仓计算不能自由流动异构计算引擎权限管理不统一公司引入MaxCompute作为计算引擎的数据中台产品EMR(数据湖)智能数据构建与管理数据中台业务RDS数据湖存储OSS数据同步EMR即席查询EMR机器学习EMR统一用数交互式查询Jupyter机器学习业务OSSMaxCompute(数据仓库)ODS贴源层CDM数仓层OneData建模ADS应用层VDM沙箱层计算流动元数据统一基于MaxCompute+DLF+EMR的湖仓一体架构DLF数据湖构建元数据管理数据血缘管理数据权限管理智能CacheJindoFS+MC数据湖加速冷热分层本地缓存加速元数据

6、管理+湖加速实现MaxCompute+DLF+EMR架构面临的挑战METASTORE_DLF_FAILUREr/w hms first,write dlf allow failureMETASTORE_DLF_SUCCESSr/w hms first,write dlf must successDLF_ONLYr/w dlf onlyMETASTORE _ONLYr/w hms onlyHive自动化单元测试全覆盖25个EMR集群按重要性分批灰度升级生产全部EMR集群的Metastore组件无感切换为DLF组件DLF_METASTORE _SUCCESSr/w dlf first,write hms must success基于MaxCompute+DLF+EMR湖仓一体架构的收益统一元数据管理统一存储管理统一权限管理湖仓计算自由流动04湖仓一体的未来规划湖仓一体的未来规划跨平台高速网络数据仓库MaxComputeOSS对象存储元数据统一数据流动元数据映射数据流动统一元数据管理(元数据仓库+元数据服务)注册同步注册湖仓数据集成+开发湖仓血缘关系湖仓权限管理湖仓数据管理+治理数仓内置存储湖仓统一开发管理平台计算流动智能Cache+查询加速数据湖E-MapReduceJindoFs加速联邦数据源存储计算流动联邦数据源HologresRDSHbaseES存储层THANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(湖仓一体方案在金融科技行业的实践-大数据平台技术论坛(19页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部