《云原生大数据平台架构演进——弹性、融合、开放-蔡适择.pdf》由会员分享,可在线阅读,更多相关《云原生大数据平台架构演进——弹性、融合、开放-蔡适择.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、云原数据平台架构演进弹性、融合、开放顺丰科技 蔡适择CONTENTS.背景&趋势.顺丰数据平台架构升级三.顺丰数据架构在内外部的应实践四.后续规划1背景&趋势顺丰简介-集团业务概览 快递物流快递快运同城即时配送国际冷链医药仓配体增值服务供应链综合物流其他业务丰巢顺丰房托丰泰产业园顺丰数科更多.数据截时间:2022年1231顺丰是中国第、全球第四快递物流综合服务商,为客户提供国内及国际端到端站式供应链服务。同时,依托领先的科技研发能,致于构建数字化供应链态,成为全球智慧供应链的领导者。335个地级市(含直辖市)国内城市覆盖率99.4%2,813个 县区级城市国内县级覆盖率99.4%98个国家及地
2、区国际快递及供应链业务覆盖208个国家及地区跨境电商包裹业务覆盖2,675亿2022年度年营业收162,823 员数量中国 服务全球顺丰数据平台应简图数据分析AI智能区块链IoT 万物互联智慧供应链智慧物流智能调度智能控数据运营分仓预测智能调拨数据平台数据平台发展趋势数据基础设施湖仓体价值逐渐被认可存算分离、云原成为现代基础设施标准流批体诉求越来越数据平台发展趋势数据管理成熟度曲线2数据平台架构升级原有架构痛点1存算体超融合计算存储分离计算能MPP分析类报表类CPUDisk定义款通机型存储能计算能CPUGPUFPGADisk存储计算25G络列存储压缩存储能计算密集CPUHDD/SSD3D-Op
3、t存储密集数据集群的部署基本都将存储与计算融合在起,导致:1.法进存储或计算的定向伸缩,造成资源浪费2.发机器负载时会带来量的数据复制,影响稳定性数据服务的部署受限于本地IDC的事前规划,对峰往往需要提前预测及备服务器,机器采购、搬迁、上架、环境安装等均需要耗费量的精与时间,资源的弹性伸缩能严重不,造成资源浪费。原有架构痛点2数据孤岛湖仓分离技术组件独多云数据中数据时效性不以天级为主,时级为辅数据致性不湖中的更新不定覆盖到仓半结构化数据持弱半结构化数据难以被分析应到跨源联邦分析难以满数据冗余数据致性不跨云数据融合分析难以满不致的户体验,使成本元数据独,找数难数据跨境安全保障低Clickhous
4、e顺丰可区(顺丰云)新加坡可区(GCP)户数据业务数据业务系统BDP户数据业务数据业务系统BDP原有架构痛点3产容灾分离存储-HDFS存储-HDFS产环境容灾环境DISTCP空闲Slot空闲Slot空闲Slot空闲Slot计算资源池Spark SlotMR SlotFlink SlotPresto Slot计算资源池.容灾双活产、容灾数据实时致,任务法做到感切换资源浪费容灾计算资源闲置浪费数据致性差容灾和产数据法保障实时致,维护成本弹性融合数据平台整体架构 产品整体上分为四部分,包括弹性资源层、融合计算层、数据洞察层和安全中。产品标是为客户提供极致弹性、感、安全、简单易的云上数据服务数据洞察层
5、数据集成数据直通IDE任务调度站式数据场数据建模主动元数据数据质量数据缘数据管理平台数据权限管理数据应平台丰景台数据服务数据户数据市场隐私计算数据安全融合计算层实时数仓CDC深度整合多模索引优化深度定制Hudi表格式&元数据管理统SQL跨源联邦查询计算下推加速深度定制SQL解析器&CodeGen湖仓体统Catalog类型动推断Static&Dynamic Pruning弹性资源层对象存储/HDFS存储/混合存储弹性资源调度(ECS/k8s)业云(融、政务)公有云(AWS、GCP、Azure、阿云、腾讯云、华为云)本地私有云数据中权限认证加解密脱敏印合规审计KMSShared-nothing C
6、acheRemote Shuffle Service资源弹性伸缩策略管理核能1资源弹性伸缩计算统SQL JDBC ServerSQL解析认证鉴权查询优化下推RBOCBO资源管理Session管理引擎管理统元数据服务Catalog适配器HiveSparkFlink统数据语,便利引擎升级K8S-CCEspark-executor-podCache-pod新机房计算资源池spark-driver-podCK8S-CCEspark-executor-podCache-pod机房计算资源池spark-driver-podCK8S-CCEspark-executor-podCache-pod公有云计算资源
7、池spark-driver-podCK8S-CCEspark-executor-podCache-pod顺丰云计算资源池spark-driver-pod存储对象存储S3新机房HDFS数据适应分布,实现跨机房融合旧机房HDFS专线专线专线构建精细化缓存,精准调度计算资源,打破机房限制数据资源控制中本地IDC 部署API顺丰云EC2 API公有云EC2 API资源精准调度模块加密传输存储跨机房融合数据多机房动分布,数据副本异步实时动分布到不同机房,保障数据实时致存储架构融合,HDFS和OSS实现架构融合,户可以实现透明平滑的上下云及弹性伸缩数据透明加密,数据传输链路全透明加密,数据安全可控缓存精细
8、化、智能化数据透明缓存,缓存的读写对户透明,使没有槛缓存命周期管理,缓存数据命周期基于LRU进动化管理,缓存及时淘汰缓存精细化,列、块级别缓存,相于件块缓存更加节省空间,能够原来1%的内存空间存储原来10倍以上的有数据 资源精准调度、智能调度资源按需弹性伸缩,将顺丰云、本地IDC和公有云资源纳计算池,业务峰时将任务弹性公有云,峰过后及时释放,能有效降低业务峰的应对成本算智能调度,能够动识别缓存所在位置,算运的时候动调度到该位置,有效提缓存的命中率任务智能调度,任务可以根据数据所在机房进灵活调度,避免跨机房络带来的性能损耗核能2逻辑数据仓库交互问题数据孤岛数据安全 不同数据源使不同的SQL,导致
9、开发员需要学习和使不同的SQL或API,增加开发和维护的难度。分散在不同数据源中的数据,法进跨数据源的关联分析,难以快速挖掘数据价值。跨不同数据库系统的数据访问需要在多处重复设置权限,缺少统安全管控,法有效保证数据安全。数据分散在不同数据源中,缺少统元数据管理,导致数据不能由流动和共享,形成了相互孤的数据“孤岛”户痛点统元数据统语统安全逻辑数仓解决案统元数据服务多数据源MySQLStarRocksElastic SearchKafkaHiveHudi元数据管理REST InterfaceThrift Interface统元数据管理JDBCConnector业务元数据ESConnectorKaf
10、kaConnectorHMSConnectorConnector Manager逻辑数仓组织CatalogDatabaseTable统SQL语查询优化引擎接层语法解析JDBC接语义校验统认证负载均衡统元数据管理统权限控制逻辑计划物理计划代码成启发式优化器&模型优化器LogicalProjectLogicalFilterLogicalJoinTableScanTableScanLogicalProjectLogicalFilterLogicalJoinTableScanTableScanLogicalFilter统SQL服务(统语)统安全管理服务统认证户管理统审计统鉴权管理组织管理认证服务件操作
11、审计志库表权限管理统权限数据存储字段级权限管理级权限管理鉴权代理元数据操作审计志认证操作审计志件操作审计志监控与告警服务核能3多云融合与管理多云存储资源管理多云计算资源管理Public Clould 3Private CloudPublic Cloud 2DataOps PlatformIDE(Query/Programing/DevOps)Data Management PlatformTask Scheduling Platform(Real time&Offline)Data Service Management PlatformData Integration Management P
12、latformCloud Connect数据安全区1(中华)数据安全区2(欧盟)BDP Computing Resource PoolCompute NodeData CacheCompute NodeData CacheOSS StoragePublic Cloud 1BDP Computing Resource PoolCompute NodeData CacheCompute NodeData CacheOSS StorageCompute NodeData CacheCompute NodeData CacheHDFS StorageCompute NodeData CacheOSS
13、StorageOSS StorageCloud ConnectCloud ConnectCloud ConnectScript CenterUnifiedCatalog数据安全区1(中华)数据安全区2(欧盟)Catalog-1Catalog-2Catalog-3Catalog-4Catalog-5Data ComplianceXXX3案例分享某国际物流集团多云数据案例欧洲可区(AWS)新加坡可区(华为云)北美可区(GCP)跨境运单跨境运单隐私数据隐私数据财务数据财务数据1.海外本地业务:必要数据不出境,尽量实现本地化,如:欧洲、北美在满合规要求的前提下,可将不涉及隐私的数据传输新加坡统管理(法
14、务Case By Case评估业务场景的合理性、必要性)数据合规:包括采集地合规和数据落地国家合规2.跨境业务:获取个户授权后,中国跨境业务通过港可区联通,数据的双向流程需满源和的国家的法律法规要求获取个户授权后,海外跨境业务可出境数据传输新加坡可区3.应设计基本原则:个户数据加密将个户数据剥离,满隔离性要求需要满多云数据平台统管理需求,不可能每朵云个和套运维需要满跨云统元数据管理和融合计算解决跨国多云数据安全合规和统管理问题,统、致体验、统运维户数据业务数据业务系统云原数据湖统数据平台户数据业务数据业务系统云原数据湖户数据业务数据业务系统云原数据湖主动元数据数据市场数据开发套件(丰)数据分析
15、平台(丰景台)运维监控平台数据跨境策略管理平台欧洲数据分析师总部数据分析师北美数据分析师顺丰数据平台历史技术债务清理案例统SQL服务HiveServer任务调度系统模拟执“双跑”系统获取任务SQL改写任务SQL(替换SQL中真实表名为测试表名)任务“双跑”(同时在统SQL和Hive中执)结果初步对后分析及输出报告统SQL服务(federal-server)灰度发布服务(federal-canary)新schetl-hive-driver.jar 任务调度系统BDP_HIVE虚拟节点原schetl-hive-driver.jar HiveServer调度hive任务调度hive任务询问是否要灰度
16、不需要灰度 访问原HiveServer需要灰度灰度管理系统配置下发灰度发布系统使统SQL系统实现对Hive任务户感透明换引擎。构建模拟执“双跑”系统,确保引擎切换的数据致性。构建灰度发布系统,进任务粒度的切换管控,逐步、有序地切换。解决案&已实现4w+Hive任务户感“透明”迁移任务平均耗时降为原来的40%平均耗费资源降为原来的50%实现降本5w+CU效果Hive运慢、占资源多其Tez引擎问题多,社区已不维护现存15w+Hive任务,法修改进技术(引擎)升级 临问题 跨机房带宽不:带宽,同步数据量,存量超过100PB,变更数据量超1.5PB,难以在短期内将数据同步到新机房 达到户感迁移体验难度
17、:线上作业超过30w+,并且业务逻辑复杂度、对资源需求量差异常,机房迁移过程中,需要做到不停服务,不影响任务SLA达成,实现对户感知迁移常困难 多机房资源融合管理难,不同机房的机器规格配置各不相同,如何做到逻辑上统的资源池管理具备挑战性迁移难点迁移成果机房迁移落地:完成了超过100PB数据,20w+的任务从机房迁移新机房,整个过程对户感知,任务SLA时效100%达成混合云跨机房弹性架构在迁移过程中规模应:成本低、效率、槛低,资源可以快速补充,前实现3个本地IDC的全融合,并以华为云作为外部弹性资源补充,顺利通过双峰考验落地案业界对顺丰案传统案强致性,数据同步中新旧机房数据完全致不停机迁移式:数据需要复制,数据同步需配置易遗漏不灵活,数据致性难保障,同步数据延迟,致性低按需灰度,数据不需要全部同步完就可以按需进任务灰度VS实时融合,数据迁移不需要预,且完全融合现有机房户透明,迁移过程对户透明,户感知,落地效率停机迁移式:业务影响、难以短时间完成、有集群恢复不了险顺丰数据平台机房迁移案例4后续规划数据平台的ChatGPT+