《03-云原生跨域大数据架构落地实践-吴维伟.pdf》由会员分享,可在线阅读,更多相关《03-云原生跨域大数据架构落地实践-吴维伟.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、京东云原跨域数据平台落地实践京东零售-集团数据计算平台部/吴维伟录.京东数据平台概况.京东云原数据平台建设背景和挑战三.京东云原数据平台落地实践四.落地收益五.未来规划离在线混部跨域存储 京东数据平台是京东数据业务的基础服务平台,为京东数据业务的实现提供站式、助式的数据处理全流程解决案。涵盖数据采集、存储、加、分析、可视化、机器学习等专业化产品和服务,通过数据集中从形成效的数据开放,在保障数据安全的前提下,提供助式的服务平台,幅降低数据消费槛,帮助京东数据业务快速落地,助京东实践以数据为驱动的业务变与发展。云原存算分离Hadoop提供站式、助式的数据处理全流程解决案跨域数据架构.云原数据平台概
2、况集群规模数百万核存储能数 EB计算能运job数百万.云原数据平台概况-平台架构标 促期间在线业务 0 采购扩容 常在线资源共享给离线使=云原弹性伸缩架构升级资源弹性伸缩的最价值是通过资源共享式充分复资源,在资源使上的错峰填,以达到提升集群资源利率的效果,实现资源价值最化。架构升级 K8S在线服务YARN离线调度离线计算混部资源调度(JMR)(控制混部离在线资源例、弹性伸缩)K8S在线服务离线计算YARN实时计算实时计算痛点 促期间在线业务采购机器应对业务峰 常在线资源利率低.云原数据平台-建设背景 如何统离线和在线的资源调度?离线在线混合部署时,如何保证在线业务不受影响,离线业务基本稳定?.
3、云原数据平台-建设挑战 跨机房资源共享后,跨机房数据访问如何避免影响在线任务(络隔离与流控).云原数据平台-建设挑战三.落地实践-(1)计算混部资源池化资源统封装,屏蔽底层IaaS特性统资源调度,上层应系统感使按需调度,促节点,离线仅需借出数时资源效利在线应和离线计算具有资源互补的特点,可通过统资源调度提升资源复率统资源协同离线计算在线计算共享资源池在线资源离线资源混部资源 K8S 统资源管控 JMR(混部资源管理)协调混部资源调度,结合单机弹性实现资源动态伸缩。强资源隔离保障在线业务 TP99三.落地实践-(1)混部架构统资源管理 K8S 统管理资源 计算服务容器化改造 混部调度器(JMR)
4、协调 K8S 资源分配和 NM 弹性伸缩单机弹性 安全位 离线最最配额(min,max),动态调整 定制化驱逐策略:容器类型、优先级、启动时间、资源容量运维优化 YARN Operator 管理 NM pod 命周期 基于 Token 案实现 NM 节点注册验证资源隔离 联合 K8S 团队实现 CPU 隔离、络 QoS,保障在线业务 TP99 改造 HADOOP 底层,持基于任务等级、流量类型等多种式设置络优先级离线配额安全位三.落地实践-(1)混部关键技术资源占分布00:0000:1000:2000:3000:4000:5001:0001:1001:2001:3001:4001:5002:0
5、002:1002:2002:3002:4002:5003:0003:1003:2503:4003:5004:0504:1504:2504:3504:4504:5505:0505:1505:2505:3505:4505:5506:0506:1506:2506:3506:4506:5507:0507:1507:2507:3507:4507:5508:0508:1508:2508:3508:4508:55资源位线资源使量收益技术内核智能编排引擎利云原架构实现峰值资源按需购买,购买资源每占时不超过 4 时资源位线以上计算资源可以分批腾退,降低数据平台机器成本时序预测数据缘任务诊断动态规划问题:资源占分
6、布不均衡,部分离线资源时间闲置标:利弹性伸缩能,峰值资源按需向云平台购买,减少离线计算常驻资源量挑战:规模、复杂作业链路,超百万任务,资源预测困难运时间任务优先级志解析链路图谱任务解析时序预测资源预测时预测时序编排任务托管资源监测读写监测资源调度基于作业分级,结合资源预测、数据缘、作业性能诊断等能,智能动态向云平台按需购买资源,降低离线机房常驻资源需求总体资源量云平台资源借三.落地实践-(1)混部资源动态规划机房A只读 standbyDN块异步传输3 机房 6 副本跨域流控BLKDNBLK只读 standbyDNBLKDNBLK机房BActiveDNBLKDNBLKstandbyDNBLKDN
7、BLKDNBLKDNBLK机房感知机房C只读 standbyDNBLKDNBLK只读 standbyDNBLKDNBLKDNBLKDNBLKDNBLKDNBLK灾备持跨域切换块异步传输2 机房 4 副本DNBLK1 机房 3 副本EC 3 机房 3.54.5 副本架构改造 机架感知-机房感知 跨域容灾:灾备可读,持跨域切换 跨域流控 跨域EC 低冗余EC(1.16副本)架构优势 跨机房读取变为本地读取,减少跨域流量 跨域命周期实现只同步最新数据,历史数据动删除 持数据机房级容灾三.落地实践-(2)跨域存储?-1rack-1rack-2DNDNDNDNDNDN?-2rack-3rack-4DND
8、NDNDNDNDN?-1rack-1rack-2DNDNDNDNDNDN?-2rack-3rack-4DNDNDNDNDNDN/?拓扑管理:/region/cluster/rack 机房感知:RPC 携带机房信息 基于 IP 的机房查询 这个DN属于哪个机房?这个客户端属于哪个机房?标识定义(持副本及EC):regionA:3:1,regionB:2:0,ttl:7200:regionA:2:1:MODIFY,ttl:7200:regionB:0:0:MODIFY 元数据变更:XATTR 块属性标识数据跨机房要怎么放?三.落地实践-(2)跨域存储:机房感知和标签RedundancyMonito
9、rCrossRegionRedundancyMonitorAsyncCrossRegionQueueAsyncCrossRegionUpdater增量存量跨域配置录变更跨域块同机房块跨域录复跨域补块 跨域补块独处理,不影响原有同机房逻辑 异步跨域更新器,结合跨域标签属性,实现切换接续补块 持效的跨域数据共享跨域流控 跨域补块流控 读写优先客户端同机房 DN 跨域读写流控 balancer 机房内部均衡三.京东云原数据平台-(2)跨域存储:数据分发及流控底层存储件系统接层京东云数据命周期挂载管理统权限管理访问控制华为云私有云JDHDFS离线计算引擎实时计算引擎多维分析引擎路由转发 接层实现通需求,包括权限、访问控制、数据命周期、数据调度等 接层利挂载能实现弹性扩缩容 数据调度实现不同挂载存储的数据迁移数据调度三.京东云原数据平台-(2)跨域存储:存储云原618及双11促期间动态调拨离线平台数万核撑在线系统流量峰,节省量采购成本常期间,离线平台复在线系统资源数万核,利率提升20%+,节省量成本四.落地收益五.未来规划