《董彦广-有效运维数据治理.pdf》由会员分享,可在线阅读,更多相关《董彦广-有效运维数据治理.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、1有效运维数据治理的探索董彦广2022-1221传统数据治理2基本概念3治理方法4落地实施目录CONTENTS3014数据治理三大要害:数据治理专注于将数据作为企事业单位数据资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高数据质量,实现数据内外部共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产价值。狭义上:数据治理是指对数据质量的管理、专注在数据本身。广义上:数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作,同时还包含数据资产目录、标准、质量、安全、开发、服务与应用等,整个数据生命周
2、期而开展开的业务、技术和管理活动都属于数据治理范畴。数据治理的价值与挑战方法论数据汇聚离线数据在线数据梳理资产目录数据地图开发代码工作流.监管安群运维权限.展现门户大屏模型ODSDWDDWSADM面向应用业务治理数据治理管理形成知识提炼抽象方法手段标签模型关系识别轨迹匹配映射关联服务业务监控数据资产大屏安保大屏查询特征画像标签查询预警规则引擎预警中心服务数据开放API开放数据治理的价值降低运营成本提升业务处理效率改善数据质量控制数据风险增强数据安全赋能管理决策数据治理的5类问题黑暗数据安全风险糟糕的数据质量数据标准不统一数据孤岛数据治理的6个挑战价值认知不足缺乏顶层设计战略上不够重视标准不统一
3、难以整合业务人员参与不足缺乏组织及人才支持当前广泛认知的数据治理5典型大数据管理方案人工智能大数据数据整合功能设计应用发布需求分析数据应用模型设计辅助决策价值挖掘数据智能经营分析数据资源数据计算管理治理开发调度数据模型计算模型数据源关联业务目标可视化样式数据任务管理机器学习数据应用数据整合用户接入数据采集数据安全最终目标数据资产增值保管数据赋能业务6典型大数据平台架构数据源业务物联网实时数据流非结构化数据外部数据数据采集离线实时FTP接口代理数据中心存储RDMS消息队列分布式存储存储非结构化数据图片文本实时数据存储模型离线数据应用租户计算区离线实时标准层数据湖数据治理元数据管理标准研发统一调度
4、资产架构服务质量管理门户可视化数据应用经营分析客户挖掘用户画像业务预测风险控制数据应用数据服务统一运维资源监控服务监控告警事件管理自动化运维流程管理数据安全身份管理认证管理加密脱敏安全日志安全预警安全审计7数据治理在整个大数据平台中的定位治理平台资产管理(元数据、标准、质量、资产、目录)应用建模数据采集数据共享数据加工数据源数据基础支撑采集平台数据资源中心质量稽核运维平台安全平台数据采集管理ETL集中监控维护信息安全保障共享开放数据管理&应用门户数据资产&服务控制&调度是整个大数据资源平台管理与应用开发的统一入口是对数据资源及数据资产进行管理与应用控制的主要界面提供数据加工处理的核心能力,并串
5、联、集成其他能力模块完成面向需求的数据生产,是实现将原始数据资源转换为数据应用服务的中心枢纽123540资产管理8构建数据治理应用与服务体系技术工具专业团队管理分析理论4PSTP理论PEST分析方法成功经验用户使用行为5W2H生命周期逻辑树数据处理管理HadoopAI技术机器学习管理治理数据仓库数据分析对比分析交叉分析回归分析数据标签回归聚类分类神经网络语音识别图像识别ETL交付流程项目需求分析系统开发与测试平台上线应用平台运营支撑功能/模型迭代平台工程师数据工程师项目管理运营支撑架构与功能设计应用开发平台建设咨询服务公式法对比法二八法漏斗法统计分析方法大数据平台建设数仓/BI建设数据治理数据
6、建模应用开发分析咨询专题主题开发运营支撑功能/模型迭代算法工程师数据咨询师90210数字化运维的新课题-运维数据治理狭义上:IT运维过程中产生的各种软硬件系统运行数据。广义上:围绕运维全生命周期而产生和使用的监控指标、报警、日志、网络报文、用户体验、业务运营、架构及链路关系、运维知识、CMDB(配置管理数据库)、运维流程等数据,都属于运维数据的范畴。什么是运维数据?1.相对于业务数据治理,对运维数据治理的重视度不足。2.运维数据类型不同,运维数据在类型上更加广泛。3.运维数据治理不是从零开始,已经存在大量的平台工具,积累了一定的运营经验,如何将分散的组织、流程和工具等整合在一起是运维数据治理的
7、一个方向。4.运维是生产的最后一道防线,数据量多且敏感,包括海量的日志、业务运营流水、用户体验、配置管理等重要数据。5.标准化不足,现有的数据治理标准主要关注业务数据,运维领域没有明确的、行业认可的运维数据模型。与业务大数据治理的区别追踪请求范围指标可聚合日志事件记录请求范围内的指标请求范围内的事件可聚合/分解的事件告警11数字化运维的新课题-狭义运维数据的抽象认识Metrics,特点是可累加,具有原子性,每个都是一个逻辑计量单元。时序指标Log,特点是描述一些离散的(不连续的)事件。日志数据Tracing Model,特点是在单次请求的范围内处理信息。任何的数据和元数据信息都被绑定到系统重的
8、单个事务上。调用链数据运维场景分类一元场景指标日志调用链转化场景日志转指标日志转调用链调用链转指标指标、调用链、日志转告警二元场景日志+指标日志+监控调用链+指标12运维数据治理的特色业务层业务系统交易链、业务流程交易量、交易成功率、交易错误率、交易处理时间、交易金额等应用系统层数据库、中间件、PaaS、SaaS、客户端应用日志、流量包、服务、代码、微服务、浏览器、App首屏时间、白屏时间、App崩溃率、缓冲区命中率、页面加载时间、浏览器类型基础设施层硬件设备、操作系统、IaaS、IoT主机、Linux、Windows、网络、虚拟化、CMDBCPU利用率、内存利用率、磁盘空间、主机数量、虚拟机
9、数量、流量等运维指标体系分层智能运维场景根因分析告警抑制影响分析指标+算法+关联关系CMDB配置管理CMDB应用系统调用拓扑智能运维场景全局指标把控,提前发现问题请求性能分析错误异常分析应用和服务依赖分析单次请求调用链请求状态、URL、主机实例、响应耗时、SQL耗时、API调用耗时.调用链路知识图谱13业务连续性、交付速度、IT服务质量、降本增效、客户体验运维主数据运维元数据数据标准质量管理安全管理建设阶段规划建设运营运维数据平台、运维指标体系、CMDB、监控工具运维数据模型运维数据治理新思考新方法不能照搬现有的数据治理标准,基于已有标准、模型、运维数据的特点以及场景化管理与应用,构建合适的模
10、型和方法相对于传统业务数据的差异:数据模型不同、数据来源不同、数据采集方式不同、数据时效性不同、数据唯一性要求不同、支撑场景不同运维数据的特点:海量、实时、多格式、范围广传统企业数据治理的目的:提升业务的敏感性,通过建立一致的企业数据模型以及统一的组织数据展示和利用,从而让业务人员能够更快地获取用户与产品数据,进行更好的市场业务洞察,提升业务对市场的响应效率。运维数据治理的目的:保障IT系统的稳定运行和业务的连续性,所以面向IT服务的感知能力、度量能力、分析能力是运维数据应用的场景基础。14数据资产运维流程及场景解决方案事件诊断事件检测事件登记事件分类事件关闭已有方案未解决问题管理变更管理可用
11、性管理容量管理服务级别管理CMDB知识库监控管理服务台事件信息应急措施变更请求解决方案报告报告SLA参数报告告警转事件工单配置细节经验整理知识引用统一应急响应平台故障定位根因分析自动化运维预案管理预案编排应急处置15031617运维价值相关因素操作风险外部网络攻击形式、政策法规要求、人员扩张、运维操作性工作量大幅增加、自动化大量引入等因素,带来更多操作风险变更交付更快地感知客户体验、产品服务创新、迭代速度、更短的技术评审时间等因素,驱动运维全方位变化技术架构新技术选择时机、技术成熟度、对存量技术架构的影响,以及新技术附带的选择成本等技能与文化新需求、新技术、新机制带来新知识,组织面临建立新的学
12、习型文化以更快适应变化应用逻辑越来越复杂的业务逻辑关系、更细粒度的原子服务、外部监管政策要求等因素,逻辑越来越复杂,呈现动则生变的常态化风险海量链接移动化、物联网、开放平台等业务模式的引入,带来海量的数据、海量的连接、海量的终端,加大业务连续性风险协同机制DevOps、一切皆服务、SRE、ITOA、AIOps等理念,带来新的协同机制的建立外部因素政策及监管趋严、全线上在线监管等因素,驱动IT运维精细化能力不断提升运维价值相关因素运维数据全景业务和体验交易数据业务流程客户体验运营管理客户端应用服务应用配置应用制品应用参数应用平台容器数据库虚拟机操作系统环控网络存储服务器IoT虚拟化变更发布事件问
13、题服务台交易订单量交易委托量交易金额交易成功率功能调用数任务调用数交易耗时页面加载错误率APP崩溃率客户投诉率终端版本用户IPJVM内存利用率接口调用数CDN质量端口监听业务参数制品包发布脚本调用链路响应时间负载SQL执行时间缓存命中率连接池数量CPU内存磁盘空间换页空间网络丢包率网络链路延时专线带宽出口流量存储空间服务器设备状态服务器网卡速率电源电压Raid卡状态虚拟机数量一线支持解决率事件平均解决时间坐席接线量CI项数量变更失败数紧急变更数量发布引发事件数关闭问题平均时长服务不可用时长监控指标数据报警数据日志数据网络报文数据用户体验数据业务运营数据链路关系数据运维知识数据CMDB运维流程数
14、据业务和体验应用系统平台软件基础设施ITSMRDBMS时序数据库内存数据库文件图数据库ElasticSearch消息队列流式数据库数据类型数据形式数据载体18运维数据资产化面临的问题普遍性问题数据孤岛,有数据不能用数据质量不高,有数据不好用数据不可知,有数据不会用数据服务不够,有数据不可取运维领域性问题资源投入不够数据标准化比例低缺乏成熟的方法缺乏人才19运维数据资产化方法-点线面体点线面体运维对象,包括人、软件、硬件,以及不断抽象归纳的指标、模型等数据。运维部门内部的运维角色、研发、业务部门、第三方等,以及一切以软件形式存在的信息系统。“点”要高效动起来,形成点点联动,即用流程、规范、价值链
15、将点串起来形成线。运维的几条关键交付链路:软件交付价值链路、IT服务交付价值链路、系统退出价值链路,每条链路包括若干场景,场景即线。多条线路交织在一起,形成运维组织在数字世界的面。围绕“组织、流程、平台”的运维体系,涉及:组织的职能、岗位、人才等,流程的标准、规章、构成等,平台的基础平台、应用平台、工具平台等。行业和企业在开放、企业边界变得模糊,领先的运维组织积极将能力对外输出构建生态,生态就是体。开放将会是未来的一个趋势,比如行业政策及监管推动基础设施及行业开放平台。20运维数字地图-元数据元数据:描述数据的数据,传统意义的元数据管理是对数据采集、存储、加工和展现等数据全生命周期的描述信息,
16、帮助用户理解数据关系和相关属性。从管理工具角度:工具通过将分散存储结构差异大的IT资源的对象数据和运维指标描述数据进行描述、定位、检索、评估和分析,提供数据血缘分析、影响分析、全链路分析、关联分析、属性值差异等分析能力,从而降低运维数据治理的人工成本。面相运维管理员:通过对业务指标、业务术语、业务规则、业务含义等业务信息进行管控,协助运维人员了解指标含义、行业术语和规则、业务指标取数口径和影响范围等。点线面体网络协同,促进人与人、人与机器、机器与机器等节点间的互动。在线化、透明化,能够有效的加强运维的精细化,提升协同效率。协同链接形成“支撑管理决策、激活员工参与、打通协同壁垒、装备条线运营”模
17、型。基于数据驱动“感知、决策、执行”能力。“监管控析”与“智能场景”工具,形成一站式工作体验。数字赋能流程+技术=平台,由人力运维转向智能运维。基于平台,管理洞察关键绩效,工作过程透明、反馈更加及时。平台管理XaaS(一切皆服务)是运维组织的一个转型方向。IT能力标准化,形成服务目录,利用线上化、自动化的技术提升在线体验质量。服务运营运维数字世界特征21运维元数据模型及技术架构运维数字地图参与的实体对象,描述运维对象的数据运维对象运维数字世界的非实体节点,描述运维指标生命周期的数据运维指标架构模型运维组织基础设施计算资源平台软件软件系统应用服务运维管理元数据操作元数据纵向关系IDC机房、网络、
18、机柜、服务器、存储、操作系统、系统软件、平台软件、应用软件、应用、服务、进程关系围绕业务或应用的调用链及上下游依赖关系横向关系知识人与知识、软件的关系,与场景无关运维对象的关系指标是什么作用Owner安全等级血缘关系数据格式表及字段调用频率访问记录解决元数据问题,不仅要管理,还要解决这些数据的采集、存储、监控和消费闭环的能力问题,通过多年的数字化运维体系建设,大部分组织都建立了“监、管、配、控、析”的平台化解决方案,从可行性、成本、落地等角度看,应该在现有技术平台上思考,而不应该再引入一个通用元数据管理方案,从实现上,CMDB需要继承描述运维数据对象和关系的管理元数据角色,运维指标体系需要承担
19、描述运维元数据管理技术架构采集存储监控管理分析服务元数据仓库适配器数据采集转换解析采集与存储数据建模ETL源数据库日志文档22运维主数据主数据:满足跨部门业务协同需要的、反应核心业务实体状态属性的企业(组织机构)基础信息,相对交易数据,具有属性相对稳定、准确度要求高、唯一识别等特点。运维主数据:即运维指标体系,相关数据存储在CMDB、ITSM、监控、持续交付等系统中,部分数据需要基于多个平台系统数据进行整合加工。运维指标体系价值:1)业务态势感知,战略实施的主要抓手;2)动态衡量业务发展质量;3)指导基础数据建设;4)为数据分析、根因分析奠定基础;5)展现IT的服务价值。机器相关环控网络机房服
20、务器存储.规则相关监控策略性能管理容量阈值.流程相关变更事件问题配置团队协同规程与人相关运维运维操作SRE运维开发流程经理等IT部开发产品测试.客服.关系相关部署架构逻辑架构调用链路上下游关系.软件相关系统软件数据库中间件应用系统DNS应用配置制品功能号版本号.运维指标体系23运维指标体系构建方法D-CREAM模型:满Dimension、Classifiction、Relation、Evaluation、Attribute、Modeling,最核心的是维度,围绕维度增加分类分级、逻辑关系、评价标准、属性和建模,共同构成核心要素。DDimension维度越多,细分程度越高,包含的数值越多。可以进
21、行更复杂的维度钻取分析。-CClassification,通过分类分级形成指标的基本结构。主题域-子域-主题-对象-维度.RRelation,指标体系中的各类关系(因果、相关等)。基于关系进行根因分析、影响分析、异常检测等。识别场景和业务,调用过程。定义顶层指标、追踪环节节点及其指标。手动建立关系,关系梳理。基于日志OpenTracing自动建立关系。APM的TraceModel自动建立关系。EEvaluation对于关键绩效指标、关键风险指标、关键运营指标、关键性能指标等,高度重视、更高权重。AAttribute,属性信息。基本信息统计信息口径信息管理信息MModeling指标间的运算关系,
22、大部分为“加减乘除”,也可能有指数、对数等较复杂运算。定义需求,建立总体框架选取指标和维度,构建指标体系建立指标体系平台,进行数据采集和治理运用指标体系和指标平台数据管理和优化指标体系指标体系实施步骤24运维数据质量与安全数据质量管理:对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。运维数据标准:近些年在平台化及智能运维中遇到的数据孤岛、平台无法连接等痛点问题,对数据的命名、数据类型、长度、业务含义、计算口径、归属部门等,定义一套统一的规范,保证
23、使用方对数据的统一理解,以及对数据定义和使用的一致性。运维数据质量面临的挑战数据源众多,结构不标准研发设计的数据标准不足海量、高速增长带来技术管理困难缺乏数据质量管理专业人才投入不足组织流程平台数据质量能力建设质量文化组织职能事前标准事中监测事后分析组织职能组织职能组织职能数据安全保障传输安全系统安全权限安全安全日志审计数据脱敏构建三位一体的运维数据质量管理完整性一致性准确性唯一性关联性及时性落地运维数据标准做好价值主张分析明确标准范围明确标准投入分析制定标准化的执行方案技术赋能标准落地落实数据驱动持续优化250426落地实施PDCA反馈环企业价值创造业务战略IT战略数据架构战略价值主张战略蓝
24、图路线规划现状梳理组织架构技术平台治理场景制度流程质量检测资源保障数据可视27数据治理运营总体流程数据准备准备资产编目数据采集规范设计开发调度质量监控数据仓库数据应用数据源数据湖数据仓库历史数据全量迁移源连接和目标连接迁移作业运行作业业务数据增量采集定义增量设置触发运行作业资产数据维护数据源维护数据仓库数据规范主题设计标准管理码表管理数据标准关系建模维度建模指标管理流程框架业务指标技术指标脚本开发批处理作业实时处理作业业务指标监控指标规则业务场景运行检查数据质量监控规则模板作业质量运行检查数据地图业务资产技术资产数据权限数据安全申请审核创建发布使用运营28建设及运营-四位一体建设方案资产目录指
25、标体系中泰或平台质量检测场景分类场景设计运维管理软件研发资源交付组织架构角色岗位岗位能力绩效管理组织流程平台场景持续改进运营治理技术指标完整性唯一性有效性及时性业务指标精确性一致性可用性质量感知策略数值监测波动监测关联监测完整性检测及时性监测加强数据清洗过程管理进一步加强数据标准的落地建立异常决策闭环29运维数据平台画像及场景运维智能运维场景根因分析智能告警指标预测影响分析异常检测知识图谱管理维度业务维度技术维度立体化指标体系全生命周期指标接入丰富的AI算法库灵活的管理方式日志数据监控指标调用链事件告警采集日志结构化指标标准化指标与CMDB关联指标聚合数据处理日志数据库时序数据库调用链存储事件
26、存储告警信息存储主数据存储大屏实时告警智能分析报告报表数据应用数据接收及缓冲队列运维数据平台画像30运维数据平台的典型工具链及架构LogstashPrometheusFluentdTelegraf.采控中心LogstashSparkFlink.数据处理ElasticsearchClickhouseInfluxDBTSDB.主数据存储GrafanaAltergManaerKibana.数据应用KAFKa运维数据处理组件和技术日志采集监控指标SyslogMQTT数据库采控中心监控中心事件中心智能算法中心报告报表数据应用数据冲队列运维数据平台架构日志结构化指标标准化指标与CMDB关联指标聚合数据平台分布式大数据列式存储统一查询引擎数据API服务31典型功能实践样例元数据数据质量数据监控及异常数据开发及调度3233