《2019年转型的灯塔-技术运营标准评估权威指南及案例解读.pdf》由会员分享,可在线阅读,更多相关《2019年转型的灯塔-技术运营标准评估权威指南及案例解读.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、GOP S 全 球 运 维 大 会 2019上 海 站GOP S 全 球 运 维 大 会 2019上 海 站转型的灯塔:技术运营标准评估权威指南及案例解读GOP S 全 球 运 维 大 会 2019上 海 站目录技术运营标准简介1标准的框架与设计思路2标准的“硬”技术与案例解读3标准的“软”能力与案例解读4GOP S 全 球 运 维 大 会 2019上 海 站互联网技术的发展驱动运维技术前进移动互联网时代传统时代互联网时代平台化时代云计算时代AIOPS时代降本增效新场景一体化工具链组织文化理念移动迁移多终端去IOE开源热潮上云运维开发效率应用运维质量&用户BASE流程化ACIDITILITSM
2、 海量运营技术运营3P平台化自动化开源架构升级云运维无线技术栈Velocity持续交付ITSM敏捷精益算法AI平台大数据人工运维云运维智能化运维运维开发应用运维一体化移动运维Devops时代能力侧重时代特点GOP S 全 球 运 维 大 会 2019上 海 站2015年技术运营标准的萌芽研发上线聚用户营销高可用架构设计持续部署持续部署可用性保障数据服务运营活动支持用户体验优化成本优化客户服务互联网应用运维框架研发期运营期GOP S 全 球 运 维 大 会 2019上 海 站三年三稿与顾问团模型顶层设计模型验证立项研讨初稿编写专家评审发布征求意见稿提交送审稿正式发布报批稿起始于2015年互联网应
3、用运维能力成熟度模型DevOps 标准产生过程GOP S 全 球 运 维 大 会 2019上 海 站标准中的软能力与硬技术技术运营服务规范意识能力平台化能力运营服务能力流水线监控自动化质量意识标准化IT服务流程事件管理高可用性管理配置管理发布管理成本管理容量管理持续性管理变更管理数据中心业务理解用户体验智能监控设计风控一体化配置中心事件平台GOP S 全 球 运 维 大 会 2019上 海 站技术运营标准对行业的意义 虽然,DevOps 像水,水无常态 但是,喝水需要容器,这就是标准(无规矩不成方圆)BATJ经验的总结与传承(对齐能力、避免重复踩坑、闭门造车)从0到1、自检、过程改进、建设目标
4、 标准并非“限定”(ITIL V4 已经发布)五级阶梯式成长模型(并非0或1)DevOps 标准CMMI/敏捷ITIL/IOS 20000开发测试运维管理管理+技术标准化+工具赋能标准化GOP S 全 球 运 维 大 会 2019上 海 站标准对企业的价值自查了解企业 DevOps 自身发展情况,发现问题,查漏补缺,明确未来持续优化的方向。自证衡量对照被认定为国内领先或顶尖水平,成为 DevOps在中国落地的行业标杆,引领行业发展。明确企业内部各项目 及 外部服务商、合作伙伴的 DevOps 能力现状、成长情况及工作量。对比同行业及所有行业的 DevOps 优秀实践,相互取长补短,共同进步。(
5、书同文、车同轨、行同伦)GOP S 全 球 运 维 大 会 2019上 海 站目录技术运营标准简介1标准的框架与设计思路2标准的“硬”技术与案例解读3标准的“软”能力与案例解读4GOP S 全 球 运 维 大 会 2019上 海 站DevOps 标准全局框架牵头单位:中国信息通信研究院(国家智库,可信云等出品单位)起草单位:云计算开源产业联盟、DevOps时代社区、高效运维社区、BAT、京东、中国移动、中国电信、中国银行、平安科技和中国银联等目前进展:2018年6月29发布全量征求意见稿,2018年7月在联合国ITU-T正式立项GOP S 全 球 运 维 大 会 2019上 海 站技术运营标准
6、的框架组成监控管理监控采集数据管理数据应用运营配置管理配置管理容量与成本管理容量管理成本管理事件管理变更管理事件与变更管理高可用管理应用高可用管理数据高可用管理风险管理危机管理应急管理业务连续性管理业务认知管理体验管理用户体验管理技术运营GOP S 全 球 运 维 大 会 2019上 海 站技术运营标准框架&设计思路GOP S 全 球 运 维 大 会 2019上 海 站 具备中等企业技术运营水平 局部建立自动化能力,有标准化的流程辅助工作的完成 覆盖应用对象全生命周期管理,部分能力项实现联动二级 具备成熟企业技术运营水平,场景自动化 集中式管理,有标准化规则贯彻应用全生命周期 强调技术运营能力
7、的覆盖广度,从被动响应到主动预防 明确量化管理的指标与要求,驱动架构和技术的优化三级 国内顶级的技术运营能力,实现垂直场景的技术深度 复杂场景实现无人治理,实现多对象多事件的关联与执行 从规则化演进到半智能化,动态决策与调度自动化工具 精细化数据运营,技术运营与业务运营结合,驱动优化四级国内领先水平国内先进水平技术运营标准的重要级别说明GOP S 全 球 运 维 大 会 2019上 海 站各能力项的递进与关联级别说明监控管理事件与变更管理配置管理容量与成本管理高可用管理业务连续性用户体验管理一级平均级:部分自动化 基础的监控管理,能满足企业对 IaaS监控的基本需求。基本的事件规范和变更操作要
8、求,及时处理事件和管控部分变更风险。靠人工保障配置记录的管理。基础的硬件与业务的指标汇聚 流量切换。基础的健壮性,硬件故障能及时恢复。数据库备份可靠。基础的业务影响分析能力和业务风险分析能力,基本应急演练。具有快速处理用户体验的投诉问题,具备丰富的业务端的数据收集能力。二级先进级:自动化/脚本化 覆盖更多监控对象。告警收敛,监控数据关联分析。对常见的场景可以实现告警度量、管控和可视化的能力。完善的事件及变更管理能力,覆盖全生命周期的管理。流程与场景部分的自动化和可视化。统一的配置管理系统,全生命周期的管理技术运营相关的对象。有规则和流程支持配置变更。技术运营全生命周期的容量和成本的管理。有规则
9、和流程支持,以满足不同场景的需求。应用服务间调用关系治理平台,支持应用服务级别的监控报警。IT系统有效打通,故障快速定位。数据库读写分离,主备实时同步,同城多机房备份。整体 RTO 达到99.90%。至少半年进行一次灾备测试演练。详尽的应急响应预案,充分考虑外部舆情和客服的信息反馈。端到端全链路事件埋点;全链路的体验告警,用户体验优化效果可衡量、可视化体验管理能力 联合内部,主要场景的用户体验优化三级领先级:系统化/平台化 精细化和平台化,通过标准化的管理和自动化工具,强化技术运营过程中的功能细节管控。面向应用场景实现告警管控和可视化管理。各个维度有精细化扩展,能够与其他技术运营流程打通,平台
10、化。完善的可视化管理,对过程和团队做到度量。自动化配置管理平台,支持灵活扩展和关联分析,符合技术运营场景的需求。灵活的容量与成本管理规则与流程,所得数据指导技术运营活动,为企业提供数据支撑和优化建议。自动化动态扩容。分布式缓存,分表分库,跨库事务。同城多机房实时数据备份,异地数据备份。整体 RTO 为 99.95%。主动模拟注入故障,并被快速定位和解决。2分钟响应,5分钟找到原因启动预案,10分钟完成问题解决。自动跟踪及用户改善工具。用户体验类的指标基线,并能联合外部建立优化工具,驱动整体的用户体验指标的改善。5分钟发现质量数据异常GOP S 全 球 运 维 大 会 2019上 海 站重叠能力
11、项的说明持续交付技术运营GOP S 全 球 运 维 大 会 2019上 海 站技术运营评估首批通过企业-华泰证券华泰证券股份有限公司华泰证券股份有限公司涨乐财富通交易服务项目2级华泰证券为投资者研发的集热点财经新闻、股市行情报告、委托交易、产品商城为一体的全功能免费手机理财软件,目前用户规模千万级,并发用户数几十万。涨乐财富通月活数超750万,注册、下载量超4800万,稳居行业第一,公司客户通过涨乐财富通APP进行交易的人数占比已超过87%。多次获得重量级奖项,如“2018年度券商优秀APP奖”、“2017年度最佳金融APP”等。GOP S 全 球 运 维 大 会 2019上 海 站技术运营评
12、估首批通过企业-北京移动中国移动通信集团北京有限公司中国移动通信集团北京有限公司CRM订单中心项目2级面向北京移动业务运营及运营支撑,可独立部署并对外提供一组标准化订单服务的载体,已拥有1000+容器实例数,千万级用户量,并发用户十万级。应用场景:北京移动CRM订单中心系统功能主要完成订单模板管理、流程编排、订单审核、订单创建、订单分解、订单变更、订单调度、订单撤销、订单竣工和订单查询等流程化管理功能。GOP S 全 球 运 维 大 会 2019上 海 站技术运营评估首批通过企业特点分析应急演练应用高可用数据高可用成本管理事件管理变更管理用户体验管理弱弱项项强强项项故障演练场景固化,缺乏重要业
13、务场景的梳理和沉淀。对变更风险识别暂未有共性规则抽象,更多依赖经验判断。依赖人为经验进行判断,缺乏客观量化的判断指标。未和实际的容量数据、业务使用情况联动分析管理。高可用架构设计清晰,数据库充分考虑了数据的分布式和一致性,运行维护机制完善。应急演练未与CMDB联动分析,实操环节仍存在人为失误的风险端到端的服务承诺未做明确的规则要求,流程学习未强制实施。运营配置管理统一配置管理平台较为成熟,实现了配置对象的全生命周期的管理可扩展、可自动更新。监控采集采集服务平台化,灵活性和扩展性强,可以自定义采集服务。数据管理可根据业务需求进行定制化开发管理,数据处理实时性强。数据应用统一监控平台,监控指标覆盖
14、面广泛,可定制化分析与展示。告警与管控统一告警管控平台,能根据生产环境定制统计分析视图,部分常见场景已开始尝试智能化运维。GOP S 全 球 运 维 大 会 2019上 海 站目录技术运营标准简介1标准的框架与设计思路2标准的“硬”技术与案例解读3标准的“软”能力与案例解读4GOP S 全 球 运 维 大 会 2019上 海 站标准中的“硬”技术监控管理配置管理高可用管理容量与成本管理系统设计最佳实践架构能力数据应用GOP S 全 球 运 维 大 会 2019上 海 站案例1:应用运行自治的技术运营能力配置对象配置数据数据采集数据传输数据接收数据处理数据存储数据服务告警与管控可视化管理弹性能力
15、柔性能力运行与维护数据库高可用缓存高可用成本合理性预算与核算业务容量基础设施容量业务配置监控自发现弹性伸缩成本可量化持续交付12435NGOP S 全 球 运 维 大 会 2019上 海 站过程域二级过程域三级评估维度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)3级(领先级:系统化/平台化、大范围)监控管理监控采集数据采集 具备操作系统级监控指标的采集能力,如CPU、内存等 系统日志、应用日志和接口日志等 数据采集上报到多个服务端 统一的数据采集及跨平台兼容 支持提供开放式、自定义的采集上报 发送延迟、数据校验、采集限频等数据传输 通过标准协议传输数据 单份数据多份订阅及分
16、发传输 支持多种传输及容灾方案,如同时具备推与拉 具备平行扩展、数据汇聚和高效传输等架构能力数据管理数据接收 仅实现数据接收 支持数据清洗、转发、丢弃、复制等 异构数据源集中接收 统一的数据上报,支持文本、字符串和加密协议等 空值检测、乱码校验、属性校验、过载保护数据处理 原始数据源预处理 异常数据识别 自定义数据四则运算、分类和聚类等 对外提供数据接口,可扩展的 ETL 能力 异构数据源的处理及关联分析的能力 实时计算数据处理延时小于 1 分钟 自定义日志字段解析,数据校正、持久化、异常告警数据存储 具备基本的数据存储能力 统一的数据存储,确保完整性和可用性 文本、数值型、位图和时序数据存储
17、 高并发查询,冷热数据分离 半结构化数据、时序数据的快速检索与统计数据应用数据服务 提供基础的数据存储服务 可计算最大值和平均值等,数据接口支持按条件导出、自定义查询 支持复制、同步或传输数据到其他存储介质 在线自定义数据统计分析,如在线 SQL 数据权限、加密或脱敏,接口调用限频、限制访问源告警与管控 多通道发送告警信息 告警收敛,告警触达率和准确率统计 告警关联运维操作提示,自动告警升级 告警关联收敛,自定义告警关联自助分析工具 告警关联自动化工具,常见场景下的故障自愈可视化管理 在线数据图表展示 自定义图表,场景化的在线数据查询 业务监控指标重点展示 基于业务拓扑架构或调用关系的可视化及
18、异常展示 多维度的数据下钻与展现,全业务级的可视化GOP S 全 球 运 维 大 会 2019上 海 站监控架构能力的演进SDK数据来源应用场景AgentHTTPKafka文件导入日志查询日志告警多维下钻分析多维监控告警业务数据大盘实时报表调用链查询依赖分析数据存储ESHive数据库Druid数据处理过滤校对聚合格式化分组转发数据API翻译吞吐量数据接收接入层解析筛选过滤统计传输通道数据采集数据管理数据应用GOP S 全 球 运 维 大 会 2019上 海 站过程域二级过程域三级评估维度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)3级(领先级:系统化/平台化、大范围)配置管
19、理运营配置管理配置对象 记录基础设施级配置对象 全生命周期管理,状态更新及时通知 支持业务、应用级配置对象 自动发现、可关联,支持自定义扩展字段 变更关联技术运营事件,如运维告警关联返回码配置数据 依靠文档记录配置信息 统一配置管理,实时反馈运行状态 支持变更回溯、日志审计、API 接口等 关键配置数据自动纠正,单一可信数据源 权限与组织相关联,多用户视角的统计与展现配置管理能力阶梯式提升1.有配置记录的实践,纳管部分配置对象2.配置记录能够为运营活动提供支持3.配置对象间的关联,触发规则完成运维操作GOP S 全 球 运 维 大 会 2019上 海 站高可用管理解读过程域二级过程域三级评估维
20、度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)3级(领先级:系统化/平台化、大范围)高可用管理应用高可用管理弹性能力 梳理应用调用关系,负载均衡支持多种算法 能流量切换,应用发布对业务影响小 应用服务间调用关系治理平台,支持应用服务级别的监控告警 应用节点可快速横向扩展,支持分批发布,且发布过程对生产无影响 根据监控性能指标或计划,进行应用的自动化动态扩容 多应用相关联的自动化同步横向扩展柔性能力 基础的健壮性,硬件故障能及时恢复 在较短时间内完成应用扩容的上线 良好的健壮性,无单点,硬件故障不易出现业务中断或异常 失效转移、限流 软硬件故障不易产生业务中断运行与维护管理
21、具备常用信息系统 主机、进程端口监控 IT系统信息有效打通 业务层监控,易于查看业务调度和性能,支持故障快速定位 结合配置管理系统实时更新状态信息 集中展示能力,信息全面准确数据高可用管理缓存高可用 针对热点数据使用缓存加速 持久化 有缓存的备份节点,主备节点保持实时同步,能主从切换 主节点宕机可自动切换备份节点并保持数据一致 具备分布式,可快速平滑横向扩容数据库高可用 备份可靠,保证数据一致性 主从同步及切换 主备实时同步,读写分离 使用数据库本地事务保障数据一致性 有同城多机房的数据备份 分表分库横向扩展,跨库事务 有同城多机房的实时数据备份,有异地数据备份可按照RPO要求恢复至2分钟内的
22、数据 数据库变更不影响业务正常运行1、应用的非功能设计要求2、数据的高效应用与可用性管理GOP S 全 球 运 维 大 会 2019上 海 站过程域二级过程域三级评估维度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)3级(领先级:系统化/平台化、大范围)容量与成本管理容量管理基础设施容量 按相关维度聚合 容量监控与告警 实时容量查询,支持 API 查询接口 特征管理、基线管理、单机承载的量化管理 动态容量平衡的架构 容量预警、容量预测业务容量 按相关维度聚合 容量监控与告警 特征管理、反馈指标管理 自定义业务容量计算方法 与基础设施容量关联分析 决策业务调度、柔性服务、容量预
23、测成本管理成本合理性 基础的成本意识与管理 基础设施及软件的全生命周期成本管理 准确记录成本相关数据的 多维度、精细化成本管理 成本数据与容量数据关联分析 成本换算、主动成本优化预算与核算 基础预算、基础核算 体系化的预算管理、核算管理 主动成本分析,全局技术运营对象的核算 成本分析与预测 成本数据自动化校对容量和成本管理的阶梯式提升1.客观量化2.关联计算、场景化使用3.主动管理、驱动优化-(关联监控管理)-(关联配置管理)GOP S 全 球 运 维 大 会 2019上 海 站目录技术运营标准简介1标准的框架与设计思路2标准的“硬”技术与案例解读3标准的“软”能力与案例解读4GOP S 全
24、球 运 维 大 会 2019上 海 站标准中的“软”能力业务连续性管理用户体验管理事件变更管理流程设计文化运营组织协同数据度量GOP S 全 球 运 维 大 会 2019上 海 站案例2:重大活动保障机制故障影响被动响应变更流程管理部署管理标准化管理事前管理事件处理事后管理建立机制业务认知管理体验数据管理业务优化管理定义价值灾备管理组织机制容灾容错应急预案应急演练组织机制应急管控RTO RPO业务影响分析业务风险分析度量测算GOP S 全 球 运 维 大 会 2019上 海 站用户体验管理解读过程域二级过程域三级评估维度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)用户体验管
25、理业务认知管理 重视业务运营指标,未涉及对核心用户群的体验分级管理 基本的业务认知,定期体验业务及产品 能使用常用诊断体验问题的测试工具 拥有衡量用户体验质量的体验类指标 团队定期的业务培训,并有上岗资质考试 具备能主动挖掘用户痛点需求的产品能力,并能以用户单场景化系统性解决问题 能够联动内部产品、客服等团队,丰富统一的用户体验类的知识管理系统团队定期产品岗培训,主动优化团队考核及创新性团队管理模式体验数据管理 采用基础采集工具,全面收集及丰富业务程序、网络等类型的采集维度 能按用户到业务端全链路用户事件的数据埋点规划。拥有大数据实时计算分析的技术解决方案 能定期review及更新用户体验指标
26、的数据维度 收集竞品及外部相关业务口碑数据,并能够在5分钟内发现数据质量异常 能按业务核心体验指标的动态基线进行数据管理 基于多维度数据的实时可视化,支持用户链路的关联数据查询及追踪体验优化管理 依靠用户体验的场景监控及业务突发预案,快速解决用户体验问题 能够精细化监控及下探用户全链路的体验问题并形成可视化体验报告 能依靠与外部团队的合作丰富用户端的体验触达工具 基于用户体验管理系统,整合工具、周边系统、解决方案,具备自动跟踪、联动处理的事件闭环的线上用户体验管理 能依靠外部资源合作,引入行业优秀的解决方案或新技术,完善体验的解决方案库或触达用户的决策库业务认知管理业务认知管理体验数据管理体验
27、数据管理体验用户管理体验用户管理GOP S 全 球 运 维 大 会 2019上 海 站事件与变更管理解读过程域二级过程域三级评估维度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)3级(领先级:系统化/平台化、大范围)事件与变更管理事件管理事前管理 基本的分类,被动受理和处理系统故障 值班接口人实时响应 问题和事故进一步分级,主动的事前流程宣导 重大故障应对预案,事件组织与工具基本具备 达到架构和运营要求 场景和组织进一步扩展 平台化,平台间信息共享和协同 高可用和连续性规划事件处理 故障后快速处理和恢复 应急响应和故障处理时效合理、止损意识 服务台统筹、预案一站式脚本执行能力
28、 高效决策能力、合理止损、标准化管理流程 平台化,操作可授权和可视化等、强容错事后管理 基本的纪录、分析和通报 学习改善机制,定位客观,正确找到原因和责任归属 事后流程和质量文化 事故分析透彻、度量改进、改善验收、知识库沉淀 度量关联绩效考核,平台反哺变更管理变更流程管理 变更操作周知 突发场景下的变更能力 变更操作规范化和流程化 评审组织、变更工具 变更管理和发布规范完善覆盖完整,重视变更质量和效率 变更顾问委员会,变更管理平台化打通部署管理 具备部署能力 定期部署、应用和数据库分离、各环境支持自动化部署 具备工具能力,部分过程自动化 可回滚,影响可控 灵活和可控的策略、应用和配置分离、所有
29、环境标准化 精细化的部署及灰度策略控制风险 平台统一,全部自动化、标准化 高质量、度量管理用标准化流程规范事前、事中、事后的事件变更管理并形成闭环事前事前流程流程事中事中规范规范事后事后仪式感仪式感GOP S 全 球 运 维 大 会 2019上 海 站业务连续性管理解读过程域二级过程域三级评估维度1级(平均级:部分自动化)2级(先进级:自动化/脚本化、小范围)3级(领先级:系统化/平台化、大范围)业务连续性管理风险管理RTO RPO 基础的RTORPO标准 RTO 达到99.90%(525分钟/年)同城跨机房RPO(5分钟/年)RPO 达到99.95%以上(260分钟/年)同城跨机房 RPO
30、2分钟,异地10分钟/年业务影响分析 基础的业务影响分析 具备业务影响和风险评估 按周评估业务变化及相关风险,落实改进业务风险分析 基础的业务风险分析 无严重影响安全运行的隐患 按月对运行风险进行分析和评估 容量合理且满足业务的增长需要 按周上报风险评估,评估和预防法律及监管风险危机管理灾备管理 灾备演习间隔超过半年 间隔小于半年,预期时间内完成且结果符合预期 考虑外因和多机房架构,短时间快速切换且对业务影响最小化组织机制 基础的危机管理组织 组织完备,角色划分清晰,职责明确 管理层重视且参与应急管理应急预案 基础的应急响应预案 详尽,准确说明启用条件、操作人和操作步骤 集中管理且及时更新,方便检索及协同应急演练 基础的应急演练 定期应急演练 监控准确,报警可升级 模拟硬件或操作系统异常,主动注入故障,快速排查定位问题并解决组织机制 基础的应急管理组织架构 及时更新的应急组织,应急上报机制完善 考虑外部舆情和客服信息反馈 2分钟快速响应,5分钟找到问题原因并启动预案,10分钟完成问题解决业务连续性管理风险管理保障业务持续稳定运行的保护伞危机管理应急管理