《贾涛-运营商体系下业务的云原生数智化转型实践.pdf》由会员分享,可在线阅读,更多相关《贾涛-运营商体系下业务的云原生数智化转型实践.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站运营商业务数字化转型实践贾涛 技术主管中国移动通信集团辽宁有限公司 运维专家SRE技术专家负责运营管理、智慧运维、应急保障等平台的建设工作01转型挑战数字化转型面临的挑战02业务治理运营商业务治理理念03落地实践数字化转型中的实践经验04演进思考运维可观测的演进方向目目录录Content01转型挑战数字化转型面临的挑战2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站数字化转型过程中衍生出越来越复杂的运行环境云原生时代业务应用愈发复杂多变,环境、场景和技术越来越多样化,系统迭代更加敏捷,而运维工具
2、繁多、功能参差不齐,产生的数据相互割裂,形成的分析结果关联性不强,无法实现全局运维掌控的要求。3rd parties移动用户Web用户压力测试主动拨测WEB组件计算、存储数据库应用组件微服务视角不同模型不一数据缺失告警泛滥难以关联2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站业务转型过程中传统运维视角带来的局限为了更好的适配云原生的多层架构,不仅要实时监测基础设施各项指标、业务日志、服务链路等,还需要建设多种垂直监测工具及平台,统一了数据管控平台,通过点对点的观测解决一部分问题。看似方方面面都监控到了,但缺少了数据的关联性和分析排查的连贯性,遇到问题,只能通过大规模
3、排查分析,问题发现和定位的效率低。垂直观测工具零散观测点多种垂直监控平台日志指标服务链看板监控运维能力现状传统的工具是垂直向的,引入一个新的组件的同时也引入一个对应的观测点,为保障数据全面性,搭建了很多监控管理工具。监控工具众多数据相互独立通常我们会基于自己想要的数据去构建分析视角,而监控点各自独立,没有关联成面,数据缺乏关联性。通过零散的监控工具看见局部的观测点很难预料业务出问题时有哪些点可以去监控?掌握问题的线索时要不断切换工具去定位收集到的监控规则不能完全有效复现问题?2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站可观测性成为云原生架构下业务监控的良药监控可观
4、测告警Alerting排错:诊断故障出现的原因Debugging概况Overview剖析:进行性能分析Profilling依赖分析:厘清关系Dependency虚拟资源监控分析容器资源监控分析基础设施资源监控应用性能分析业务性能可分析客户端用户体验分析基础软件监控分析可观测视图扩展高效排障体系运营运行运营团队SRE团队可靠性业务运维团队PaaS层PaaS运维团队IaaS层IaaS运维团队找到异常的原因全方位的可观测性,能够实时地、清晰地挖掘场景化问题,利用灵活调配、协作等打破数据孤岛。02业务治理运营商业务治理理念2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站基于可
5、观测理念重定义业务监控运维体系,契合新时代趋势应急保障人员业务运营人员指挥调度人员平台运维人员本地云容器云IT云提升服务质量指标链路日志故障分类处置提升可见性AutoOPS通知服务变更管理AIOPSCI/CD业务流程再造高可用治理可观测埋点治理业务系统服务治理业务链标准服务链标准资源链标准数据标准一体化可观测平台平台高可用专项治理可观测埋点非功能测试制度保障端到端全局观测业务健康分析观测面向运维:故障快恢面向一线:技改优化资源级故障自主分析处置业务服务页面观测程序级故障全过程追踪业务规则异常优化过程追踪数据基座指标体系业务模型基础能力观测能力2023 DevOps 国际峰会 暨 BizDevO
6、ps 企业峰会 北京站基于可观测理念重定义业务监控运维体系,契合新时代趋势运维人员告警/故障通知运维专家专家运维知识混合IT环境IT云网络云移动云APMUEMRUMLog4X 业务故障预警 态势感知大盘故障根因定位辅助运维决策专家运维知识数据采集一体化可观测平台预警告警/故障运维数据人工故障定位可观测数据底座 全栈式 故障追踪指标链路日志业务健康度告警/故障03落地实践数字化转型中的实践经验2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站围绕业务系统开展服务治理,提供全链路的运营管控策略业务高可用治理业务流程再造治理可观测埋点治理套餐变更业务过程业务办理步骤2步骤3步
7、骤5步骤3步骤6DBRedisRedis消息队列消息队列基础设施PaaS平台应用服务业务流程流量控制服务降级服务熔断并发超时网络抖动机房切换通用能力中心带标识的业务代码业务能力中心改造的阵痛业务的强健2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站规范可观测数据接入,实现分层级布控纳管业务数据接入标准不包含:设计阶段-业务链节点 接入阶段-指标阈值 接入阶段-节点与首服不包含:黄金指标权重(接入配置)应用数据接入标准组件数据接入标准基础设施数据接入标准业务链路 标准服务链路资源链路WEB数据预处理调用链概要数据统计数据调用链全链路数据ESHbaseRDBMS健康度计算
8、黄金指标配置APPAPM应用服务业务服务DBK8S组件基础设施包含:业务数据接口标准 业务链串联标准 标准黄金指标(4)健康度计算模型标准包含:数据接口标准 标准指标-生死线+黄金+普通 健康度计算模型标准标准2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站全局可观测:层层深入,一屏展示全局平面业务平面业务办理量办理耗时及步骤分析交易成功率分析业务异常列表业务办理步骤用户体验平面page总耗时分析大于5秒page分析白屏耗时分析应用平面服务调用失败TOP服务平均时长TOP关联Deployment分析CPU、内存平台平面主机性能数据库连接数表空间PaaS健康IaaS健康
9、业务健康服务健康全局观测业务异常列表业务办理步骤服务分析数据库分析层层深入2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站可观测双引擎:面线运维重快恢,面线一线强体验从业务健康度出发,紧密结合运维服务场景,创新服务质量测评手段,实时精准获取客户的感知,有效指导生产运营。123132优化操作:拟现用户操作轨迹,完成小组间、地市间、全省的横向比对,精准推送知识要点,提升服务技能优化页面:针对WEB页面上的页面及菜单调整优化,提升页面的使用体验堵点分析:对于业务健康度下降后,自动触发堵点分析,摸排定位故障节点、报错信息程序级故障溯源:程序级故障在临时修复同时,自动启动故障溯
10、源,通过专题治理,推动解决优化系统级故障修复:资源级故障进入故障自愈场景,实现故障分级自愈关注故障分级处置关注服务优化优化规则:业务规则异常基于报错表象及规则关联并持续跟踪,推动业务系统技改优化面向一线面向运维2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站面向运维:业务故障自动处置,助力提升运维质量 系统S1系统S2系统S3系统S4A1A2A3A1A2A3能力中心C1能力中心C2HDFS集群NNodeDNodeHBASE集群MasterHRServerZK集群主机1主机2主机3主机4主机51234接收回复短信识别并操作短信通知结果321自动重启自动扩缩容自动清理DB
11、调优堵塞原因JS后台报错SQL性能规则校验互斥程序级问题系统级问题数据库宕集群节点宕机外部调用失败服务超时运维人员规则校验前置用户体验优化应用负载瓶颈开发人员前端性能优化优化方案需求编码BUG编码扩容改造需求平台定位异常系统定位异常服务定位异常组件找出故障节点发现业务异常1234故障自动定位故障自主修复(a)(b)溯源管理业务瓶颈快速发现业务堵塞智能定界程序问题溯源优化全局观测跟进分析全局运维发现异常异常跟进分析服务维度业务维度系统故障自动处置2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站面向一线:操作行为自动分析,快速补齐业务短板操作环节定制核心指标抽取操作横向比
12、对知识精准推荐成效自动记录u用户关键操作定制u关键指标定制u统计窗口定制u个人与全省平均水平比对u营业厅间横向比对u操作步骤u操作耗时u操作成功率u业务操作手册u新业务规则宣传视频u学习时间记录u学习前后操作比对个人操作轨迹提取,薄弱环节一目了然营业厅间横向对比,区域能力精准提升2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站面向一线:操作界面智能优化,提升一线工作效率页面卡顿分析治理菜单智能排序清理多维指标综合评分,直观反应用户体验菜单使用热度菜单优化建议无用菜单评估排序下线隐藏常用菜单一点可达,无用菜单及时清理2023 DevOps 国际峰会 暨 BizDevOp
13、s 企业峰会 北京站面向一线:规则异常实时跟踪,支撑业务技改优化问题溯源管理前端UI优化SQL调优校验逻辑优化优化方案需求管理平台业务级问题套餐规则产商品规则业务规则异常档案库档案查询异常处理方案更新未找到异常档案溯源查找问题根因业务规则优化规则异常标记业务规则失败率激增业务健康度系统失败率规则失败率业 务 量异常档案策略为优化,需要进行技改优化新优化需求BUG修复找到问题根因,需要进行技改优化忽略优化异常档案策略为忽略,优化健康度算法,重新计算规则异常统一捕获处置策略精准执行优化流程闭环管理业务时长04演进思考运维可观测的演进方向2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站可观测未来发展思考数据展示+人工关联比对+人工判断信息关联展示+人工判断信息判断 x 人工判断信息判断+行动支撑能力潜在难题当前2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站ThanksD De ev vOOp ps s 时时代代社社区区荣誉出品