上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2019年北京移动面向5G的技术运营中台实践和AIOps探索.pdf

编号:97787 PDF 40页 4.07MB 下载积分:VIP专享
下载报告请您先登录!

2019年北京移动面向5G的技术运营中台实践和AIOps探索.pdf

1、G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站面向5G的技术运营中台实践和AIOps探索中国移动通信集团北京有限公司G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站背景介绍1技术运营中台2技术运营实践3AIOps探索4未来展望5G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站到2020年,全球将有500亿设备、无数上层软件及服务涉及互联网、金融、物联网、智能制造、电信、电力网络、政府在2018年,中国移动在移动用户、4G用户和宽带用户均处于Top1MBBF2019大会上,中

2、国移动宣布将建设高品质5G网络,赋能千行百业数字化转型:中国移动提出了5G+战略,包括5G+4G、5G+AICDE、5G+ECO。通过5G+X,中国移动将赋能各行业数字化中国移动规划2019年在XX个城市建设XX个5G基站,2020年将扩大5G网络覆盖到超XX个城市。中国移动在14大行业与头部企业开展探索,在2020年将打造100个标杆示范应用5G已来,我们也需要下一代运维G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站020304015G时代电信行业运维面临挑战G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站 业务域运维面向通用IT领域的业务、应用基础设施

3、等对象,交付运维服务;经历了近20多年的应用&发展,能够全面赋能、助推ICT融合转型,实现全域的运维服务和运营支撑保障。5G时代ICT融合运维-赋能业务域技术运营中台,赋能ICT融合运维:G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站数据来源:Gartner 20175G时代ICT融合运维-进化G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站背景介绍1技术运营中台2技术运营实践3AIOps探索4未来展望5G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站企业级:站在企业整体视角来审视业务全景,关注B域、M域、O域、D域能力:中台主要承载的对

4、象,从业务中抽离,梳理技术运营的公共能力复用:中台的核心价值,从去重到复用,对比平台更细粒度的抽离企业级能力复用平台技术运营技术运营管理过程是技术运营能力建设的一个过程,它以业务为中心,交付稳定、安全、高效的技术运营服务,构建业界领先的技术运营能力,支撑企业的持续发展和战略成功。技术运营不仅关注“稳定”、“安全”、“可靠”,更要关注“体验”、“效率”、“效益”。参照中国信息通信研究院、高效运维社区制定研发运营一体化(DevOps)能力成熟度模型系列标准什么是技术运营中台?G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站STEP01STEP02STEP03工具化 利用工具提升运

5、维效率 功能和能力分散,无复用 管理松散,一般是团队内共享平台化 统一的服务和用户体验 有粗粒度的能力复用 存在烟囱式建设中台化 企业级能力复用,B域运维能力赋能ICT 更细粒度能力的识别与沉淀 更好地支撑前台业务中台建设演变之路G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站故障流程数据传输和接收数据处理和存储异常识别生成告警告警收敛触发预案故障处理服务数据采集数据传输和接收数据处理和存储数据服务可视化查看异常识别异常识别生成告警体验数据采集数据传输和接收数据处理和存储数据服务用户体验分析体验可视化体验优化.度量反馈业务监控采集数据传输和接收数据处理和存储异常识别生成告警触

6、发预案调用服务治理告警消除检测.网络数据采集数据传输和接收数据处理和存储数据处理和存储LTE业务异常识别隧道LOC告警链路告警网络修复预案.业务监控采集技术运营中台设计-能力抽象价值流5G支撑,ICT融合业务容量管理用户体验管理业务连续性保障中台能力监控采集数据传输和接收数据处理和存储异常检测告警管理告警管理预案管理监控可视化.后台应用云管控容器PaaS大数据机器学习微服务需求管理5G网络升级后诊断G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站前端运维场景通过能力开放平台调用能力,实现企业级跨系统的能力复用。将能力注册在能力开放平台上,实现技术运营能力的开放。技术运营中台设

7、计-能力复用G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站通过能力开放平台达到中台能力管控的目标:技术运营中台设计-能力管控G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营中台-整体框架前台B域运维M域运维O域运维D域运维中台云管平台容器平台微服务治理机器学习平台大数据平台后台监控告警类采集管理数据传输数据接收数据处理数据存储数据服务监控可视化告警管理服务流程类工作流引擎实时探测内容模板配置管理类流程设计组织角色同步值班管理运维自动化类作业编排调度作业执行操作审计作业多主机并发AIOPS学件管理场景管理结束数据导出数据源配置生产压测混沌工程工单管理

8、表单设计模型管理模型关系管理属性管理模型自定义流程权限待办通知流程版本内容库CI管理自发现配置数据服务业务拓扑监控指标体系服务CI变更追溯CI变更审批监控点配置G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站背景介绍1技术运营中台2技术运营实践3AIOps探索4未来展望5G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站1个愿景3个核心3个基石5个阶段技术运营实践-技术运营蓝图G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站a.自定义模型b.自定义属性c.自定义关系d.自定义拓扑a.业务拓扑b.资源盘点c.资源/监控覆盖率灵活的自定义,提升配

9、置扩展性支撑多种消费场景技术运营实践-基础配置(CMDB)G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站技术运营实践-系统稳定性保障G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站主机监控应用监控业务监控.1梳理指标对指标进行分层,并区分黄金指标规范指标定义形成统一编码,指标属性等2指标体系落地监控点配置遵循CMDB里的监控体系3监控指标体系CMDB监控APM告警日志监控能力规范化团队转型赋能化围绕运维对象+指标,将监控覆盖类型和范围、采集频率、数据类型等核心属性标准化,并形成全局唯一编码向告警管理、自动化操作、事件流转、AIOPS分析等输出规范化的监控能

10、力将监控点稽核从对象精细化到指标级别,在查缺补漏的同时有效抑制冗余数据,进而提升异常识别精准率、告警风暴收敛率等数据质量治理精细化推动监控平台建设团队由被动地响应监控需求,向监控点稽核、系统上线准入验收、系统运行风险输出等主动管理方向转型技术运营实践-异常发现:监控体系G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站通过业务拓扑,整个集群调用拓扑的性能情况通过下钻可以查看集群的实例,以及实例上的具体指标还可下钻查看各个集群具体的调用链,包括函数调用全链路调用图API性能统计信息单条调用链 调用函数 返回信息 响应时间 成功率 所属应用、集群、实例.集群某个实例,以及对应的主机

11、 实例的详细性能指标技术运营实践-异常发现:全链路监控全链路监控实现异常发现:前端框架拦截器业务边界识别;url传输前端界面交互串联;拦截器实现前后端链路串联;javaagent技术后端链路串联;G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站事前完善的事件分类分级体系具备度量分析、改善追踪、知识库沉淀事件分级知识沉淀预案储备团队职责事中充分的预案准备可快速检索一站式脚本或工具执行预案告警接收创建工单工单流转告警分析/知识检索/故障定位预案触发事后事后进行回顾,复盘,总结持续跟踪优化改进故障报告进行回顾月度总结持续改进工单关闭技术运营实践-应急响应:闭环管理闭环事件管理G O

12、 P S 全 球 运 维 大 会 2 0 1 9 上 海 站处理过程更新各环节处理人员在微信群快速应答、汇报故障处理情况,小秘会收集和同步这些信息到故障工单内,完善故障处理记录技术运营实践-应急响应:运维小秘赋能1突发故障上报多个服务台人员从各个渠道搜集的本次故障信息并上报发送到微信群2运维小秘自动建单运维小秘会收集、汇总本次故障相关的所有信息,自动创建事件工单并自动派发给一线运维人员,发起整个故障线上工单流程3工单状态自动推送故障工单状态变更、转派信息等会由运维小秘同步到微信群,让领导和相关人了解实时情况45故障复盘和整改故障处理完成后,运维小秘会发送完整的故障报告到微信群,同时本故障会更新

13、知识库相关知识和预案库的相关预案“运维小秘”聊天机器人实现微信群和故障工单的双向信息同步等能力,协助完成应急响应场景G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站3.下钻查看实例性能参数,确认故障是否是资源问题导致4.下钻聚焦相关链路,定位故障原因为某函数调用错误借助平台和工具的故障分析定位的常用方式有两种:一、通过APM的全链路进行分析;二、通过智能根因分析技术运营实践-分析定位:链路分析1.通过拓扑聚焦问题集群2.下钻聚焦问题实例G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站影响统计分析:针对某故障,根据监控指标体系,展现应用、服务和基础设施的分层影

14、响统计信息影响范围分析:从业务角度出发,展现本次故障的影响用户数和影响的业务数异常现象展示:展现本次故障表象原因“某个页面加载超时”运维知识储备:提供处理本次故障的备注和建议等信息根因分析:体现本次故障的根因集合,层层递进:10个服务接口响应时间变长-1个应用的部署变更-2个CPU爆满指标变化趋势:列举相关的指标数据和前后变更对比技术运营实践-分析定位:智能根因分析利用机器学习算法实现对故障的根因分析,从整体到局部,从表像到根因,层层递进,抽丝剥茧:G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站日常运维操作系统巡检周期任务管理业务监控展示、上线、活动保障个性化工作应用场景技

15、术运营实践-操作恢复:平台级支撑统一运维操作平台是所有运维操作变更的统一入口,支持各类型运维操作的一键式自动执行以及复合操作流程编排等,在保证操作执行准确率和效率的同时,为故障根因分析、事件复盘管理等提供操作轨迹回溯的支撑多种操作类型编排为任务流程G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站1.自动化预案配置2.应急策略配置3.工单/告警调用预案4.预案执行业务变慢引发的故障恢复恶意操作引发的故障恢复策略自定义:同一种处理策略,支持个性化的参数配置策略通用扩展:支持策略的扩展,方便的注册和使用预案自定义:告警、工单匀可以调预案模板多样性:模板便捷的扩展配置,以及和预案灵活

16、关联,并支持逻辑与或,级连触发技术运营实践-操作恢复:自动化预案策略自动化预案平台支撑将事先制定的突发事件应急处置步骤和执行策略进行配置,异常发生后自动化预案平台自动完成故障自愈G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站背景介绍1技术运营中台2技术运营实践3AIOps探索4未来展望5G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOps-功能架构G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOps-数据处理架构G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOps探索-学件中心G O P S 全 球 运

17、 维 大 会 2 0 1 9 上 海 站AIOps-学件复用G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOps-学件制作G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站历史数据分析,异常的数据主要发生在零点之后的,频次较低,不是每天都会发生,因此全局分布比较分稀疏从CH获取业务数据,每个实例对应的数据的采集频率为10分钟,1天的数据量在144,1个月(按30天计)的量在4320左右综合业务分析,除了IO、带宽以及本身程序性能问题导致处理时长变长,另外在出现服务状态异常时,例如服务未启动,导致业务处理时长为0的情况,该情况同样需要作为异常值被检测出来A

18、IOPS-异常检测:数据分析案例背景:停开机业务对移动的收入保障有重要影响,为了监控预付费停开机业务处理效率,需要对响应时长进行监控,及时的异常告警触发,将有助于业务效率的提升和改进。第一步第二步第三步一天的统计分布异常明显一个月的统计分布连续几个月的统计分布G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站算法名称:Isolation Forest(iForest)算法简述:并行集成学习算法(Bagging),不依赖于距离或密度测量,而是通过隔离(空间划分)实例来检测异常,属于无监督算法。数据特点:连续性数据(因为基于数值比较),对应的异常数据满足few and differ

19、ent。算法优点:算法简单,处理效率高,效果明显,算法缺点:不擅长处理局部的相对稀疏点和处理特别高维的数据,训练结果需要人工配合检训练效果。核心参数:待建树的个数和子样本大小以及异常比例算法流程:算法公式:AIOPS-异常检测:算法应用G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站训练过程:选择1000个样本进行训练,训练时长在秒级,训练效果通过人工检查训练结果图和生成的数据文件检测效果:实时检测每个样本,输出检测结果AIOPS-异常检测:实践效果异常结果标记异常异常分布G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站开户相关数据库指标根因48笔/s业务量

20、0.25异常度5369/ms平均耗时0.95异常度相关性分析pearson多维度分析MDRCA+K-means1111111111关联规则决策树APRIORI C4.5对非告警指标集,需和故障时段内的告警指标集一起进行多维度分析,得出异常度EP和维度异常差异Surprise 从大到小排列的指标集合,再使用K-MEANS对集合进行分类,得出异常度和维度异常差异都最大的指标非告警指标数据,采用MDRCA+K-means对同一故障时段的告警和非告警指标集进行相关性算法分析,得出相关度从大到小排序列的指标集合对告警指标集用关联规则算法找出最频繁指标集,再使用标注过的决策树算法找出故障根因告警指标数据,

21、采用关联规则+决策树AIOps-根因分析G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站背景介绍1技术运营中台2技术运营实践3AIOps探索4未来展望5G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站5G数字化生态圈mMTC大连接机器类通信uRLLC超高可靠性低时延通信未来IMTGbpseMBB增强移动宽带3D 视频,UHD屏幕云端工作和娱乐虚拟现实/增强现实工业自动化关键应用自动驾驶智能家居智慧城市未来展望G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站IT运维系统SaaSIT运营中台PaaSIaaSIT运营中台的演进思考服务运营服务场景生态化:伴随5G数字化生态圈的扩大,提供更多形态的运维服务场景。能力运营中台管控能力强化:面向服务场景,强化中台层的管控能力,提供包括能力调度、能力治理、智能编排适配等高阶能力未来展望G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站Thanks高效运维社区开放运维联盟荣誉出品

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2019年北京移动面向5G的技术运营中台实践和AIOps探索.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部