上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2019年服务亿级用户-浙江移动运维大数据中台建设之路.pdf

编号:97815 PDF 37页 2.75MB 下载积分:VIP专享
下载报告请您先登录!

2019年服务亿级用户-浙江移动运维大数据中台建设之路.pdf

1、G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站服务亿级用户:浙江移动运维大数据中台建设之路G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录运维数字化转型1运维大数据中台建设2AIOPS场景实践3总结与展望4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站转型的必要性业务IT融合发展提升竞争力降本增效内在需求外在要求创新型国家建设进入冲刺期“互联网+”到“智能+”加快推进数字经济发展G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站浙江移动IT架构演进1s

2、t电信行业最早250+套应用系统50000+日均任务调度30000+1st电信行业最早30+核心系统4.5亿+次/日调用量Max 省级单位最大容器200132009开始研究云计算技术研究并推广数据库一体机研究并推广DCOS技术研究并推广微服务架构研究并试点AI2019完成核心系统全面容器化完成核心数据库去IE完成核心系统全面微服务化首批通过DevOps标准评估小型机全面下线,完成100%去I运维大数据中台G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站转型的挑战一降 单个网元稳定性下降二少 相比互联网巨头IT积累少 IT投入相对营收占比少三多 网元数量多

3、 技术栈多 应用系统多四变 基础架构动态调整 技术栈不断演进 应用持续迭代更新 组织人员变动故障处理时间飙升,运维人员生活品质下降。G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站转型布局工具转型组织转型理念转型123从竖井到分层自底向上到自顶向下场景驱动数据为壤算法赋能运营数字化能力中台化技能代码化组织敏捷化G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站理念变革更高更高的运维视野更快更快的整体效率更强更强的基础能力运营数字化构建AIOps为核心的数字化运营组织敏捷化技能研发化能力中台化工单执行处理转向自主研发传统竖井式转向专业化分层分散建设转向中台能力开

4、放G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站组织变革应用调度指挥中心ANOC应用连续性保障工程师SRE业务运营工程师BOE云平台连续性保障工程师 CRE云平台系统管理员 CSA云调度指挥中心CNOC通过非功能治理、入网管控、日常保障等各种手段保障业务连续性借助大数据分析稽核等各种手段保障业务准确性应用连续性问题及准确性问题发现、调度、跟踪平台连续性问题及准确性问题发现、调度、跟踪通过根因分析、自动化工具等手段快速处理故障通过入网管控、容灾演练、性能优化等各种手段保障系统不出故障分层治理,全局视角,多维技能,应急协同G O P S 全 球 运 维 大 会 2 0 1 9

5、上 海 站工具变革被动运维ITIL v.20/v3.0监控告警流程管理DevOps/SRE开源工具自动化操作运维知识图谱超越规则平台运维效率提升管理提升价值提升主动运维智能运维(AIOPS)VM指标日志AI事件操作事件告警DBAPPG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOPS不是万能钥匙112323AIOPS无算法,不智能期望算法人无人值守人机协同AIOPS仍处于初级阶段能抓老鼠就是好猫AIOPS的实施路径?G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOPS实施路径:智能引入先转化,后收敛,再挖掘,终预测实施路径实践效果Augmenta

6、tion Intelligence OperationArtificalIntelligence OperationRuleOperationG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOPS实施路径:场景选择智能辅助决策增强人的能力智能决策处置代替人的能力简单复杂低频高频提升自动化降低人的投入规范化、流程化规范人的行为自愈管理性能优化简单故障管理监控告警chatops复杂故障管理智能变更故障报告高可用管理G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOPS实施路径:效果评估AIOPS质量场景五级标准人AILEVEL 0 LEVEL 1LEVE

7、L 2 LEVEL 3 LEVEL 4LEVEL 5传统运维故障分析故障处理少量故障分析故障处理人为决策特殊场景人工干预完全无人运维自动决策自动处置自动决策自动处置根因分析执行处置异常检测自动调度Eyes OnMind OnHands OnEyes Temp OffEyes Temp OffMind Temp OffHands Temp OffEyes OffMind Temp OffHands OffEyes OffMind OffHands OffHuman Off标准环境复杂环境复杂环境G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录运维数字化转型1运维大数据中台建

8、设2AIOPS场景实践3总结与展望4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站平台赋能平台赋能AIOPS三驾马车难点:不标准、分散种类多、难关联数据数据算法算法场景场景难点:开源算法不适用正负样本差异大难以抽象难点:复杂故障、领域gap标准的数据模型标准的算法模型标准的运维模型G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站运维大数据中台资源层数据库负载均衡网络设备中间件存储设备服务器容器VMVM虚拟化公/私有云安全设备管控层OpenStack、VCenter、SDN控制器、OEM、K8S、NFVO+等学件中心数据预处理学件训练平台学件运行平台预置模型

9、管理模型训练管理学件运算共享服务数据中心数据汇聚层运维数据模型数据存储层数据共享服务运维数据治理分析共享服务数据智慧层服务层监控中心驱动层应用层租户门户资源申请资源管理运营门户租户管理产品管理综合运维门户故障定界故障应急专业运维门户云图性能优化调度中心操作中心流程中心资源中心运营中心开发中心原子操作能力数据库原子采集能力原子操作能力容器原子采集能力原子操作能力中间件原子采集能力原子操作能力虚拟机原子采集能力G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站数据中心:AIOPS生态基础指标日志拨测事件变更告警部署拓扑调用链工单配置运维数据模型数据格式存储介质关联关系数据说明G O

10、 P S 全 球 运 维 大 会 2 0 1 9 上 海 站数据中心:AIOPS生态基础统一集中建立数据关联开放提供数据服务共享统一数据出口建立标准数据模型指标日志指标名称指标标签所属对象指标维度采集周期日志类型所属对象日志标签日志采集规则日志解析模板清洗加工查询可视化稽核在线近线离线APIG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站数据中心:功能架构数据采集层权限管理控制台数据接入租户管理菜单管理元数据管理接口服务管理数据解析数据识别数据分类样例管理数据转储元数据构建数据质量稽核任务稽核策略数据加工规则配置血缘关系同步身份认证任务管理加工调度作业监控资源管理状态通知数据

11、湖状态探测性能探测容量探测数据市场数据纠错访问管理商品展示商品交易接入申请接入审批热度报表运营报表品类报表消费报表质量报表数据网关服务路由服务注册权限认证黑白名单管理饱和分析限流控制服务监控商品上架商品下架购物车数据库操作系统主机网络设备服务器DOCS.云资源zabbix采集api采集kafka采集influxdb采集数据质量提升配置数据热数据多维数据离线数据时序数据G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站学件中心:AIOPS智慧大脑学件 vs 算法区别学件学件算法算法问题定义运维问题数学问题业务属性具备不具备通用性局限性全局通用使用方式即插即用改造、组合相同点:可编

12、排、可复制、智能化运维学件管理构建运行共享学件中心功能特性数据获取透明化训练发布一体化标注反馈闭环化赋能业务自助化G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站学件中心:功能架构南向接口特征工程学件构建影响面分析慢SQL分析单KPI异常检测多KPI异常检测自愈诊断性能恶化预测故障发现告警收敛故障处置故障预防北向接口学件库容量规划瓶颈分析性能优化学件生命周期管理学件运行状态监控学件参数配置学件功能测试学件调用状态监控强化学习管理策略配置模型训练FP-growthHolt-WintersMoving AverageDBSCANK-meansIsolation ForestARI

13、MAApriori聚类算法关联关联异常检测趋势预测PearsonGranger因果分析其它数据预处理AI中台模型自定义模型训练模型发布学件发布数据中心南向接口历史数据实时数据算法选择参数配置模型训练特征工程赋能业务自助化训练发布一体化标注反馈闭环化专业运维学件通用算法能力学件构建多维KPI异常检测日志异常检测行为异常检测学件管理故障根因分析调用链分析多KPI异常定位故障责任专业分类告警关联故障分析图谱丰富告警降噪告警聚类系统画像业务/设备画像健康度波形相似度相似事件查找已上线在建中规划中系统预置学件G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站中台 or NOTSource

14、:Gartner2018:Market Guide for AIOps Platforms数据采集能力?量级?学件积累?场景开发?内部需求?G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录运维数字化转型1运维大数据中台建设2AIOPS场景实践3总结与展望4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站故障全局防御体系故障发现健康度先知/异常检测态势通告事件分类ChatOps故障分析故障处理故障复盘四级定界改进梳理故障改进问题管理实施落地变更管理云图/天眼根因智荐无间/自愈临时处理方案MTTIMTTKMTTFMTTVMTBFMTBF故障预防架构设计入网控

15、制三级定界告警收敛发布上线高可用架构治理客户感知保障高可用持续演练MTTR重点介绍AI注智常规手段中台能力提升MTBF,降低MTTRG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站故障发现:健康度,平台护航OS:Processor_load_1_minCPU_iowait_timeHang_checkOracle DB:On_Off_StateAWSAIOSACSG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站故障发现:异常检测,业务感知异常点输出异常点输出历史历史KPI时间时间序列数据序列数据时间序列数时间序列数据预处理据预处理特征工程特征工程时间序时间序

16、列聚类列聚类模式模式1模式模式2模式模式n异常检测异常检测模型模型1异常检测异常检测模型模型2异常检测异常检测模型模型n无监督异常无监督异常检测模型库检测模型库(效果测试(效果测试与验证)与验证)异常检测引擎异常检测引擎离线异常检测异常检测引擎训练引擎训练异常点输出异常点输出异常点输出异常点输出实时实时KPI时间时间序列数据序列数据时间序列数时间序列数据预处理据预处理模型模型1模型模型2模型模型n规则规则1规则规则2规则规则n异常输出异常输出人工稽核人工稽核告警引擎告警引擎在线增量训练增量训练规则更新规则更新异常检测引擎异常检测引擎异常点 异常事件精细化的场景区分周期型平稳型阶梯型波动型LST

17、M_1ETSARIMAIQRlstm_3 ARIMAK-SigmaLSTM黄金指标成功率饱和度吞吐量时延性关注高价值的黄金KPIG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站故障发现:日志异常检测首次正常日志模式训练日志模式日志模式数量异常实时检测生成告警未匹配到的日志模式模式数量异常检测专家确认增量学习正常日志模式22:03探测到某主机hang,8点50有日志模式数量异常预警10:17探测到某主机hang,9点30有日志模式数量异常预警告警引擎G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站故障分析:天眼,面向专家变更异常检测告警健康度异常信息异常信息聚

18、合收敛异常点下钻分析应用/业务视图组件黄金指标日志大盘G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站故障分析:根因智荐,面向小白异常簇聚类异常簇根因定位故障标签匹配异常簇推荐异常信息流健康度低分专业组告警异常检测结果变更输入关键字匹配特征标签90%10%DBSCANMDCAOPTICSFP-GrowthPrefix-SPANLDA主题模型专家经验部署关系网元属性异常簇主题历史故障树波形相关性时间相关性根因智荐结果页面【54%】概率根因为:10.78.229.172,【24%】概率根因为10.78.180.228,【19%】概率根因为:10.76.176.23G O P S

19、全 球 运 维 大 会 2 0 1 9 上 海 站chatops:运维助手chatops:运维助故障通报故障通报自愈消息通知自愈消息通知变更单录入变更单录入日报发布日报发布G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站故障自愈:无间预案匹配根据异动的数值、分布、维度、内容等特征信息与预案库进行检索匹配。自愈决策预案执行跟踪基于可编排的运维自动化操作平台,实现应急预案的自动调度、处理执行、过程跟踪、结果反馈。作业编写任务编排任务执行操作中心根据异动资产所处的部署架构中的位置、环境情况、规则配置,评估预案的风险,决策是否执行自愈G O P S 全 球 运 维 大 会 2 0 1

20、 9 上 海 站总结:故障流程健康度低分符合自愈条件执行自愈生成自愈结果通报生成事件通报人工处置生成事件通报生成事件闭环通报异常检测根因智荐推荐结果风险是否合理机器辅助,人工决策自动根因是否正确是是自愈是否成功否是否生成风险预警解除通报否否租户报障主动是生成风险预警通报自动生成事件通报手工G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站其他场景G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录运维数字化转型1运维大数据中台建设2AIOPS场景实践3总结与展望4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站几点心得先驱和先烈只有一步之遥适用性广未必是好事1243产品需要持续运营转型阵痛期,激励很重要G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站走向运维智能 云端赋能,建设企业级基础设施平台 算法突破,探索全景化智能分析能力 数据连接,创造数字化物理孪生世界 场景共建,聚焦高价值行业细分领域 人才孵化,培养多面手运维专家队伍

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2019年服务亿级用户-浙江移动运维大数据中台建设之路.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部