上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2019年浙江移动基础设施AIOps实践及探索.pdf

编号:97840 PDF 47页 18.41MB 下载积分:VIP专享
下载报告请您先登录!

2019年浙江移动基础设施AIOps实践及探索.pdf

1、GOP S 全 球 运 维 大 会 2019上 海 站GOP S 全 球 运 维 大 会 2019上 海 站云之巢,莫问运维路云之巢,莫问运维路浙江移动基础设施浙江移动基础设施AIOps实践及探索实践及探索有人的地方,就有江湖。有江湖的地方,就有纷争。于是,便诞生了武功。这是一个互联网的江湖斗转星移,日月流梭,转眼来到了二十一世纪.武功化身为技术。基础运维则是整个互联网的根本,支撑着江湖的潮起潮涌GOP S 全 球 运 维 大 会 2019上 海 站目录运营商基础设施运维现状1当基础设施运维遇到AIOps2智慧机房实践案例分享3运营商领域AIOps实施的困难及思考4“莫问”AI使能平台介绍5G

2、OP S 全 球 运 维 大 会 2019上 海 站IBM云的信用度受到影响,客户用户访问其Bluemix云基础框架的一个管理网站服务中断了数小时。GitLab极受欢迎的线上代码库GitL遭遇了18小时的服务中断,最终无法完全修复。因服务器故障,今日头条全站及头条号后台全部无法访问微软Azure公有云出现超过8小时存储可用性问题,导致用户无法配置新的存储空间或访问本地现有资源。新浪微博的服务器失去响应,宕机时间接近1小时。某晚间,百度出现大规模宕机事件,故障状态大概持续了半个小时。运运营商基础设施运维现状营商基础设施运维现状互联网纷争互联网纷争网络故障频发网络故障频发GOP S 全 球 运 维

3、 大 会 2019上 海 站更新迭代快建设环节多协作部门多涉及平台多自动化水平弱自2016年起,集团组织三轮NFV试点测试、两轮Novonet试点采购物流部、工程建设部、规划技术部、网络部需求分析、规划开发、业务测试、业务加载、精细运营、下线相关平台脉络复杂,纵横交错人工录入手工配置邮件沟通运运营商基础设施运维现状营商基础设施运维现状基础运维门派解析基础运维门派解析网络故障频发入门庞杂繁琐GOP S 全 球 运 维 大 会 2019上 海 站厂家二网管/控制器厂商依赖厂家一网管/控制器软硬件耦合运运营商基础设施运维现状营商基础设施运维现状基础运维门派解析基础运维门派解析网络故障频发关系错综复杂

4、GOP S 全 球 运 维 大 会 2019上 海 站模式陈旧基础设施运维欠缺自动化、智能化管理能力来访接人登记耗时长,线下操作不够便携,白卡、介绍信易丢失、损坏等。工程进度难管控作业时段不可控,脱离内部人员管控工程时间不确定,内部人员难以掌控工程进度、结果,延长工程时间申请不够正式,难追溯。审核粗放审核操作共用帐号、进出操作共用白卡,风险大进出权限非本人审批,存在引发核心机房故障,用户及重要设备数据泄露的风险。运运营商基础设施运维现状营商基础设施运维现状基础运维门派解析基础运维门派解析网络故障频发管理粗放陈旧GOP S 全 球 运 维 大 会 2019上 海 站l腾讯天津数据中心pue1.3

5、 l阿里巴巴张北数据中心pue=1.2 以PUE=2.0计算lYahoo Lockport pue=1.08 lFacebook Oregon Prineville pue=1.07 全球数据中心耗电量数据来源:2018全球电力报告,Forbes10年数据中心运营成本构成电费占70%,制冷占总能耗30%+注:PUE=数据中心总设备能耗/IT设备能耗运运营商基础设施运维现状营商基础设施运维现状基础运维门派解析基础运维门派解析网络故障频发修炼消耗巨大GOP S 全 球 运 维 大 会 2019上 海 站目录运营商基础设施运维现状1当基础设施运维遇到AIOps2智慧机房实践案例分享3运营商领域AIO

6、ps实施的困难及思考4“莫问”AI使能平台介绍5GOP S 全 球 运 维 大 会 2019上 海 站l AIOps智能运维=机器学习+自动化运维主要是利用单独的脚本、或者一些简单的工具,没有较为完善的系统和运维理念,流程在于摸索阶段。人工运维开发功能较为完善的工具,并经过不断改进,工具越来越成熟,业内就IT研发和运维逐 步 达 成 共 识,Devops理念开始提出。工具运维Devops工具链非常成熟,SRE、Chatops等高级形式出现,运维流程和运维措施方面实现完全自动化。DevOps主要强调运维类人化,机器的自我学习、自行分析决策,自动化去执行脚本。AIOps当基当基础设施运维遇到础设施

7、运维遇到AIOps基基础础武学武学剑术剑术研研习习内力内力修修炼炼人人剑剑合一合一基基础运维础运维=气宗气宗+剑宗剑宗GOP S 全 球 运 维 大 会 2019上 海 站?+聚焦下一代网络云资源管理、设备及工程人员出入、故障抢修、动力设备节能降耗。l CT领域基础设施运维=当基当基础设施运维遇到础设施运维遇到AIOpsGOP S 全 球 运 维 大 会 2019上 海 站支撑未来网络数字化转型长期积累的自主研发聚焦形成的体系化产品,是在网络运维领域推进网络智能化中台和DevOps理念落地的具体实践注重于内力修炼,提供人工智能、数据资源、原子服务等各项中台能力OSS4.0开发者中心-天山平台侧

8、重于外在剑法,提供多元多样的解决方案,作用于不同的业务场景独孤九剑-云巢系列(智慧机房)狂风快剑-天枢系列(智慧网络)连环三仙剑-地脉系列(智慧传输)GOP S 全 球 运 维 大 会 2019上 海 站支撑DevOps/SRE一站式开发测试环境GOP S 全 球 运 维 大 会 2019上 海 站 智慧网络狂风快剑GOP S 全 球 运 维 大 会 2019上 海 站 智慧机房独孤九剑GOP S 全 球 运 维 大 会 2019上 海 站 智慧传输连环三仙剑GOP S 全 球 运 维 大 会 2019上 海 站目录“莫问”AI使能平台介绍5运营商基础设施运维现状1当基础设施运维遇到AIOps

9、2智慧机房实践案例分享3运营商领域AIOps实施的困难及思考4GOP S 全 球 运 维 大 会 2019上 海 站GOP S 全 球 运 维 大 会 2019上 海 站智慧机房智慧机房实践案例分享实践案例分享网络故障频发云巢系列云巢系列远程抢修远程抢修独孤九独孤九剑剑之之破箭式破箭式GOP S 全 球 运 维 大 会 2019上 海 站随着通信技术的飞速发展,业务数据量迅猛增长,机房维保工作面临着巨大的考验。基于AR+AI的远程抢修,实现了远程专家对现场抢修的隔空指导,解决了机房维保工作时效性不足,成本高等问题。5G边缘计算ARAI智慧机房智慧机房远程抢修远程抢修GOP S 全 球 运 维

10、大 会 2019上 海 站AR眼镜将现场拍摄到的图像实时传给专家,专家可在图像上勾画标记并回传给现场的AR眼镜上,从而实现远程协助。u现有功能简介l 专家可以选择画箭头,画框,标记,输入文字等方法,向眼镜端传递更准确的信息。l 眼镜端可以实时呈现专家所做出的标记,辅助语音视频,使远程协助更流畅。智慧机房智慧机房远程抢修远程抢修GOP S 全 球 运 维 大 会 2019上 海 站进一步结合5G、AR、AI、MEC技术,将资源数据融合,识别机房设备,为现场运维人员第一时间呈现设备运行状态、告警、业务量等数据。u未来功能演进智慧机房智慧机房远程抢修远程抢修GOP S 全 球 运 维 大 会 201

11、9上 海 站智慧机房智慧机房实践案例分享实践案例分享网络故障频发云巢系列云巢系列独孤九独孤九剑剑之之破掌式破掌式智智码开门码开门GOP S 全 球 运 维 大 会 2019上 海 站u办公来访管理:采用通行码通行码、扫码扫码方式进入办公区u机房出入管理:采用通行码通行码、扫码扫码、人脸识别人脸识别方式进出机房合作方合作方移动方移动方安保安保来访申请申请审核扫码放行入园扫码过一楼闸机结束作业获得通行码刷脸进出机房进入9、10楼办公区离园打卡办公机房智码开门通过融合互联网、物联网、AI技术,打造集自动化、智能化为一体的办公来访、机房出入管理工具,全方位提升办公来访、机房出入的管理效率,增强基础设施

12、安全管理能力。智慧机房智慧机房智智码开门码开门GOP S 全 球 运 维 大 会 2019上 海 站ResNet:生成人脸特征向量模型(128维)ERT:实现人脸对齐,给脸部区域打点标注,获取精准的人脸特征模型HOG+SVM:用于训练人脸检测模型人脸识别(比对):欧式距离或余弦相似度求解人脸相似度1234l 将AI人脸识别技术应用于机房出入管理,提高基础设施的智能化运维能力。智慧机房智慧机房智智码开门码开门GOP S 全 球 运 维 大 会 2019上 海 站杭州浙中宁波温州滨江园区萧山信息产业园三墩石桥上塘1、杭州滨江枢纽楼2、杭州省管机房3、浙中产业园4、市分公司(温州)l18年x月,“智

13、码开门”在x区分别上线了园区、办公楼来访功能,访客可根据相应授权进入园区或大楼。l19年x月,完成华东二区5G大区机房枢纽的对接,计划x月中旬正式上线运行。lxx年xx月xx年xx月,机房作业管理功能在xx、xx、xx等六大核心机房枢纽楼逐步上线。l计划x年同步开展市分公司的对接,计划在xxx三市率先上线,并逐步向全省推广。智慧机房智慧机房智智码开门码开门GOP S 全 球 运 维 大 会 2019上 海 站智慧机房智慧机房实践案例分享实践案例分享网络故障频发云巢系列云巢系列独孤九独孤九剑剑之之破气式破气式机房能耗机房能耗GOP S 全 球 运 维 大 会 2019上 海 站数据中心能耗巨大,

14、空调系统能耗一般占到30%以上。目前主流的机房空调系统为水冷系统,可调节参数众多,单参数调节可降低本设备能耗,但会提高其他设备能耗,如何找到一组适应当时温度、湿度条件下,空调系统整体参数设置,使总能耗降低?智慧机房智慧机房机房能耗机房能耗GOP S 全 球 运 维 大 会 2019上 海 站l 主要工作流程动环监测数据处理仿真模型参数优化优化评估指令交互数据监测,获取原始记录数据数据汇总、统计,无效数据剔除等数据处理数据训练,构建能耗仿真模型,长期学习设备控制参数优化,寻找到使机房整体能耗降低控制设置专业化评估工作,确认节能效果与安全性能优化参数确认发送至动环平台及BA系数2341原始数据调整

15、指令运行状态能耗模型多组运行参数交互与展示平台5.15.2智慧机房智慧机房机房能耗机房能耗GOP S 全 球 运 维 大 会 2019上 海 站l 智能寻优输出Y(空调能耗)输入X(“5+2+1”)历史运行数据能耗模型输出Y(空调能耗)输入XXMin(Y)机器智能寻优0554028002850290029503000305032019/9/50:002019/9/60:002019/9/70:002019/9/80:00室外环境温度/空调系统能耗/kW时间空调能耗温度寻优前寻优调整后室外环境相近约节能170kW备注:l仅对冷源侧5个参数进行调节,末端

16、未调节;l本套系统,冷源能耗:末端能耗=13:15;l实时调整会导致系统不稳定,调整能耗高。约占5.5%自主编写适用于空调能耗系统的粒子群智能启发式算法,确定可控参数,限定系统安全运行参数范围,在训练完成的能耗模型上进行最优解智能搜索。智慧机房智慧机房机房能耗机房能耗GOP S 全 球 运 维 大 会 2019上 海 站数据监测能耗建模机器寻优实时调整虚拟虚拟环境环境现实现实环境环境设备状态训练数据数学模型最优参数迭代学习数据监测专业分析试验设计逐步调整设备状态能耗数据专业知识调整参数重复试验传统方法机器学习u传统方法:需要专业人员根据专业知识进行能耗数据的分析后,并进行相关状态参数调整试验的

17、设计后,经过长时间一步一步的试验调整,根据反馈数据才能找到一个变量的最佳运行状态。试验成果有效期短u机器学习AIOps:将分析方法交给机器,自动寻找最优的配置参数;将指令下发的动作交给机器,自动进行动环设备参数调节。数据分析难度大、耗时长单次试验调整变量少l经济效益目标:空调总能耗下降x%,节约用电达到x万度。智慧机房智慧机房机房能耗机房能耗GOP S 全 球 运 维 大 会 2019上 海 站智慧机房智慧机房实践案例分享实践案例分享网络故障频发天枢系列天枢系列狂狂风快剑风快剑之之风驰云卷风驰云卷网网络云集成络云集成工作台工作台GOP S 全 球 运 维 大 会 2019上 海 站1、规划建设

18、网络云集成工作台2、分析设计3、业务测试4、业务加载5、运维优化6、业务下线l VNF测试流程标准化测试云化网元的部署、功能、性能、可靠性,梳理运维相关标准化表格:告警列表 跨层告警关联规则l VNF部署自动化联动NFVO+、局数据系统,进行VNF的自动化部署、开局数据自动化配置。l VNF纳管流程标准化云化网元对接FCAPS,根据标准化告警表、关联规则,被传统OSS纳管。l IT自动验收修订NFV安全合规规范,增加合规加固项38项,在VNF入网、日常管理中进行合规、漏洞、弱口令自动验收、检查。l 需求采集自动化采集各专业需求,根据资源模板自动汇总形成资源池整体需求。l 运维手段接入标准化VN

19、F对接各项运维工具,实现纳管。l 部门间信息自动同步自动同步采购、网管系统的项目进展信息。网络云集成工作台是一套集DC规划和建设到云化业务部署、验收和上线等全量功能于一身的一站式服务平台。智慧网智慧网络络网网络云集成工作台络云集成工作台GOP S 全 球 运 维 大 会 2019上 海 站根据预处理完数据的特点,分为四种数据类型。周期性波动小 周期性波动大 非周期性波动小 非周期性波动大周期性波动小周期性波动小周期性波动大周期性波动大Holt-Winter:具有周期性和趋势性,是在一次指数平滑基础上加入了上一步的趋势信息。非周期性波动小非周期性波动小高斯检测算法:学习KPI的历史上限或下限,3

20、-准则覆盖99.7%的样本,其余0.3%认为是小概率事件。非周期性波动大非周期性波动大同环比算法:适用于每天规律的场景,通过同比和环比法确定阈值。指数平滑算法:适用于无周期场景,原理是任一期的指数平滑值都是本期实际观察值与前一期指数平滑值的加权平均。大部分指标介于四种类型,基于算法集训练模型网络云流量异常预测:l AI模型训练:智慧网智慧网络络网网络云集成工作台络云集成工作台GOP S 全 球 运 维 大 会 2019上 海 站基于卷积神经网络(CNN)算法实现资源规划。通过收集业务历史资源申请和利用率数据,在业务新申请资源时,针对不同需求使用卷积神经网络进行资源需求量计算,提升网络云整体资源

21、的优化分配和规划。u算法过程:应CNN网络结构的数据输出要求,先将指标数据通过离散编码处理,再组合构造成嵌入矩阵,然后应用多个宽度为1、2、3的具有ReLu激活的卷积过滤器来卷积压缩输入矩阵,然后通过一个带有tanh激活函数的max-pooling层,最后通过指数线性单元激活的多层感知器来获取最终的输出,实现对连续性指标数据的预测。通过最小化对数空间的均方误差来训练模型。网络云资源智能规划既满足业务需求,又能提升资源利用率。智慧网智慧网络络网网络云集成工作台络云集成工作台GOP S 全 球 运 维 大 会 2019上 海 站目录“莫问”AI使能平台介绍5运营商基础设施运维现状1当基础设施运维遇

22、到AIOps2智慧机房实践案例分享3运营商领域AIOps实施的困难及思考4GOP S 全 球 运 维 大 会 2019上 海 站缺乏应用AIOPS能力转型平台、工具不同的人员团队、技术和框架AI基础能力薄弱,coding能力相对薄弱AI运运营商营商AIOps实践困难及思考实践困难及思考GOP S 全 球 运 维 大 会 2019上 海 站以合为道聚力突破 资源整合:解决转型工作中想不想的问题;运营整合:解决认知不一致、方法不规范、声音不统一的问题,力求劲往一处使,实现聚力突破;能力整合:提供能力、数据、流程的一站式服务,为AIOps提供便捷的环境;四维立体开展AI转型工作立文成法规范制度竞赛为

23、术落地实践建台立器效能提升 人才的认定与激励;项目的统筹与共享;AIOps成熟度评估;举办全省AI竞赛,将AI能力转型工作运用到实践中;成立一个具备产、学、研的网络运维人工智能实验室,统筹规划、局部切入、全面覆盖,加速推进网络运维智能化进程。建设莫问AI应用平台。“工欲善其事必先利其器”,通过平台建设,降低AI应用开发门槛,将敏捷贯彻到实际开发中,为开发提供全流程的一站式服务,提升自研效率;运运营商营商AIOps实践困难及思考实践困难及思考GOP S 全 球 运 维 大 会 2019上 海 站目录“莫问”AI使能平台介绍5运营商基础设施运维现状1当基础设施运维遇到AIOps2智慧机房实践案例分

24、享3运营商领域AIOps实施的困难及思考4GOP S 全 球 运 维 大 会 2019上 海 站莫问剑身长兼富弹性,招式变幻无穷,是七剑中“智慧”的象征,也是七剑的精神领袖。GOP S 全 球 运 维 大 会 2019上 海 站“莫问”是天山开发者中心的AI应用平台,它是一个集训练、推理、服务部署一体化的平台。通过提供通用的算法组件和丰富的应用场景,降低学习、开发、维护模型的成本,支撑AI应用快速落地,使能网络AIOps。“莫莫问问”AI使能平台介使能平台介绍绍GOP S 全 球 运 维 大 会 2019上 海 站“莫问”AI应用平台聚焦电信网络场景,具备一键建模、模型共享、服务调度、部署包下

25、载等主要功能特性.云服务(服务调用)AI 场景选择和调整AI 模型验证和测试可视化输出和成效分析场景选择基础服务用户(UI界面)场景建模自主建模深度学习机器学习服务API接口部署包下载模型训练、测试评估和报告云服务接口 调用私有化部署提 供 部 署环 境 说 明,下 载 即 可本地部署7大数据平台/数据共享平台AI通用组件服务深度学习人脸识别身份证识别语音转文字自主建模满意度分析告警关联工单质检投诉预警场景建模基于时序预测关联规则挖掘异常值检测文本处理文本关键词提取“莫莫问问”AI使能平台介使能平台介绍绍GOP S 全 球 运 维 大 会 2019上 海 站人脸识别、图片识别、投诉语人脸识别、

26、图片识别、投诉语音转文字音转文字图像语音类场景图像语音类场景工单质检、关键词提工单质检、关键词提取、投诉现象取、投诉现象分类分类文本类场景文本类场景APNAPN数据探索、数据质量探索数据探索、数据质量探索异常值检测类场景异常值检测类场景流量预测、投诉预测流量预测、投诉预测预测类场景预测类场景家装满意度指标分析家装满意度指标分析指标重要性类场景指标重要性类场景故障故障告警告警关联关系分析、根关联关系分析、根因挖掘因挖掘关联关系挖掘关联关系挖掘u优势一:良好的交互设计可视化u优势二:优质、丰富AI场景和机器学习算法模型流程模型流程可视化可视化数据可视数据可视化化组件可视组件可视化化模型结果模型结果

27、可视化可视化8“莫莫问问”AI使能平台介使能平台介绍绍GOP S 全 球 运 维 大 会 2019上 海 站u优势三:能力开放莫问AI平台提供了3种不同的能力开放形式,适应多种实际应用场景,支撑训练后的模型在生产中快速落地。模型发布用户训练后的模型可在平台上进行发布,发布后的模型可以直接进行预测及共享。模型服务发布后的模型可以进行服务发布,一键发布成API接口,供第三方平台调用。本地私有化部署根据不同权限开放不同场景模型代码,提供下载及部署说明文档。“莫莫问问”AI使能平台介使能平台介绍绍GOP S 全 球 运 维 大 会 2019上 海 站数据预处理特征工程模型训练模型评估重新学习发布模型发布服务本地文档上传数据库HDFS数据u优势四:一站式应用流程一个AI应用从训练到部署的链路很长,“莫问”致力于打造一站式的开发环境,提供模型训练、发布、服务、私有化部署等功能,具备从元数据到服务发布的整套流程。“莫莫问问”AI使能平台介使能平台介绍绍GOP S 全 球 运 维 大 会 2019上 海 站Thanks高效运维社区开放运维联盟荣誉出品

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2019年浙江移动基础设施AIOps实践及探索.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部