《黄蕴思-广东移动 AIOps 的中台化探索与实践转型.pdf》由会员分享,可在线阅读,更多相关《黄蕴思-广东移动 AIOps 的中台化探索与实践转型.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站广东移动AIOps的中台化探索与实践转型黄蕴思 广东移动 IT运维专家广东移动 AIOPS 应用推广负责人,IT运维专家,曾参与信通院AIOPS、MLOPS等相关规范标准和实践指南的编写。01广东移动运维能力的发展02AIOPS工具的中台化探索03实践案例分享04未来展望目录Content01广东移动运维能力的发展2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站我们的运维工具发展历程编排化、智能化AIOps自主自愈无人值守运维事件自动化运维操作平台化运维平台具备编排能力部分运维场景智能化运维平台
2、一体化,具备跨模块联合交付能力复杂运维场景智能化,并具备智能化决策能力绝大部分关键场景应用自动化和智能化技术,实现无人值守终极目标平台化、自动化流程化、标准化运维流程、标准等的建立和管理工具标准化管理2010年2018年2020年2023年2025年2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站目前我们已具备的运维工具广东移动新一代数智化运维管理平台(IT网管+子平台)2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站运维工具分层编排开发工具编排开发工具自动化原子操控工具自动化原子操控工具AIAI算法服务算法服务能力组装工具能力组装工具自动化
3、能力运维学件运维监控自动化场景自动化对外赋能智能化赋能运维业务端到端场景敏捷支撑能力中心开放共享中心业务端到端能力采集模块操作模块资源模块AI模块数据管控模块容器智维模块。编排模块流程平台。抽象的原子操作标准化的AIOPS工具 复用组装 灵活度高 专业性强基础模型服务2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站我们沉淀的成熟运维能力知识图谱全流程联动AI+知识经验双模智能故障诊断资源优化还有各种监控类能力、性能治理类能力、成本优化类能力,ETC02AIOPS工具的中台化探索2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站我们参考学习的“大
4、拿”思路清华大学计算机系裴丹教授作了题为智能运维(AIOps)趋势解析报告,说到了9大趋势,其中的趋势6就是AIOps算法服务化。中国通信标准化协会智能化运维AIOPS能力成熟度模型也提及了算法模型服务化能力的要求。Gartner组织在预判报告中提出组装式应用(Composable Applicatons)概念2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站“搭积木”形式的运维工具复用和组装思路 日常操作抽象并固化形成原子操作 原子操作进行组合形成操作序列 原子操作和操作序列封装形成自动化任务 无场景层算法模型服务 通用学件层算法模型服务 专项学件层算法模型服务AI算
5、法服务能力层自动化操作能力层 原子能力层、AI算法层为底座 基础原子操作组件、AI算法服务学件整体融通 实现原子操作和AI算法的互相调用融合敏捷编排能力层 以API、SDK等标准化接口的方式对外提供服务 可选取相关运维能力进行调用并重新组装 可把组装好的能力进行实际的场景应用中台能力组装层运维编排开发自动化原子操控能力AI算法服务层日常巡检服务启停部署发布运维敏捷支撑新生态对内引入对外开放赋能提升积木式应用构建,更快响应变化常用算法常用学件专用学件中台运营中台能力组装能力引入B/O/M/S赋能全域能力注册零件库武器库作战单元2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北
6、京站零件库之:自动化操作序列原子级颗粒度自动巡检BM域多场景自动化操作IT系统应用服务自动化启停B、M域IT系统100+原子原子3000+3000+巡检项巡检项1000+1000+启停项启停项1000+1000+主机主机4000+4000+数据库数据库200+200+中间件中间件300+300+2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站零件库之:算法仓库03相同算法不同场景/作者使用情况02各能力域包含的场景数及使用算法数01各原子算法应用的场景数04算法分类型角度统计使用场景数各能力域场景数VS算法数算法仓库2023 DevOps 国际峰会 暨 BizDevO
7、ps 企业峰会 北京站武器库:学件编排2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站中台能力组装作战单元:能力矩阵B域智慧运维M域智慧运维BI域智慧运维应用场景能力组件告警配置异常检测监控管理监控采集告警收敛开放传输监控展示故障预测影响分析故障管理故障诊断报障管理故障自愈健康度感知应急扩缩容业务应急应急管理应急切换应急演练日常拨测批量任务运维作业日常巡检配置管理自动化测试变更后评估变更管理自动发布环境评估关联影响分析资源发现资源稽核资源管理资源管控模型管理开放传输智能客服知识图谱服务支撑智能工单投诉分析容量预测容量优化容量管理表空间优化成本优化性能评估云原生治理中台
8、能力开放敏捷编排能力层自动化操作能力算法模型服务基础组件标准化、轻量化03实践案例分享2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站实践案例1:敏捷编排,降低AIOPS工具开发门槛每层发布为对应的算法服务,根据调用次数、满意度等信息,不断发现沉淀优秀的运维场景算法服务。降低开发门槛,快速构建AIOPS工具2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站实践案例1:敏捷编排,降低AIOPS工具开发门槛多层服务-多级调用内部&第三方服务注册-可视化服务编排一处建设-多处调用异常检测服务发布算法库根因分析健康检查2023 DevOps 国际峰会
9、暨 BizDevOps 企业峰会 北京站实践案例2:快速组装,形成多场景联动的运维工具作战场景武器名武器作用故障全生命周期一站式业务接口探测异常预警能力 实时模拟调用探测,将结合Al智能算法进行异常预警分析主机故障诊断能力综合分析诊断主机平台发生的故障或已经发生的故障,匹配自愈方案并进行自愈操作知识管理全流程联动能力知识来源治理、知识分类加工(转换、更新),知识应用(智能化推荐、自动化处理)IT系统一站式业务接口探测异常预警能力主机故障自愈知识管理全流程联动开始梳理业务接口梳理自有能力进行接口探测根据探测结果输出异常接口信息根据异常接口识别相应主机主机故障诊断主机故障自愈生成案例文件保存到知识
10、库中自愈成功的信息提升场景建设效率故障恢复时长缩短了23.75%80分钟61分钟6分钟3分钟故障平均发现时长缩短了50%15天5天场景开发耗时缩短了66%从上到下序列串联2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站实践案例2:快速组装,形成多场景联动的运维工具作战场景武器名武器作用碳中和、成本优化数据库存储空间成本优化能力 分析并预测数据库存储空间资源的使用趋势,自动输出数据库成本优化建议低效无效资产智能评估能力准确识别低效无效主机,提供主机层智能评估建议。综合挖掘场景价值数据库存储空间成本优化能力低效无效资产智能评估能力并联不同资源、同类场景横向结合AIOPS开
11、发的门槛降低,实际使用工具的运营人员可以自行按需完成二次开发。业务主导通过复用已有的算法、采集数据、能力输出并形成新场景,降低同类场景再开发损耗成本。降低成本节省场景再开发成本60%新增工具开发人员数200%2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站AIOps场景建设效能提升1041912020年2021年2022年应用系统2779952020年2021年2022年建设场景数量场景建设效率运维效率 告警处理时间下降75%故障发现时长缩短了50%故障恢复时长缩短了55%93%60%04未来展望2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京
12、站后续重点研究和应用方向建立全量AIOps场景能力的能效评估模型体系AIOPS with 大模型?场景能力维度能效评估三级模型指标集覆盖场景AIOps场景全覆盖分析能力建立场景评估能力维度采集指标定指标、定算法、定数据来源客服智能问答工单智能处理智能统计质检2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站路漫漫其修远兮。u我们还在不断尝试各种XOPS场景的开发u我们正在探索中台与智慧运维的结合u我们也在寻求利用AIOPS实现运维的降本增效u我们也期盼交流新技术、新理念在运维中的应用,例如元宇宙、大模型欢迎交流2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站ThanksDevOps 时代社区荣誉出品