《李明亮-数字化全链路监控助力云原生安全生产.pdf》由会员分享,可在线阅读,更多相关《李明亮-数字化全链路监控助力云原生安全生产.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、数字化全链路监控助力云原生安全生产李明亮中国联通软件研究院 运营保障与调度中心 副总架构师数字化监控平台负责人三未来展望一背景问题二落地实践IT核心能力开放与运营B域(软研院)辐射全网用户与应用、服务内外部合作与创新M域O域.华盛各域创新子公司云化资源池大数据平台沃支付平台数字化底座智慧中台数据中台数字化研发、数字化监控、数字化能力开放联通云数据、能力、资源开放共享赋能应用业务侧管理侧微厅短厅网络侧大流量APP智慧医疗河湖长制智慧云网边缘云产品内部商城采购系统智慧门户数字档案馆ERP公众中台政企中台网络中台管理中台资源保障安全保障治理保障运营保障统一架构新运营体系中国联通软件研究院是中国联通集
2、团直属二级研发机构,成立于2015年7月1日,致力于科技自立自强、核心IT系统自主研发。本部位于北京,下设哈尔滨、济南、广州、西安、南京五个分院。根据数字化新IT智慧中台总体规划部署,软件研究院职责由B域系统研发、生产运营、支撑响应扩展至B域、M域、D域的生产研发与运营支撑;信息安全研发与运营等。3B、M、D域生产研发与运营支撑,信息安全研发与运营2020年B域项目建设、研发生产、采购2017年B域研发2015年集团2017179号集团2020177号集团2015135号集团2022123号改变划域而治实行管运分离改变研发、生产区隔实行B域整体演进2022年统一标准、技术框架、UI/UE,整合
3、同质化菜单、数据、资源,以BU方式嵌入支撑推进数字化转型实行统筹管理公司简介数字化转型业务安全生产面临的挑战 当前国内中大型企业数字化转型后,内部大多上百套系统,上千服务,业务连续性低,传统人肉运维难以为继,亟需建设数字化智能运维平台助力业务安全生产业务连续性挑战云原生下安全生产面临的新挑战云原生挑战运维生态挑战 运维工具重复建设 运维工具不精不强 运维工具能力割裂 各层级指标定义不标准、数据不互通 核心业务调用复杂,跨数据中心、跨云平台、跨系统 跨系统、跨层级故障根因联合定位难 端到端稳定性保障体系缺失 故障处于被动防御,救火 故障没有沉淀为有效的资产数智运维不足 故障处理过多依赖专家经验
4、运维大数据未被合理价值挖掘 自动化、智能化故障处理能力不足究竟什么叫做全链路监控?横向到边、纵向到底?业务安全生产的核心价值之一是提高业务连续性,可从提高平均故障间隔时间(MTBF),减少平均故障恢复时间(MTTR)两个方向开展工作,分解下来,就是在入网控制、发布上线、故障预防、故障发现、故障定位,故障恢复、故障改进进行全流程改进Pre-MTBFPost-MTBF故障预防故障发现故障定位故障恢复故障改进变更管理健康检查监控覆盖监控告警业务巡检用户反馈服务拨测日志分析监控分析链路追踪根因定位服务限流主备切换故障隔离故障复盘改进验收故障镜像周边清查建设/演练/OnCall复盘/改进/OnCall应
5、急响应容量管理故障自愈变更追踪应急预案服务降级MTTR舆情感知混沌工程业务链路入网控制发布上线接收测试冒烟测试版本验证自动测试链路压测风险评审质量控制代码质量安全准入业务安全生产三未来展望一背景问题二落地实践基础设施中国联通大IT生产运营工作台PC端(谷歌/火狐/IE/360)钉钉端西咸IDCCCS主机设备CKE阿里飞天网络设备亦庄IDCCCS主机设备阿里飞天网络设备无锡IDCCCS主机设备CKE阿里飞天网络设备广州IDCCCS主机设备CKE阿里飞天网络设备呼和IDCCCS主机设备CKE阿里飞天网络设备统一架构微前端qiankun微服务联通云平台天梯持续集成服务能力管控服务注册服务路由流量控制
6、熔断服务鉴权自主接入在线申请代理路由统一登录统一登录鉴权账号体系管理接入便捷灵活对接第三方登录开发者中心API服务订购SaaS应用上架数据API接口快速配置运营分析开发手册前端框架样例UI组件样例权限集成样例API接入样例基础能力管控平台命令通道数据通道文件通道权限中心用户管理菜单管理租户管理应用管理数据采集浏览器服务性能中间件主机资源APP感知天擎服务云平台网络资源监控告警告警通知告警处理告警静默告警查询作业能力作业编辑作业调度作业执行作业查看AI算法动态阀值能力指标异常检测指标趋势预测日志异常检测ITSM流程引擎流程编排流程调度流程执行流程查询配置中心配置发现配置采集配置拓扑配置查询基础数
7、据运维数据库管理数据查询数据稽核任务调度工单运营服务工单查询工单处理工单评价工单分类知识库服务知识存储知识管理知识搜索知识推荐及时通讯服务消息接收消息推送多类型消息消息群组第三方能力短信发送IVR语音推送钉钉消息邮件发送APIAPIB/M/D域核心触点cBSS掌沃通智慧门户能力开放能力共享核心应用开发支撑运行保障(自动化生产)变更管理任务调度平台变更追踪配置管理传统CMDB云化CMDB自动化运维自动化作业故障自愈稳定性测试自动化巡检接收测试压力测试监控管理浏览器、APP监控全流程调用链监控智能监控告警平台亚健康日志中心运营生态软研院天擎运维天宫栈运维基础设施运维计费运维业务连续性故障管理用户体
8、验感知运营知识管理沃运营运营响应(智慧化运营)问题管理沃运营补天平台订单医生省公司广东二级研发山东二级研发上海二级研发服务台沃运营一体化运营公众运维 关键点:制定各层级指标采集标准,统一传输工具,实现分层数据共享。天擎ES、REDIS、MLB、NGINX等应用自建中间件CPU、内存、流量等容器CPU、内存、硬盘、IO、流量等主机负载均衡、交换机、防火墙的CPU、流量、连接数等网络全层级指标标准318项联通云基础设施天眼RDS、DRDS等中间件指标联通云中间件总部及31省分及子公司544套IT系统覆盖,监控点15600+项724实时监控对外能力接口成功率、超时率接口业务成功率、发展量、工单积压等
9、业务关键点:以系统为维度的纵向全层级整合服务/接口调用量、超时、异常等后端应用PC:页面耗时、AJAX耗时、JS报错、弹窗APP:崩溃率、卡顿率前端触点关键点:让专业的团队去做更专业的事全层级监控是基础 通过探针非侵入式采集,实现调用链实时追踪、全层级故障根因定位。告警配置、多维根因定位分析,服务耗时分析等功能。调用拓扑IaaS/PaaS/SaaS实例/接口分析JVM/GC分析告警配置服务趋势/报错异常(系统/业务)SaaS层服务调用关系、趋势图、报错分类(系统/业务)关键点:try catch exception(日志)(日志)PaaS层组件、平台容器资源情况SAAS层主机资源全流程调用链拓
10、扑自动生成,分租户管理JVM分析、GC分析根因实例、根因接口分析关键点:调用链与云化CMDB做关联,关联到容器与主机调用量、超时、异常黄金指标多指标自由组合,阈值趋势参考坐标系关键点:链路信息要转换为黄金指标告警要收敛分布式追踪是关键(1/2)调用链支持跨系统、跨云平台(CKE/CCS/EDAS)、跨数据中心(亦庄、西咸、廊坊、无锡)链路拓扑,通过分数据中心汇总串联,完成跨系统调用实时追踪和方法清单级根因定位,当前天眼接入服务6000+,日均处理600亿数据。西咸数据中心(联通云CCS 4.0)collector-server新客服agent系统agent系统agentkakfaflinkcl
11、ickhousesinker亦庄数据中心(联通云CCS 2.0)collector-servercBSSagent天眼agent系统agentkakfaflinkclickhousesinker廊坊数据中心(阿里飞天EDAS)collector-server公众中台agent政企中台agent天擎agentkakfaflinkclickhousesinker无锡数据中心(联通云CKE 4.0)collector-server公众中台agent政企中台agent天擎agentkakfaflinkclickhousesinker关键点:跨数据中心链路组装亦庄主资源池kafkaclickhousen
12、eo4jmysqlcBSS新架构智慧客服政企中台公众中台管理中台关键点:分布式计算、单元化支撑、弹性扩展分布式追踪是关键(2/2)依托全层级指标数据,全层级链路调用,自研云原生CMDB,以级丰富的故障知识库,以服务层为故障起点进行纵向串联,配以规则+AI的能力实现全层级一键智能故障诊断,当前准确率可以达到45%。服务实例事件异常:2022-04-XX XX:XX 根因服务实例耗时突增判断实例GC是引发故障根因主机宕机事件异常:2022-04-XX XX:XXlb所在主机宕机导致lb实例销毁重启服务波动是故障根因Oracle事件异常:2022-02-XX XX:XXoracle会话数突增导致服务
13、连接超时增多是故障根因网络事件异常:2022-03-XX XX:XX交换机带宽使用率指标打满引起访问受限是故障根因ES事件异常:2022-05-XX XX:XXes进程负载率突增导致上游服务连接超时是故障根因Redis事件异常:2022-04-XX XX:XXredis耗时波动引起上游服务连接超时是故障根因rds事件异常:2022-05-XX XX:XXrds慢sql突增导致节点状态异常是故障根因快立方事件异常:2022-04-XX XX:XX根因服务下游调用快立方告警异常是故障根因 上者治未病,依托全层级监控体系,可以构建故障预防产品-亚健康检查,自2022年1月3日起,我们对对内部某一核心
14、系统,历经17周,系统全层级日均高风险问题项个数:服务层112降至2,组件层246降至16,资源层75降至1,关键点:评分与趋势,闭环运营管理周期性观测故障预防统计以日、周、月维度统计问题项情况,观测系统阶段性运行情况实时健康体检系统实时体检实时计算全层级指标,根据阈值判断指标异常及风险程度性能对比系统性能对比页面可选取生产变更前后时间进行各指标性能对比,观测系统性能变化趋势体检报告系统体检与性能对比报告,找出系统异常指标标注指标含义、可能引起故障、整改举措,助力系统整化,夯实稳定性黄金核心指标选择根据故障知识库与专家建议,选取页面、服务、组件、资源层共23类158项核心黄金指标亚健康检查是一种执着三未来展望一背景问题二落地实践MetricsTracingLogging天眼天眼请求范围范围内的拓扑追踪系统各维度的度量度量指标记录处理的离散事件事件信息调用链、日志、性能管理调用链、日志、性能管理消息日志(业务)消息日志(业务)链路压测(生产)链路压测(生产)流量控制网络监控(NPM)One Agent全链路监控的衍生-消息日志、链路压测、流量控制、生产巡检应用(APM)-网络(NPM)全链路端到端在往后呢?-核心业务链路端到端 BPM-APM-NPM THANKS!会议主办方介绍及联系方式