上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

张鹤-券商核心交易系统 AIOps 探索实践.pdf

编号:132003 PDF 23页 5.67MB 下载积分:VIP专享
下载报告请您先登录!

张鹤-券商核心交易系统 AIOps 探索实践.pdf

1、2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站券商核心交易系统AIOps探索实践张鹤 资深运维平台专家11年研发经验,长期从事运维平台建设工作,目前负责一体化智能运维体系建设工作,擅长应用CMDB、AIOps等领域的平台能力建设,及一体化智能运维场景的建设。01核心交易系统特点分析02AIOps落地与实践03AIOps建设问题探讨目录Content01核心交易系统特点分析运行特点与运维痛点分析2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站核心交易系统运行特点交易、结算等核心业务,实时性要求高属于关键信息基础设施,要求安全等保三级重要性高重

2、要性高部署复杂:共部署700+台服务器业务复杂:1000+类交易场景,10000+个服务复杂度高复杂度高与核心交易系统存在上下游交互的系统共70+个影响面广影响面广日均订单量:1500万+交易日峰值TPS:11万+访问量大访问量大每周进行一次常态化版本升级,每月进行一次大版本升级变更频繁变更频繁2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站核心交易系统运维痛点版本质量运维专业性可观测性核心交易系统的外购模块,出现偶发的版本质量问题变更频繁加之版本质量不高,导致版本升级后容易出现生产问题版本质量版本质量由于缺少traceId,核心交易系统难以实现业务的全链路故障分析日

3、志量巨大,平均每天产生3000万+日志,导致难以发现问题可观测性可观测性核心交易系统对运维人员的专业水平、业务知识的能力要求较高发生故障时,需要以最短时间进行应急,并控制操作风险运维专业性运维专业性02AIOps落地与实践核心交易系统AIOps场景2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站AIOps体系架构2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站场景一:毛刺风险分析AIOps分析与计算核心功能号基于镜像流量的请求RTT计算指标时序库实时偏离度计算异常毛刺毛刺聚合毛刺工单运营毛刺风险工单毛刺分析毛刺工单反馈SRE运营人员跟踪运营核

4、心功能号实时性要求高,整体耗时要求在10ms左右,且不能出现频繁波动固定/动态阈值告警,无法感知耗时指标的瞬时突变,而瞬时突变可能是系统异常导致提升核心功能号的监控保障能力帮助SRE发现系统的潜在风险场景背景场景意义3-sigma算法RTT指标数据训练生成动态阈值区间核心接口大屏一线运维早开盘盯屏2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站场景一:毛刺风险分析360毛刺巡检大屏通过毛刺风险工单,跟踪SRE对于毛刺风险的分析与反馈情况,推动SRE进行毛刺风险分析核心接口保障大屏支撑早开盘期间,核心接口服务状况的跟踪2023 DevOps 国际峰会 暨 BizDevO

5、ps 企业峰会 北京站场景二:内存清算耗时异常检测内存清算过程出现问题的概率虽小,但影响巨大,属于核心业务,需要重点保障,出现异常时,需要第一时间介入处理清算步骤执行结果监控未全面覆盖,部分步骤的执行结果无法自动感知业务原因可能导致部分清算步骤的执行时长日渐增长,进而触发超时异常提升内存清算过程的异常感知能力提早发现清算步骤执行时长的突变与渐变,节省SRE的处置时间场景背景场景意义清算步骤执行时长起始时间AIOps平台模型训练孤立森林算法AIOps业务场景执行时长突变执行时长渐变开始时间突变动态基线模型匹配起始时间趋势分析步骤相似度分析实时检测合理区间匹配趋势分析开始时间渐变异常分析清算大屏2

6、023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站场景二:内存清算耗时异常检测清算全过程集中管理目前已纳管内存清算的所有步骤节点,可展示清算步骤的执行过程与顺序。清算过程实时展现结合清算节点本身的业务监控能力、清算节点耗时AIOps异常检测能力,实时呈现清算全过程的成功、失败、异常情况。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站场景三:集中交易日志异常检测错误日志运行日志其它类型日志AIOps平台时序检测3-sigma算法AIOps业务场景新日志异常点突变异常点历史异常查询异常标注告警反馈故障研判通过文本相似度,流式计算相似文本、聚合计算、

7、异常检测等能力,为用户提取日志异常(新类型日志、日志量突变日志类型等)每日核心交易系统中间件日志量3000万+,关键字匹配告警仅1000余条,日志利用率、发现异常率低仅对已知故障日志配置告警,但频繁变更带来新的故障类型,无法感知场景背景快速发现基于人工经验无法识别的日志异常有效感知因变更或业务变化导致的系统异常场景意义Drain算法模板引擎聚类模板关键字匹配errorInfo/Message2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站场景三:集中交易日志异常检测96522月第1周4月第2周4月第3周

8、4月第4周5月第1周5月第2周5月第3周5月第4周日志异常检测数量错误日志新类型运行日志新类型错误日志突变运行日志突变通过3周时间收敛异常数量,3周后趋于稳定通过告警工单,发送给SRE进行反馈确认2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站场景四:磁盘占用率预警市中交易期间与重保期间,磁盘占用率触发告警时,清理文件操作属于应急操作磁盘占用率低级别告警线为85%,高级别告警线为95%,一旦触发高级别告警,一线运维介入处理,影响较大将告警升级为预警,提早发现风险减少市中因磁盘打满而必须执行的应急操作,推动SRE配置自动清理日志任务场景背景场景意义磁盘占用率AIOps平

9、台单指标拟合计算AIOps业务场景低级别告警触发高级别告警预测批量扫描磁盘占用率预警prophet算法2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站场景四:磁盘占用率预警纳管生产环境2万+机器,平均每月发现24次磁盘占用率预警。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站场景五:全业务运行画像前期只关注应用层、计算资源层告警,对业务的运行情况感知不足对业务的异常感知,主要关注高频、新上等业务的首单时间、废单情况自动生成全量业务,可有针对性地进行业务监控能力提升及业务场景测试提升业务监控感知能力场景背景场景意义2023 DevOps 国际

10、峰会 暨 BizDevOps 企业峰会 北京站场景五:全业务运行画像实时检测当日新上业务,在新业务版块进行重点关注新业务提醒根据T-1日订单量进行业务排序,动态调整业务墙布局,高频业务前置业务量排序结合业务监控告警、首单检测、新废单类型检测,分颜色展示异常原因业务健康检测快速拉人入会,进行应急指挥调度业务应急调度03AIOps建设问题探讨如何提升AIOps建设成效2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站AIOps建设达不到预期AIOps建设没出效果投入成本大,成效慢AIOps发现的异常不准确担投入成本大,成效慢在原有告警基对SRE日常工作造成负担投入成本大,成

11、效慢在原有告警基础上,增加额外告警领导与SRE对AIOps逐渐失去信心!2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站AIOps建设的关键点AIOps平台依赖于日志监控、指标监控、CMDB拓扑等底层数据,只有充分完善系统的监控成熟度及CMDB数据,才能确保模型训练的结果更为准确夯实数据底座各系统的业务关注点、日志格式、监控告警等均有差异,很难实现通用的AIOps业务场景,只有结合系统的业务场景实际,进行定制化分析,才能保证分析效果业务场景定制AIOps分析是基于历史数据训练,并结合实时数据匹配的结果,必然存在匹配错的情况,必须通过运营人员,组织SRE与开发人员,不断

12、进行结果的反馈与修正,不断提升结果的准确性加强联合运营2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站AIOps运营体系组织需求讨论与方案评审组织平台使用培训推动工单反馈工单反馈SLA审计技术支持提供运营支撑数据提供技术方案组织需求讨论与方案评审准确率SLA审计需求反馈问题反馈问题反馈需求反馈运营团队产品规划设计需求承接与分析开发团队需求分解与方案设计平台能力建设SRE团队平台使用工单反馈自顶向下推动纳入KPI考核指标牵引、数据驱动、运营组织、流程闭环2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站ThanksDevOpsDevOps 时代社区时代社区荣誉出品

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(张鹤-券商核心交易系统 AIOps 探索实践.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部