上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

02 金蝶云稳定性运维及平台建设实践分享V2.1.pdf

编号:129338 PDF 23页 3.88MB 下载积分:VIP专享
下载报告请您先登录!

02 金蝶云稳定性运维及平台建设实践分享V2.1.pdf

1、金蝶云稳定性运维及平台建设实践分享金蝶软件(中国)有限公司邹俊金蝶云稳定性运维及平台建设实践分享邹俊金蝶软件(中国)有限公司研发工程与运维部/副总经理资深运维专家资深架构专家金蝶软件23年,20多年ERP产品领域软件研发、技术服务、运维运营实践工作经验02金蝶云运维发展与挑战稳定性运维及平台建设的思考011-1.金蝶云业务与运维|1-2.问题与挑战2-1.金蝶云运维工程体系建设|2-2.运维平台建设033-1.运维工程实践|3-2.混沌工程探索金蝶云运维工程实践金蝶云运维发展与挑战01金蝶云业务与运维1万+中大型客户数30万+小微客户数1200+数据量(TB)2013团队建立金蝶云星空金蝶云苍

2、穹金蝶云星瀚金蝶云星辰精斗云KIS云问题与挑战客户需求:变化快、响应及时系统环境:运行稳定、性能高效业务特色:系统复杂、计算量大 人财物、系统集成、二次开发 月末结账、成本核算、MRP运算业务视角运维视角安全:内外部安全合规产品:多产品、多版本、更新迭代运维:运维规范、运维平台建设 运维规范不统一 业务监控能力弱 系统稳定性与性能要求高 运维效率与质量要求高稳定性运维及平台建设的思考02稳定性运维的思考面向客户,提供可视化运维管理,让客户参与运维、看到运维云上资源实时监控,异地多活灾备多产品运维服务统一入口,易用稳定基于场景、角色提供不同维度数据分析天梯1.0天梯2.0天梯3.0V1.0:基础

3、运维从被动支撑到主动驱动,提供安全、稳定、可靠的运维自动化服务V2.0:高效能运维提高自动化效率与稳定性,全面监测、异常告警,为客户提供高质量的自动化服务V3.0:高价值运营贯穿运维全生命周期,面向运行质量与体验数字化精细管理与运营,助力产品做到极致自助运维多产品安全高可用数字化运营运维的演进稳定安全可靠体验质量效率价值运营经营DevOps工程能力中心金蝶云运维工程体系建设:端到端产品全生命周期稳定性能力建设稳定性运维能力中心稳定性平台门户客户需求管理能力原始需求池有效性评估优先级评估研发过程管理能力发布申请版本迭代用户故事特性管理任务管理缺陷管理测试管理评审管理补丁管理技术测试平台单元测试接

4、口测试UI测试性能测试拨测平台版本库构建打包制品库自动化代码扫描安全扫描运维及监控质量门禁事件管理运维监控业务监控异常监控自助运维预警中心态势感知产品运营分析能力中心产品使用优化效果评估优化任务管理产品使用分析结果反馈质量效能看板产品使用看板运维看板服务响应看板运维门户研发门户CI配置管理生产部署发布申请预发布变更监控灰度发布CMDB作业平台CI服务管理发布管理运维监控平台产品研发运维监控产品运营产品价值传递活动管理安全运营中心安全管理看板安全运营冒烟安全研发管理fortify源码扫描DC依赖扫描开源及第三方软件漏洞库管理金蝶PSIRT门户Pipeline需求反馈待办清单项目集/项目管理产品价

5、值传递分析大数据分析能力中心数据应用数据服务数据治理数据建模实时数仓离线数仓数据采集运维平台能力建设:金蝶云天梯监控告警平台自动化运维平台多云多产品监控平台容器业务主机网络中间件苍穹&星瀚星空企业版星空旗舰版星辰运维看板全网看板客户看板告警大屏资源管理标准运维变更管理网络管理备份管理作业平台Agent管理作业编排脚本管理系统管理平台配置多云适配多产品管理基础设施容量管理租户管理权限管理配置管理开放服务运维命令WebAPI安全运维告警平台告警处理告警生成数据存储数据接入事件管理事件工单流程跟踪SLA预案管理精斗云KIS云数据智能服务数据服务AIOps平台AIOps场景标签管理运维门户运营分析业务

6、运维管理移动运维IaaS成本管理运维效能&质量消息中心运维巡检微服务接口客户自助运维金蝶云运维工程实践03稳定性监控:全网看板(客户规模、用户规模、运维任务、运维环境、系统监控、ELB、拨测、数据库异常、业务分析)系统监控服务拨测监控ELB监控运维任务监控数据库监控:数据库巡检报告与慢SQL报告(数据库分布、RDS巡检、数据备份、数据规模、临时表、慢SQL、性能与耗时)数据库监控慢SQL监控数据库巡检报告客户自服务:客户运维看板(系统信息、健康度检查、应用服务、数据库服务、网络、系统运维、访问量、性能、SQL)系统健康度检查数据库服务器监控数据库健康度监控网络监控运营分析:运维效能与质量分析(

7、运维任务规模、自动化率、作业效能、运维效率、运维时长、客户运维行为分析、SLA)运维质量与效能分析运维效能月报常态化运维:变更管理(变更流程、变更策略、变更作业、变更日报)变更日报版本发布管理作业平台定时作业运维命令按区域分配执行目标池超时告警执行异常脚本编排执行历史制品库公有云补丁仓库CMDB租户环境管理数据中心管理集群管理MC管理变更管理支撑场景预发布沙箱、POC生产第一阶段生产第二阶段生产第三阶段变更策略标准补丁多语言补丁行业补丁ISV补丁变更流程灰度紧急补丁正式紧急补丁红蓝灰敏稳双态补丁合并升级补丁依赖多区域升级变更配置补丁安装申请单补丁变更可视化消息中心云之家短信邮件产品弹窗客户运维

8、大批量客户环境手工打补丁研发解决问题慢,进度不可知历史补丁发布情况无回溯通道运维安全:安全月报(WAF、防火墙、安全设备、攻防数据趋势)安全态势感知看板攻击类型分布统计告警平台:业务监控、数据库监控、告警策略、告警处理、告警闭环、告警度量告警闭环告警通知故障自愈事件工单告警值班监控场景业务监控数据库监控主机监控组件监控数据接入指标Metrics日志Logs调用链TracesEvents数据可视化运维看板告警大盘服务拨测即时查询数据采集动态采集自定义上报告警生成告警策略告警收敛告警模板告警分级告警防抖数据存储&异常检测关键词检测无数据检测实时检测时序数据库日志数据库告警处理告警屏蔽告警升级告警自

9、愈移动告警知识库日志监控指标监控监控平台调用链监控统一告警平台紧急事件处理:按灯机制、应急响应、事件管理技术支持/业务运维红灯标记应急响应负责人:产品总监、产品总经理问题响应处理应急响应负责人:研发总经理、分管VP通报领导小组应急响应负责人:产品总监、产品总经理红灯解除关闭工单解决同步云之家结束彻底解决工单流转技术支持/业务运维问题识别用户问题反馈质量运营部复盘、改进、落实工单流转故障持续时长X小时汇报通报处理结果汇报事件管理系统对混沌工程的理解Chaos Engineering is the discipline of experimenting on a system in order t

10、o build confidence in the systems capability to withstand turbulent conditions in production.混沌工程是一门在系统上进行实验的学科,目的是建立对系统在生产中承受动荡条件的能力的信心。注意控制爆炸半径要注意控制影响范围尽量选择可回退的故障注入方法回退时间可控核心思想:通过主动在生产环境或准生产环境引入故障因子,验证系统应对故障的能力故障场景分析比故障注入更重要深入理解业务功能深入理解客户体验深入理解技术架构深入理解障场景混沌工程实践注意事项:2021年2022年2023年研究跟进混沌工程技术和腾讯云、华为

11、云、阿里云交流混沌工程技术;在H1高可用演练中使用混沌工程工程技术;在H2容灾演练中使用混沌工程技术。继续深化使用混沌工程技术在高可用、容灾演练中采用混沌工程模拟常见故障场景,提升运维人员的对日常故障处理的应急响应能力。金蝶云混沌工程应用情况编号部分演练场景工具1负载均衡服务故障或负载均衡地址被DDOS攻击需切换到新的负载均衡服务腾讯云混沌演练平台2数据库CPU过载自建脚本3数据库磁盘空间满自建脚本4Redis 内存过载自建脚本腾讯云混沌演练平台1、CLB故障或CLB地址被DDOS攻击需切换至新的CLB2、使用腾讯云tccli命令来克隆原有CLB#命令参考tccli clb CloneLoadBalancer-cli-unfold-argument-region ap-guangzhou-LoadBalancerId lb-ntbqsxuq-LoadBalancerName 测试克隆CLB3、将域名手动指向到新的CLB,测试是否正常4、测试正常后,需将DNS指向新的CLB地址(此步骤在此次演练中无法进行,生产环境切换需进行此步骤)演练场景:腾讯云CLB故障或CLB地址被DDOS攻击需切换新的CLB1、简单易用:腾讯云混沌工程平台开箱即用,不需要太多相关经验以及技术背景就可以使用2、场景丰富:使用很少的配置操作就可以模拟多种故障,快速构建可靠性测试场景THANKS谢 谢

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(02 金蝶云稳定性运维及平台建设实践分享V2.1.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部