《2019年大型电商网站SRE运维的挑战与思考.pdf》由会员分享,可在线阅读,更多相关《2019年大型电商网站SRE运维的挑战与思考.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、GOP S 全 球 运 维 大 会 2019上 海 站GOP S 全 球 运 维 大 会 2019上 海 站大型电商网站SRE运维挑战和思考GOP S 全 球 运 维 大 会 2019上 海 站目录电商网站业务特征对运维的挑战1SRE的日常2速度 Vs 稳定性3技术&流程建设4GOP S 全 球 运 维 大 会 2019上 海 站 容器化开始普及 成本压缩 更高的运维效率要求 运维不可控因素变多新的挑战容器化技术更快的迭代效率单位gmv成本压缩成本GOP S 全 球 运 维 大 会 2019上 海 站系统规模变更频率资源成本效率要求电商业务特征对运维的挑战GOP S 全 球 运 维 大 会 2
2、019上 海 站 系统复杂度上升 业务单元化拆分 复杂的开发团队 各种技术堆栈 独立的技术路线 集群节点膨胀 单个集群500到1k的规模规模变化?dbcachetomcatAppdbcache?dbcachetomcatAppdbcachenodejs后端Javagolang前端nodejsBI离线pythonjava0500200181111应用集群规模app1app2GOP S 全 球 运 维 大 会 2019上 海 站单机房单机房HA多机房业务中台化多机房冗余单元化一致性设计业务解耦分布式设计业务演化GOP S 全 球 运
3、 维 大 会 2019上 海 站变更配置变动代码发布环境变更变更频率生产环境线上预发测试环境0246810Nginx应用数据库单位周期内的变更频率生产环境线上预发测试环境GOP S 全 球 运 维 大 会 2019上 海 站 线上问题修复/新特性引入 运营配置活动 业务维护 资源优化变更的原因每时每刻都会有变更GOP S 全 球 运 维 大 会 2019上 海 站运维发布运维负责所有业务的发布部分自主发布非核心应用开发自主发布全面自主发布所有业务均支持开发自主发布运维在发布中的角色变化赋能放权控制质量 教练角色 赋能 给予开发运维技能或者工具 放权 系统支持授权开发做运维操作 裁判角色 控制质
4、量 对变更结果进行判定和限制GOP S 全 球 运 维 大 会 2019上 海 站 服务器成本 优化集群资源利用率 机架成本 机架层面的成本整合 带宽成本 外网带宽成本资源成本带宽成本机架成本服务器成本GOP S 全 球 运 维 大 会 2019上 海 站 感知 监控感知异常带宽 监控感知集群资源 评估 容量规划 操作 发起资源扩缩容操作资源优化的挑战监控评估扩缩容GOP S 全 球 运 维 大 会 2019上 海 站 业务规模增长 加量不加人 变更生效时间缩短 单个变更的操作时间变短 自动化流程依赖运维效率要求055测试环境1.0测试环境2.0测试环境3.0nginx配
5、置生效(单位时间分钟)nginx配置生效GOP S 全 球 运 维 大 会 2019上 海 站 优势的典型代表 隔壁部门(前隔壁厂)他们的新需求迭代以小时计 新的特性和功能意味着新的商业优势 效能改进部门 设计更好的跨团队流程和技术架构效率=优势GOP S 全 球 运 维 大 会 2019上 海 站目录电商网站业务特征对运维的挑战1SRE的日常2速度 vs 稳定性3技术&流程建设4GOP S 全 球 运 维 大 会 2019上 海 站 资源优化 扩缩容 架构改进 双机房/单元化 技术 平台建设 运维赋能电商SRE的日常技术相关资源优化架构改进GOP S 全 球 运 维 大 会 2019上 海
6、站 集群的评估 容量 状态巡检 成本 控制集群扩缩容的规模 混布 容器化资源优化单机资源利用率总体的成本GOP S 全 球 运 维 大 会 2019上 海 站架构改进单元化多机房单机房 架构一直演化 前后端拆分 服务化 Service mesh 架构的目标 研发效率 稳定性 容量/性能GOP S 全 球 运 维 大 会 2019上 海 站 平台建设 方案设计评审 运维赋能 运维/架构方案设计 知识沉淀赋能技术相关IM+NLP+CMDB+服务ChatOps平台GOP S 全 球 运 维 大 会 2019上 海 站目录电商网站业务特征对运维的挑战1SRE的日常2速度 vs 稳定性3技术&流程建设4
7、GOP S 全 球 运 维 大 会 2019上 海 站速度优先稳定优先运维 vs 开发GOP S 全 球 运 维 大 会 2019上 海 站项目拆分 大量前后端分离 中台化建设 解耦改造新工程引入 新产品线 新的业务逻辑特性迭代 新特性引入 Servicemesh化改造迭代速度演化0123456789前端前后端拆分业务解耦容器化业务变更速度业务GOP S 全 球 运 维 大 会 2019上 海 站 团队KPI 新特性 交付速度 开发视角 允许新特性试错 项目进度业务团队视角线上问题缺少QA缺少运维经验有变更权限Devops50%33%17%事故事故人为变更软件bug第三方影响GOP S 全 球
8、 运 维 大 会 2019上 海 站 Case 1:周末加班发布 线上故障,一堆人炸醒 Case 2:变更没有协调 调用方大量报错 No provider异常追求速度带来的影响开发变更线上故障运维扣绩效GOP S 全 球 运 维 大 会 2019上 海 站 理想状态 运维完成线上变更 实际情况 运维团队hc问题 加人不能解决所有问题 大团队协同效率会下降稳定性市场和老板在等新特性GOP S 全 球 运 维 大 会 2019上 海 站 速度 运维赋能,放权开发 平台支持自主变更 稳定性 针对业务等级划分权限 审批控制 异常演练 SLO反馈如何平衡速度和稳定性流程技术稳定性GOP S 全 球 运
9、维 大 会 2019上 海 站 对问题容忍 设定SLI/SLO指标 以线上业务影响为准绳 线上事故 止血优先 事后复盘,举一反三 一定要有惩罚机制对线上问题的看法GOP S 全 球 运 维 大 会 2019上 海 站目录电商网站业务特征对运维的挑战1SRE的日常2速度 vs 稳定性3技术&流程建设4GOP S 全 球 运 维 大 会 2019上 海 站约定俗成规范文档平台程序化关于流程GOP S 全 球 运 维 大 会 2019上 海 站 目标 线上稳定性 为了特定问题求解 方式 制定标准 执行标准 改进标准运维流程建设运维希望推行标准开发希望跳过流程GOP S 全 球 运 维 大 会 201
10、9上 海 站 流程冗余 比如说执行某个标准流程后,新的事故,然后再加一条流程 流程低效 漫长的多层审批流程 流程没有达成共识 运维流程无人遵守执行 没人知道流程 形式化流程流程建设的最大问题GOP S 全 球 运 维 大 会 2019上 海 站 流程转化为平台化,workflow任务流落地 用新的工具技术减少人工环节,运维赋能开发 设计的时候考虑各种异常,压缩处理流程流程落地GOP S 全 球 运 维 大 会 2019上 海 站 操作平台化 大促流程 去流程化 新技术减少人工流程 针对测试环境去掉部分流程实际改进的典型流程GOP S 全 球 运 维 大 会 2019上 海 站 测试环境Nginx配置 实现了全流程的自动化配置变更 多个测试环境share一个Nginx集群 物理服务器交付速度 重装速度提升,接近云主机的体验技术改进的收益0500300350400450环境数量配置节点自动化率变更时间测试环境Nginx改造前改造后GOP S 全 球 运 维 大 会 2019上 海 站 平台owner 运维建设平台,确保流程落地 与开发达成流程共识 平台参与者 运维技能落地,提升效率 技术改造者 用技术淘汰人工环节运维在流程建设中的角色技术人工流程