《云环境下的企业运维平台演进历程_朱超健.pdf》由会员分享,可在线阅读,更多相关《云环境下的企业运维平台演进历程_朱超健.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、云环境下的企业运维平台演进历程阿里云 朱超健十年互联网行业技术经验,专注于运维、安全、网络,具备丰富的运维平台产品建设经验;早期就职于安全公司,经历了从传统安全模式到云环境安全体系的运维工具平台建设及落地;后就职阿里云,经历了云技术快速发展的关键时期,有从云平台底层到业务最上层的全链路专家经验,洞察运维平台关键点,长期专注智能运维领域,从事技术服务工作,聚焦金融、互联网、教育、泛娱乐等行业客户,基于客户业务打造托管式的云上智能运维解决方案,擅长用云最佳实践、产品管理、研发管理、业务重保、疑难问题攻坚等。阿里云 朱超健目录多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平
2、台的未来目录多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来智能运维发展的必然性智能运维发展的必然性运维从人工到工具,从自动化到智能化也是互联网发展及企业业务发展的必然趋势必然趋势。1.手工运维2.脚本运维3.自动运维4.智能运维手工运维阶段的特点以人为主劳动,效率相对较低。因此,在这个阶段当企业IT系统发展到一定规模后,就会引发很多问题。正如生产力发展的农业时代。自动化运维工具和平台大幅度提升运维效率,让运维团队从机械、重复的劳动中解放出来。但随着运维工作的深入,自动化运维一些潜在缺点也逐渐暴露出来。正如生产力发展的工业时代。在可以预见的未来,IT系统架构的
3、复杂度越来越高,规模越来越大,同时伴随人力成本不断提高,渐渐地对于重型信息化企业来讲,运维不是简单依靠人力或传统的运维软件能解决问题了。正如生产力发展的智能时代。脚本运维,常常是运维人员通过实践沉淀了一小部分场景逻辑,使用shell来实现一小段简单的逻辑。只能说在手工运维的基础上做了简单升级,实则还有很大问题。正如生产力发展的蒸汽时代。农业时代蒸汽时代智能时代工业时代运维资源不足标准化程度低知识体系转移较慢企业对IT系统依赖度高问题判断依赖经验问题判断依赖经验缺少数据量化支撑缺少数据量化支撑操作对事件影响不明操作对事件影响不明知识复用性低知识复用性低机器学习根因分析趋势预测故障画像智能运维发展
4、的必然性智能运维发展的必然性运维从人工到工具,从自动化到智能化也是互联网发展及企业业务发展的必然趋势必然趋势。1.手工运维2.脚本运维3.自动运维4.智能运维农业时代蒸汽时代智能时代工业时代脚本适用范围小脚本适用范围小无法自动运维无法自动运维依靠人力运维依靠人力运维运维稳定性差运维稳定性差目录多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来 企业云上运维的核心问题企业云上运维的核心问题应用架构师应用开发应用运维CCB专业运维云平台架构师如何运维平台如何运维平台,如何保障业务稳定如何保障业务稳定、高效运行高效运行,支支撑企业稳定用云撑企业稳定用云?逻辑态、部署态
5、模型;流程编排;资源创建云上应用如何运维云上应用如何运维?资源供给部署监控与可观察性监控指标,告警阈值,trace,事件定级运维操作与自动化扩缩容,巡检,备份与恢复,应急操作可靠性与可恢复性快恢,自愈,限流降级,容灾合规与运维风控风险识别、防护、检测、评估和处置业务监控、智能基线、自愈能力故障导致公司资金损失客户流失还可能产生社会舆情及群体事件随着社会对互联网的依赖不断提升,互联网服务故障,影响越来越大摩菲定律告诉我们,如果一件事情有可能发生,那么必然将会发生,无法彻底避免虽然故障无法彻底避免,但可以通过监控手段快速发现,缩短故障时长,降低影响业务监控的意义业务监控的意义为何选择业务监控业务监
6、控发现故障?相比其他监控,对公司核心业务指标进行监控,更易发现业务异常历年故障分析监控发现 恢复时长远小于恢复时长远小于 非监控发现监控对于故障快速恢复非常重要监控对于故障快速恢复非常重要异常发生付款成功量异常监控业务监控选择SDKExport拨测日志 代码无侵入 业务改造少 信息详细XXX业务监控概述业务监控概述P1P2P1P2故障故障故障发现时长故障发现时长故障持续时长故障持续时长(MTTRMTTR)监控发现分钟级分钟级*4用户上报小时级小时*2数据流任务流原始日志原始日志时序监控时序监控 调度调度1010万万+核计算资源,提供分钟级百核计算资源,提供分钟级百T T日志处理能力,存储亿级监
7、控项日志处理能力,存储亿级监控项业务监控技术方案业务监控技术方案数据源采集数据源采集数据计算数据计算存储展示存储展示报警报警业务监控平台业务监控平台SLSLog监控系统agentMapReduceBrainWebOpenAPIHbaseMongoDB报警规则智能监控订阅管理报警网关租户间隔离元数据时序数据可视化配置,将非标日志转换为统一时序监控数据可视化配置,将非标日志转换为统一时序监控数据业务监控业务监控-指标自定义采集配置指标自定义采集配置名称名称路径路径环境环境详细筛选详细筛选统计统计说明简单直观的反映监控指标代表含义日志文件完整路径增量采集机房/IP/预发/线上等压测标业务逻辑业务结果
8、响应时间错误码列-多维度求和、平均等关键字段前后有明确标识分割(如)以上筛选能力一般是基于具体业务需要场景组合使用报警报警规则规则业务等级业务体量故障场景周期趋势波动幅度实效性业务监控业务监控-自定义报警规则配置自定义报警规则配置淘宝淘宝 交易创建交易创建 量大稳定量大稳定菜鸟菜鸟 仓储操作仓储操作 波动稳定波动稳定饿了么饿了么 退款申请退款申请 量少量少业务特征量大,周期趋势稳定故障等级:异常下跌5%触发故障场景复杂,成功明确,失败可能非系统异常量中等有抖动,周期趋势稳定故障等级:异常下跌15%持续3分钟触发故障场景相对简单,成功失败原因均明确量少,无周期趋势故障等级:持续5分钟成功率低于8
9、0%场景相对简单,成功失败原因均明确报警规则成功量8-22点 环比下跌超过2%或 成功量 22-8点 2分钟求和环比下跌超过3%不宜配置失败量报警成功量 3分钟求和环比下跌10%且 成功量3分钟求和昨天同比下跌10%且 成功量3分钟求和上周同比下跌10%或 成功率 持续2分钟小于95%成功率 持续3分钟低于90%且 失败量 持续3分钟大于等于5或 成功量 持续3分钟为0(兜底入口异常无失败量)不宜配置成功量波动报警 业务等级高,全站交易核心业务业务体量大,趋势稳定波动小 故障场景下跌3%就触发故障实效性高,1分钟就触发故障 注:上述配置阈值,均为示意值。智能基线基于机器学习算法的业务监控无阈值
10、异常检测不同业态曲线的特征不同业态曲线的特征有较大差异有较大差异 数量级 局部波动程度 周期不同业态的异常判定不同业态的异常判定标准有较大差异标准有较大差异 线上业务(游戏).vs.线下业务(新零售)基线拟合异常判定STLN-sigma无阈值高召回低误报对外部干扰抵御较差非周期曲线支持不足优势不足面临挑战面临挑战实现方案实现方案智能监控智能监控-智能基线智能基线准确率准确率70%70%召回率召回率90%90%针对周期性特征明显的业务监控指标,具有较高召回率及准确率智能监控智能监控-实际效果实际效果通过核心指标,衡量公司业务监控报警质量,降低故障影响监控报警核心指标监控报警核心指标准确率准确率0
11、1取决于监控报警配置质量准确率低误报多导致报警成本高召回率召回率02取决监控覆盖及报警质量决定异常是否能被监控发现报警量报警量取决于合理订阅及准确率报警量大员工无法有效应急03报警准确率报警准确率=50%=50%重大故障重大故障 =90%=90%一般故障一般故障 =70%=70%人均日报警人均日报警=30=30条条目录多角度洞察运维痛点企业演进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来阿里集团已经实现业务跑在云上,从回顾这几年上云过程,基本可以划分三个阶段阿里集团已经实现业务跑在云上,从回顾这几年上云过程,基本可以划分三个阶段。上云历程上云历程集团上云三个阶段:弹性上云弹性上云
12、核心系统上云核心系统上云 全面上云全面上云在每个阶段集团上云解决的问题和核心关注点都是有差异的。同时在每个阶段达成具有里程碑意义的上云案例。20019 弹性弹性上云上云 连续3年完美支撑双十一购物节上阿里云 神龙计算架构通过双十一验证,并在公共云对外商业化20020 核心核心系统上云系统上云 电商核心系统全部上云 计算平台搜索广告等业务中台上云 阿里云运营支撑上云 充分利用公共云的弹性,云上降成本20202020 全面上云全面上云 经济体一环/二环BU增量业务全战上云 考拉 饿了么 高德 优酷等100%上云 统一资源池,电商搜索计算平台混部 中间件云
13、产品化支撑集团上云 极致弹性,SP模式引入集团上云 用云优化,云上降本提效阿里巴巴上云过程阿里巴巴上云过程业务连续性保障方案-风险治理、容灾演练、压力测试、安全加固、预警风控、应急预案区域服务铁三角敏捷响应,抓住商机风险治理风险治理识别云基础设施潜在风险区域服务铁三角敏捷响应,抓住商机容灾演练容灾演练保证关键系统高可用区域服务铁三角敏捷响应,抓住商机压力测试压力测试保证关键系统并发性能区域服务铁三角敏捷响应,抓住商机安全加固安全加固构建纵深防护体系 区域服务铁三角敏捷响应,抓住商机预警风控预警风控识别赛事风险并处置区域服务铁三角敏捷响应,抓住商机应急预案应急预案赛事问题快速恢复 基于飞天技术服
14、务平台(Apsara ServiceStack)CloudDoc/Advisor模块能力进行云平台风险巡检并前置治理风险。重保期云平台针对性封网管控及变全网更评审把控。云平台集群水位评估与管控。批量资源预留和资源腾挪。云平台基础设施容灾能力验证,如负载均衡SLB 多可用冗余验证,RDS数据库HA切换验证等。业务整体架构容灾演练验证,如跨域专线。业务系统容灾演练:演练业务损失某单元模块功能的系统容灾切能力。利用单元压测摸排各模块性能瓶颈,并完成容量评估。利用全链路压测方式验证系统整体并发能力是否符合业务需求。对系统全链路性能瓶颈点做性能调优。北京冬奥累计压测奥运相关项目数十个子模块,数百个接口,
15、性能优化2-6倍。数据中心建设期间,2019年开启安全架构和策略设计。大型国家级安全攻防演练。主管单位、冬奥组委和各厂商安全情报协同处置。冬奥重保期间蜜罐捕获请求数千次,恶意请求拦截超千万次,云安全中心告警及处理超千次,并封禁大量恶意IP。钉群机器人主要产品核心告警项目35项,重保期核心告警主动处理41次,避免风险扩大。利用资源Grafana监控大屏按照top异常资源观察和汇总异常实例资源信息,做到全局实施观测实时处置。按问题场景梳理准备应急预案73项,覆盖云上弹性、网络、安全、数据库、容器、存储、大数据和中间件等8个产品垂直线方向。覆盖过载、丢包、业务IP错误拦截、黑洞清洗、超限和管控异常等
16、不同问题的应急处理。主要产品钉群机器人35类核心告警处理预案。云上冬奥业务连续性保障方案治理原则治理原则根据组织架构对云资源进行分组,并以云上用户组为最小粒度授予相应的权限 权限越界访问用户数审计授权失败审计未在指定时间登录的用户数审计闲置策略数审计未配置强制多的因子认证的用户数审计治理实践治理实践根据组织架构对云资源进行分组,并以云上用户组为最小粒度授予相应的权限 云上用户组在信息系统运行不同阶段权限的治理制定访问管理流程配置审计进行持续合规审计云安全中心进行持续合规审计账号与权限治理基于业务和组织进行云上资源的身份管理和授权规范Beijing2022Beijing2022 总体账号设计总体
17、账号设计信息系统运行不同阶段权限治理信息系统运行不同阶段权限治理用户权限访问控制流程用户权限访问控制流程资产与数据安全治理治理原则治理原则所有已部署的资产必须按照重要程度和数据敏感性进行分类 在可以批准并实现足够的安全和治理要求之前,无法将任何使用受保护数据级别的资产部署到云任何包含受保护数据的段中提升权限都应属于异常 定期检查可能影响云部署的趋势和攻击,以更新云中使用的安全管理工具 日志按需持久化便于进行安全溯源治理实践治理实践依据安全法规、冬奥业务类型,对资产和数据进行分类。依托SSL保证数据传输过程的安全性,依托KMS、加密服务对敏感数据进行安全存储基于操作审计、配置审计、日志监控一体化
18、系统、数据库审计、堡垒机审计等对数据提取操作进行合规审计定期检查可能影响云部署的趋势和攻击,不断优化安全工具安全产品安全产品WAFAnti-DDoS(BGP)Anti-DDoS(国际)加密服务堡垒机云安全中心云防火墙日志服务KMS人机验证数据库审计Beijing2022Beijing2022 云上安全产品云上安全产品基于丰富的阿里云安全标准化产品巡检发现问题,进行资产与数据的安全治理SLSSLS Audit CenterAudit Center安全监控大屏安全监控大屏云上威胁一体化监测方案云上威胁一体化监测方案历经4年构建了严密的纵深防护体系(应用、网络、主机、蜜罐、综合分析、预警、架构设计)
19、,赛前主动解决产品稳定性风险;推动WAF接入率到达 97%以上,实现高防和云安全中心100%覆盖率,默认重保模式,修复安全漏洞,大型国家级攻防验证10+,梳理应急预案30+,确保赛前风险最小化。蜜罐捕获请求数千次,恶意请求拦截超千万次,云安全中心告警及处理超千次,封禁大量恶意IP,联合网信办、冬奥组委会处置、同步威胁情报。全过程安全防护保障基于强大的安全服务团队保障赛前赛中赛后的全过程零安全事件 全生命周期默认安全建设全生命周期默认安全建设情报协同与应急预案情报协同与应急预案全面风险评估和安全验证全面风险评估和安全验证安全责任有效区分落地安全责任有效区分落地整体默认安全架构设计,默认整体默认安
20、全架构设计,默认denydeny策略,尽早发现安全防护的缺陷,通过服务弥补产品不足策略,尽早发现安全防护的缺陷,通过服务弥补产品不足多轮多轮125125项的全面风评,赛前完成安全加固,经过项的全面风评,赛前完成安全加固,经过N N次内外部的攻防演练验证安全防护水位次内外部的攻防演练验证安全防护水位组委、三方厂商之间明晰责任模型,确认底线并且形成文档,明确自身防守区域和权限范围组委、三方厂商之间明晰责任模型,确认底线并且形成文档,明确自身防守区域和权限范围情报协同与应急预案:协同情报协同与应急预案:协同IOCIOC,网信办,三方厂商的安全信息,以便及时响应并对外发声,网信办,三方厂商的安全信息,
21、以便及时响应并对外发声云上冬奥保障工具平台支撑数十个云上系统的数百个关键指标的全景观测、告警,问题诊断与快速恢复全景作战大屏全景作战大屏云基础设施全景大屏云基础设施全景大屏业务信息系统全景大屏业务信息系统全景大屏功能特性自动分析开放能力自动根因分析技术特性机器人学习数据源(租户层、业务层租户层、业务层)操作系统级别数据用户业务日志数据用户平台操作数据云监控数据历史分析数据特征库实时计算离线计算模式匹配模型训练交互控制台OPEN API运维机器人可视化大盘自动产出解决方案自处理能力自动化运维配置多云联动分析飞天技术服务平台飞天技术服务平台 -CloudDocCloudDoc/Advisor/Ad
22、visor智能诊断平台冬奥实践业务出现访问异常算法时序监测ODS-DFV业务指标异常源站对应时间点有变更发布操作源站业务日志5xx比例与WAF侧一致实时推导根因可能由于源站异常导致发布过程出现java内存占用异常,导致java进程崩溃解决方案及高可用建议算法实时动态检测算法实时动态检测业务异常发生业务异常发生NLPNLP以及时序数据实现定界以及时序数据实现定界专家经验自动化根因下钻专家经验自动化根因下钻时序数据清洗分析,定位根因时序数据清洗分析,定位根因算法多维度根因分析算法多维度根因分析提供问题处理建议提供问题处理建议&解决方案解决方案冬奥某业务系统突发业务异常应急资源及业务资源及业务指标整
23、合指标整合明确资源授权及业务各项监控核心指标告警及告警及APIAPI集成集成集成告警配置,相关产品配置项和第三方事件管理服务。智能诊断智能诊断根据阿里巴巴多年运维沉淀以及阿里云专家经验,使用不同数据流和监控相关指标,以利用机器学习模型快速生成正常的应用程序模式和行为。聚合分析聚合分析使用机器学习算法,将监控项异常与操作事件关联起来,以实时产出或者前瞻性的产出处理建议。阈值分析自动监控根因下钻数据源接入数据源接入自动获取,分析数据来自:云监控、操作审计、配置审计、应用实时监控服务、用户业务日志数据拓扑发现拓扑发现通过数据接入自动绘制资源架构拓扑,可视化展示业务逻辑智能诊智能诊断系统断系统流程流程
24、从云上冬奥到大型活动保障大型活动案例大型活动案例云上大型活动挑战云上大型活动挑战高峰流量达到百万QPS级别,需要大量资源预留调度,深度性能优化涉及多业务承压运行和调度,带来系统复杂度和内部组织协同复杂度短时间达到TB级别数据交换和处理,对大数据处理能力要求高大型活动需要确保零故障,对整体稳定性及应急预案要求极高云上大型活动保障策略云上大型活动保障策略通过全链路压测感知系统瓶颈,以容量预置和性能调优进行治理梳理和优化业务及云平台架构,实现模块化和全局接口可调用性区分实时处理和离线处理业务,对实时数据处理逻辑做优化利用监控和应急体系保障稳定性,活动前完成高可用性方面演练目录多角度洞察运维痛点企业演
25、进过程中运维解决之道阿里集团用云最佳实践企业运维平台的未来运维平台运维平台的发展趋势的发展趋势企业围绕应用、云服务、云平台、基础设施构建可观测、可自动化智能化运维全新的云运营、云工具策略和云运维模式成为必然趋势.1 1、加快应加快应程序发布速度将程序发布速度将需需要新的运营和要新的运营和具策略具策略3 3、云增加的复杂性云增加的复杂性需要新的架构元需要新的架构元素和成熟的云运营模式素和成熟的云运营模式2 2、从基础设施向平台和服务从基础设施向平台和服务的转变的转变,需要纪律性的自动化需要纪律性的自动化,这是云运维的基础这是云运维的基础5 5、自助服务和去中心化将自助服务和去中心化将需要成熟的治
26、理和需要成熟的治理和ITSMITSM实践实践在分布和敏捷的时代在分布和敏捷的时代,ITIT服务管理并没有消失服务管理并没有消失4 4、对可观察性和效率的对可观察性和效率的需求不断增长会需求不断增长会加速加速APMAPM,DEMDEM和和AIOPSAIOPS的使用的使用GartnerGartner 20222022 ITIT运维与云管关键趋势指出运维与云管关键趋势指出2022 key in IT Operations and Cloud Management 2022 key in IT Operations and Cloud Management 不可变基础设施和基础设施即代码(IaC)作为
27、应程序操作和具的核心原则。使用云”Landing Zones”以增强管理和治理的最佳实践使用DevOps和开发实践使自动化成为IT和业务的弹性基础。称为持续基础架构自动化(CIA)。可观察性(observability)是一个属性而不是过程最小化、持续的投资AIOPS组合来获取即时价值使用策略即代码(PaC)来加强安全性和合规性发展ITSM实践以满足数字业务的需求自动化事件管理通过变更管理平衡速度和风险去中心化的配置管理Landing Zone 云迁移咨询架构设计数仓设计数据库迁移云原生迁移改造数据中台建设大数据平台建设上云/迁云用云/管云GTS服务介绍阿里云GTS部门(Global Technical Service)通过多种服务方案组合帮助您在企业数字化转型全生命周期中实现业务成功运维日常技术支持起步扩张优化主动服务电商容灾方案设计安全托管专家服务中国出海网络解决方案培训认证方案重保护航FinOps 解决方案风险评估健康检查容量评估容灾方案云网络专家服务安全加固专家服务数据类专家服务(数据库/大数据)CDN直播点播专家服务