上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

阿里云:CloudOps 云上自动化运维白皮书 2.0(2023)(103页).pdf

编号:117729 PDF   DOCX 103页 7.65MB 下载积分:VIP专享
下载报告请您先登录!

阿里云:CloudOps 云上自动化运维白皮书 2.0(2023)(103页).pdf

1、封面页(此页面将由下图全覆盖,此为编辑稿中的示意,将在终稿 PDF 版中做更新)(待分享)CONTENT1前言:提出CloudOps成熟度模型CARES23CloudOps成熟度模型整体及等级说明4自动化能力Automation 背景:DevOps与云不谋而合,亟待融合CloudOps:Cloud x DevOps总结CloudOps的主要衡量纬度和定义企业运维实践的现状与趋势Cloud的特点与趋势CloudOps的定义与主要衡量指标递进的成熟度模型成熟度模型等级说明自动化能力的基本概念自动化的业务价值如何衡量企业运维体系的自动化成熟度阿里云的自动化能力和产品CloudOps云上自动化运维白皮

2、书2.00709821212225CONTENT5弹性能力Elasticity67安全和合规能力Security弹性能力的基本概念弹性能力的业务价值如何衡量弹性能力成熟度?提升弹性能力的建议与步骤弹性工具推荐可靠性能力Reliabilty基本概念构建可靠性管理能力的业务价值多个层面构建可靠性可靠性衡量标准工具推荐基本概念业务价值多个层面构建的安全与合规能力工具推荐CloudOps云上自动化运维白皮书2.029303494955565674CONTENT8成本和资源量化管理能力Cost9成本管理能力的基本概念成本管理能力的业务价值如何衡量成本管理能力成

3、熟度10工具推荐CloudOps成熟度模型全景图CloudOps云上自动化运维白皮书2.0成本管理和控制评估自动化能力评估可靠性评估弹性评估安全与合规评估79798788949698100102CloudOps成熟度自评 6 版本说明 一、前言:提出 CloudOps 成熟度模型 CARES 7 一、前言:提出 CloudOps 成熟度模型 CARES 1.背景:DevOps 与云不谋而合,亟待融合 DevOps 已经成为了近年来运维的主要趋势之一,越来越多的企业在拥抱和实践DevOps 文化,也越来越多的企业在公有云中使用 DevOps,但是绝大部分企业都认为自己没有发挥和使用 DevOps

4、 的核心能力。本章节将分享我们对这个问题的看法,并提出我们的解法:CloudOps。1)DevOps 越来越被广泛使用 DevOps 本质是为了协同公司内多个不同团队快速朝着同一个业务目标前进,而衍生出来的一系列流程和自动化工具,强调的就是组织和业务的敏捷性。DevOps 理念囊括团队文化、组织协同和研发运维多个方面,希望消除研发、运维之间的利益差异和差距,促进团队协作,专注于端到端的能力交付和系统建设,让软件交付的全生命周期中的开发、部署、维护和扩展等各个步骤更加有效率,降低故障次数和故障时长,充分体现了以产品和效率为中心来进行软件开发和交付。通过 DevOps 理念的实践,企业提高了研发效

5、率,缩短了业务从研发到上线的周期,从而提升应用交付质量和交付效率。DevOps 模型定义了几个成功的关键分组,这些对于应用成功和提升效率非常有帮助。敏捷开发的过程管理:实现高效协同,定义人与人之间的协同,业务和技术之间的协同,组织和团队的治理以及需求管理等多个要素和因子。持续交付:通过定义更好的 CI/CD 工具来完成灵活变更和持续交付部署,更好地构建环境以及提升可视化能力。技术运营提升:可以快速构建所需要的基础设施和资源保证,对于监控预警、问题发现、容量管理、变更管理和成本管理等,提供体系化的支撑。随着 DevOps 越来越成熟,众多的企业通过 DORA 指标来衡量交付的效率,以及交付和变更

6、的质量,主要包括部署频率(Deployment Frequency)、变更提前期(Lead Time for Changes)、平均恢复时间(Mean Time to Recovery)和变更失败率 一、前言:提出 CloudOps 成熟度模型 CARES 8(Change Failure Rate)这四个维度,这几个指标体现了企业对应用交付的敏捷程度以及对于故障处理的时效性和效率。2)云上运维面临的挑战 在 DevOps 文化被广泛采访的同时,也有越来越多的企业借助云计算来实现数字化转型。云平台提供了巨大的计算力资源,规模化的弹性优势、丰富的标准化云产品、自动化工具,自助服务的模式不仅能帮助

7、企业 IT 设施云化,按需取用随取随用的业务场景和自助服务的模式大大增强了企业基础设施需求和变更的敏捷性,借助于云平台和开源的监控以及运维自动化能力可以大幅提升应用的可观测性,提升故障的发现率,降低故障的恢复时间。然而,研究表明,越来越多的企业在公有云中使用 DevOps,但是绝大部分企业都认为自己没有发挥和使用 DevOps 的核心能力。这是因为,将传统的 DevOps 直接搬到云上,并不能充分利用云的优势,因为相比于传统的 DevOps 的运维模式,云上自动化运维的模式和思维仍然有着不小差异。这也是部分企业上云之后,建立一套云原生自动化运维体系的挑战。操作对象的差别?传统运维:直接操作的是

8、物理的计算、网络、存储的硬件。?云端运维:大多通过软件暴露接口或 OpenAPI 来进行操作经过抽象的资源。资产和资源的区别?传统运维面向的服务器是企业资产,需要提升单机的利用率,并提前很久规划资源。?云端运维则是在弹性租赁资源,除了提升单机利用率,还可按需扩缩容,利用 OpenAPI 和应用分组来管控资源。统一化规模化差异?传统运维一般操作的规模相对较小,管理的机房相对明确和有限。?云端运维可快速通过资源的弹性能力轻松的管理数百台、跨机房的服务器。一、前言:提出 CloudOps 成熟度模型 CARES 9 强调安全可审计?云端操作来源和对象相对复杂,对操作审计和操作来源及报警的时效性要求比

9、较高。?云端可将服务通过命令直接暴露在公网中,需要更多安全和网络规划能力来降低系统风险。?高频的可编程自动化运维需要有比较好的审计和问题追踪能力,避免越权和不容易被追踪的问题。可见,DevOps 需要根据云的特性进行一系列改造,才能与云进行更好地融合。2.CloudOps:Cloud x DevOps 我们看到越来越多的企业在云上实践 DevOps,为了更好地发挥 DevOps 和云的双重敏捷特质,我们在 2021 年提出了 CloudOps(云上自动化运维)的思路来帮助企业在云上更好的落地 DevOps,充分的利用云平台和 DevOps 的技术优势。我们认为 CloudOps 可以更好地贯彻

10、 DevOps 的理念和精神。1)如何理解 CloudOps CloudOps 是运维领域的 DevOps 理念与云原生理念的融合,通过在云平台上借助于云原生架构实现运维的再进化,充分帮助企业降低 IT 运维成本、提升交付速度和系统灵活敏捷度、增强系统可靠性,构建更加安全可信开放的业务平台。基于阿里云服务数千家企业客户的十多年的经验,我们总结了一些常见的最佳实践,撰写了这本云上自动化运维白皮书(简称CloudOps 白皮书),并在其中提出了 CloudOps 成熟度模型,我们会从五个方面建设和评估 CloudOps 能力,期许提供云上自动化运维的最佳实践和参考,帮助客户更加充分地利用云带来的优

11、势,进一步提高业务交付质量。这套模型可以简称为 CARES 模型,即成本管理(Cost)、自动化能力(Automation)、可靠性(Reliabilty)、弹性(Elasticity)和安全与合规(Security)五个方面。CloudOps成熟度模型是对云上企业 Ops 能力的的评估,也是对云厂商产品能力和自服务能力的评估,评估云厂商是否有提供足够全面的工具和能力,让客户便捷地实现这些功能。一、前言:提出 CloudOps 成熟度模型 CARES 10 2)CloudOps 的优势:云与 DevOps 的双重价值 DevOps 给应用软件开发带来了极大的便利性。由于云服务有着“软件定义一切

12、”和“弹性敏捷”等特点,跟 DevOps 的理念非常一致,这两者带来的优点是非常类似的。采用 DevOps 理念,有以下四个方面优点和目的:降低整体成本支出:打通不同团队来降低人员冗余,通过持续的自动化投入,例如 Infrastructure as Code(IaC)、Ops as Code 等,来降低人工成本。提升整体的交付速度:通过敏捷形态和自动化达到。提升灵活性:更快的交付速度意味着可以快速迭代、提升效率。增强系统的可靠性:通过标准化、工具化、自动化实施避免人为错误,以及问题排查的 MTTR(平均修复时间,Mean time to repair)。使用云服务管理的也有类似的优点:降低整体

13、成本支出:减少对硬件的采购和运维的相关人力;企业按需消费,合理选型与计费,避免闲置。提升整体的交付速度:云提供大量开箱即用的资源,分钟级创建与释放,加快部署速度。提升灵活性:更快速、更细颗粒度交付资源,能够快速的适应市场需求与各种运营活动需求。增强系统的可靠性:云服务天然提供了高可用的系统设计,例如多可用区、备份恢复、热迁移等手段,降低物理资源故障带来的损失;通过云服务厂商提供的工具和服务化能力,可以大幅降低部分问题和故障的排查难度,创建更具弹性、安全性和标准化的系统。近几年来,我们欣喜地看到越来越多的企业和个人开发者将自己的测试环境和生产环境迁移上云。我们能看到云和 DevOps 之间有着许

14、多相似的优点,通过将 Cloud和 DevOps 结合,将能发挥更大的价值,包括降成本、提升交付速度、更灵活、提升系统可靠性等。结合了云计算的 DevOps,不仅仅可以提升效率和优化 TCO,同时它还使我们的系统能够在不断变化的复杂环境中更可靠地工作。一、前言:提出 CloudOps 成熟度模型 CARES 11 3.总结 相信基于以上论述,读者们能够更加了解我们为什么认为云端的 DevOps,需要有一套更为成熟和体系化的理念,才能帮助企业在云时代更好地发挥云和 DevOps 的优势。我们提出的新思路CloudOps(云上自动化运维),就是在此背景下诞生。阿里云弹性计算团队内部,联合十多位专家

15、,共同编撰了一套 CloudOps 成熟度模型。如前所述,这套模型的几个维度我们可以称为 CARES,即成本管理(Cost)、自动化能力(Automation)、可靠性(Reliabilty)、弹性(Elasticity)和安全与合规(Security)五个方面,来评估企业的 CloudOps 成熟度。每个维度如何理解,我们将在下面章节展开。二、CloudOps 的主要衡量纬度和定义 12 二、CloudOps 的主要衡量纬度和定义 1.企业运维实践的现状与趋势 根据 Gartner 2021 Top10 Technology Trends Impacting DevOps、Puppet St

16、ate of DevOps Report 2021 以及我们所观察到的业界趋势,我们观测到了企业运维实践有以下几个趋势形态:1)越来越多的企业在公有云中使用 DevOps,但是绝大部分企业都认为自己没有发挥和使用 DevOps 的核心能力 65%的企业已经在公共云中使用 DevOps。只有 20%的企业认为自己充分用到了 DevOps 的全部能力。自动化已经成为 DevOps 实践中最高优先级的任务,通过结合云的优势和自动化能力,可以进一步推进 DevOps 的能力演进。2)微服务架构的实施带来巨大的便利,也带来了新的挑战 服务拆分导致应用激增,统一简单的可观测性是个巨大的挑战。更多的应用拆分

17、和并行的任务开发模式可能会导致更多的故障点。应用之间的依赖关系对于单个应用的可靠性和可用性有了更高的要求。3)分布式应用的复杂性非常高 网络延迟,容错,消息序列化,不可靠的网络和底层资源,异步性,版本控制。可测试性和异步调用让链路复杂。更高更难的 DevOps 要求。4)自助服务(Self-Service)已经是企业的一个迫切的需求 预测到 2025 年,75%的大型企业将建立自助服务基础设施平台,以帮助快速进行产品创新,而 2020 年这一比例为 15%。二、CloudOps 的主要衡量纬度和定义 13 AI 和 ML 将推动 DevOps 快速进化。5)安全成为研发运维一体化关注的重点之一

18、,希望把安全审查前置,让相关人员尽早参与进来,出现了 DevSecOps 的说法。以上趋势也反映了企业在 DevOps 落地过程中的难点或者需要进一步加强的环节,主要包括:要充分发挥 DevOps 的核心能力,突破点在于全局自动化能力的提升。大多数企业做到了局部流程的自动化,但由于组织结构等原因,推进统一的自动化工具开发、管理与维护成本高周期长,导致很难全链路打通。应用可靠性提升的经济和技术门槛高,不仅涉及到物理基础设施的稳定可靠,还需要从架构设计上考虑应用的可用性。可观测性非常重要:对于复杂的分布式系统,快速定位异常点并快速恢复依赖多层级的可观测能力,包括基础设施、应用层、业务层等。自助服务

19、模式的普及迫在眉睫:在 DevOps 模式下,每个开发人员需要自助完成开发、测试、集成、发布、部署等一系列任务,自助化工具可以大大提升开发人员的效率。智能化运维能力的诉求:AI 和 ML 是智能化运维的基础,可以极大提升运维效率,但智能化平台的搭建与校准门槛较高。2.Cloud 的特点与趋势 要充分利用云的优势,首先需要了解云的特点、能力和未来趋势,才能云上快速实现业务的交付。根据 DevOps and Cloud infoQ trend report-June 2022 报告,以及我们服务上万家企业客户的经验,我们总结云服务提供商必须具备的基础能力包括:二、CloudOps 的主要衡量纬度和

20、定义 14 按需取用与成本洞察需要两手抓:云最早被提出来时,就希望做到像水电煤一样按需取用按量收费,所以云资源提供灵活丰富的付费方式是云的基础能力之一。但随着企业用云越来越深入,以及云计算技术红利的释放,成本洞察与优化成为企业深入用云的要求。大规模的弹性:传统 IDC 模式下,从资源规划到真正可使用基本是以年为单位进行规划。但云计算本质上是一个规模经济,云的规模体量不仅可以大大缩短企业所需资源交付的周期,而且还可以灵活应对超出规划外的临时资源需求,随开随用弹性扩展。一致的使用方式:云产品或云服务均提供标准化的 OpenAPI 接口,并支持常见的主流编程语言(包括 Java、Go 等)的 SDK

21、,可快速接入或被集成至各种平台。低成本的可靠性:云服务提供商通常会在多个地域,或一个地域的多个可用区提供云服务,企业可以根据业务需要在多个可用区同时部署业务,避免业务因单个可用区出现异常时变得不可用,自动实现业务的高可用。全方位的安全能力:除了数据合规、数据加密等基础的云上安全能力外,基于云的灾难恢复能力成为云上安全的新趋势,当业务的主要基础设施出故障后,云上灾难恢复能力能备份数据,并通过 IT 设施的快速构建让业务快速恢复。自助服务模式:自助服务是云最重要的能力之一,丰富完善的自助服务能力能大大加快企业在云上构建业务流程的效率。数据化和智能化的趋势:云平台可以完整记录用户的资源使用数据,包括

22、资源规模,使用习惯,资源配置等。通过机器学习算法对这些数据进行分析建模后,可为用户提供定制化和个性化的业务洞察与分析,而无需企业从 0 到 1 进行建设。二、CloudOps 的主要衡量纬度和定义 15 3.CloudOps 的定义与主要衡量指标 正如前言所述,CloudOps 是传统 IT 运维和 DevOps 的延展,通过云原生架构实现运维的再进化,充分帮助企业降低 IT 运维成本、提升交付速度和系统灵活敏捷度、增强系统可靠性,构建更加安全可信开放的业务平台。根据 CloudOps 的定义是 DevOps x Cloud,即 DevOps 和 Cloud 的深度结合,其主要衡量指标也和 D

23、evOps 和 Cloud 息息相关。DevOps 的核心特质是:提升研发速度、提升质量、自动化、敏捷、持续交付、高度透明、节约成本等。Cloud 的核心特质是:节约成本、安全、弹性灵活、增强协作、可观测、质量控制、故障恢复、可持续性等。DevOps 发轫于运维领域,运维领域最关注的,无外乎稳定、安全、降本(成本管理、增效(自动化)等,而在随着互联网“小步快跑、持续迭代”原则的兴起,对企业创新的速度和软件的交付效率有了更高要求,因此,敏捷成为了新时代的共同诉求。综合 DevOps 与 Cloud 的特性来看,运维人员最关注的维度无外乎以上五个,它们分别是:成本、自动化、可靠性、弹性(敏捷)、安

24、全,因此本白皮书将从以上五个维度分别进行阐述和说明。DevOps 已经在组织文化、产品、流程和工具有比较详细的定义,即通过敏捷组织和高效的持续集成持续发布,实现业务高质量的快速交付。因此,本文将不会讨论 DevOps 关于研发支持体系、需求管理、任务管理、代码管理等内容,而是更多地从如何更好的利用公有云的能力与特点,基于我们服务海量客户的最佳实践与经验,为大家分享我们对这五个维度的理解与实践。二、CloudOps 的主要衡量纬度和定义 16 1)成本和资源量化管理 云提供了大规模的资源创建和变配策略,也提供了多种多样的付费和计费手段以及方便灵活的变配方法,如何选择合适的资源规格和付费方式是非常

25、重要的。由于其方便灵活的特性,往往会有类似停机不收计算类资源费用,以及折扣非常低的抢占式实例,特别是按需创建资源和关停不需要的计费资源,需要我们有良好的成本和资源量化管理习惯和能力。2)自动化能力 云计算核心就是自动化的运维能力,通过软件定义计算、存储、网络,来实现高级的可编程能力,从而避免人工配置的错误,充分实现可定制的自动化能力。而公有云的服务模式要求云厂商提供的云产品和云服务都必须是统一标准的,即所有云产品和云服务都可以通过 OpenAPI 进行调用,从而实现完全自动化的能力。3)高可用能力 云计算天生就是为提升可靠性和可用性而设计的,通过大规模数据中心、多数据中心技术,实现数据中心同城

26、灾备,通过对硬件层的虚拟化,来降低和规避物理硬件故障对客户的影响,通过成熟高可用的服务来降低系统的复杂性。为了进一步提升应用的可观测性和问题的排查能力,云平台还会提供比较多的自助服务来做问题的排查和解决。4)弹性能力 云计算另外一个巨大技术红利就是弹性能力,针对计算、网络、存储、安全等基础资源,充分的发挥资源池化和分时复用的价值,通过弹性能力帮助客户应对业务的高峰,充分降低社会成本和企业运营的 IT 成本,提升资源的利用率,可以极速实现资源到应用的水平或者垂直升级,通过秒级到分钟级扩缩容能力,完成计算力的创建和释放。二、CloudOps 的主要衡量纬度和定义 17 自建 IDC 或者私有云面临

27、 2 大突出问题?前提投入高、资源使用不足存在大量浪费。?后期业务发展快,资源难扩展。而公有云自建立之初就定位为:让资源像水电煤等基础设施一样,按需取用,按量付费,快速交付,灵活便捷。这种按需取用,不需要时直接释放的能力其实就是公有云弹性能力的最直观体现,而弹性能力也是云计算最重要的能力之一。公有云采用的是按需付费的服务方式,如果用户持续保有不需要的资源,或者出现资源错配,则会带来不必要的成本支出。因此,对云上用户而言,充分利用云上的弹性能力除了能快速满足业务增长的需求或提升业务的连续性外,还意味着有效降低云上不必要的成本。5)安全和合规能力 云上的安全涉及到多方面,包括底层技术设施和应用层,

28、这里我们主要讨论的跟底层资源相关。首先第一个便是网络安全。区别于传统的 IDC,云计算为了对租户进行隔离,一般会构建私有网络或者专有网络,通常我们称为 VPC(Virtual Private Network)。VPC相较传统网络有更好的灵活性、易用性和安全性,并且暴露了更多的能力来提升网络扩展性。它允许用户按需规划、定义自己的网段划分和路由规则,将传统的路由器交换机抽象成软件,并暴露给最终用户使用。VPC 良好的扩展性,让用户能够构建简单可信的网络配置,实现企业级复杂的网络环境。对于VPC的规则设置和配置,都将大大影响网络安全性。另外,DevOps 中操作审计和追踪是非常重要的能力,在 Clo

29、udOps 中亦然,云计算平台一般也会相应的为您提供面向资源和操作的配置历史追踪、配置合规审计等能力,帮助客户轻松实现基础设施的自主监管,确保持续性合规。三、CloudOps 成熟度模型整体及等级说明 18 三、CloudOps 成熟度模型整体及等级说明 1.递进的成熟度模型 运维是对资源和应用的全生命周期的管理和能力提升,进而在成本、稳定性、效率上达成一致可接受的状态。云上运维也是类似的,也是一个从简单到复杂、从成长到成熟的过程,持续以提升安全合规、降低成本、提高效率为核心目标。在现实中,根据使用者的上云状态、使用规模等,其云上运维的思路都不尽相同,但其规律确是有迹可循。创业公司从第一天开始

30、就在云上部署其生产环境服务客户,而对于已经存在 IT 投入的公司来说,则需要花费更长的时间逐步上云。无论哪种场景,其运维需求都会持续存在,随着业务不断发展,运维也日益复杂,因此有效地规划和制定运维策略及方法就非常重要,该模型致力于提供一个已被大规模验证的最佳实践供各位参考。2.成熟度模型等级说明 在后续章节中,我们会针对 CloudOps 成熟度模型的五大维度进行拆解,并对每个维度进行分级,不同等级说明如下:1)初级 代表了该类别的初步使用状态,企业刚开始考虑到这些特性(自动化、可靠性、安全和合规等),在实践中探索相关的云产品,在使用中以默认的使用方式为主,或接受其推荐的配置模式,简单开启相关

31、的功能,这样即可满足当时的需求,所以定义为初级。该等级往往可以对应到相关云产品的最基础的能力,默认配置、快速配置为主。三、CloudOps 成熟度模型整体及等级说明 19 2)中级 随着业务的不断发展,云上规模的逐步扩大,企业对于这些特性(自动化、可靠性、安全和合规等)的需求不断提升,初级的使用方式已经不能够满足需求,默认的配置不再符合具体的场景,此时需要深入了解各个相关云产品的特性,然后做出更多的、符合自身场景的配置和规划。该等级往往可以对应到相关云产品的中阶能力,需要根据场景调整配置和规划。3)高级 企业云上的资源已经具备了一定的规模,对于这些特性(自动化、可靠性、安全和合规等)的需求更加

32、严苛,提高效能和降低成本甚至成为核心诉求之一。此时对于这些特性(自动化、可靠性、安全和合规等)将会一一拆解并进行调研和分析,如何可以最大化地利用云上已有的能力成为其实施的关键,对于各项指标的要求不断接近行业领先水平。该等级往往可以对应到相关云产品的高级能力,甚至包括很多 beta 能力,以便满足自身严苛的高需求。4)标准化 该阶段的特点是要求企业在常规运维操作上具备极佳的可复制能力,其各项流程和指标都成为公司内的一个基本标准,并且以技术的方式将其落地,可以从一个模块复制到其他模块,新建的模块自动获得以上的高标准能力。公司内部对于这些特性(自动化、可靠性、安全和合规等)已经形成了共识和策略,并持

33、续审视和演进。该等级通常要求一个中心化的标准和策略落地平台,以规范其作业流程和配置,并持续迭代。三、CloudOps 成熟度模型整体及等级说明 20 5)智能化 从分离的 Dev 和 Ops 到一体化的 DevOps,再从 DevOps 到更适合云上场景的CloudOpsCloud 所特有的规模效应将会使 CloudOps 更快实现智能化运维AIOps,实现更多的主动化运维(SmartOps,注:AI 和 ML 以前的智能化运维简称为 SmartOps,即主动和自动化相结合的运维方式),以期更加智能地处理出现的故障,甚至在真正的故障出现之前预先处理故障以避免故障的发生。智能化要求的不仅仅是自动

34、,而是有了部分学习、预测的能力。相同的智能化同样会出现于其他特性中(弹性能力、成本控制等),提供更加准确的预测能力有利于进一步降低成本,而更加智能的成本预测也会帮助财务更早地做出有支撑的决策等。该等级通常从使用具备 AI 能力的各项云产品开始,然后逐步地从局部的、单个的场景开始,逐步演进成系统化的、全面的智能化,最终实现真正的智能化。四、自动化能力 Automation 21 四、自动化能力 Automation 1.自动化能力的基本概念 自动化即是通过运用工具或系统达到减少、甚至是完全取代人工的操作。以完成一个云资源的创建为例,完全人工的操作即在控制台上,完全通过鼠标和键盘在网页上进行操作,

35、以完成资源的创建和购买的目的。这个创建和购买的过程可能包括 10 个,乃至 20 个以上的操作。而自动化的方式,即是减少需要的步骤,从 20 个步骤,减少到 10 个,进而减少到 5 个,3 个,甚至1 个,最终可以一键完成一个自动化操作。这依然需要人工来触发整个自动化的流程,再进一步,则可以自动触发。如在流量高峰时段,自动创建服务器并部署应用就是一个完全的,100%的自动化的例子,整个过程无需人工参与。2.自动化的业务价值 自动化的业务价值整体可以归纳如下:降低成本,提升效率:现代 IT 的核心特点即是快,天下武功,唯快不破,效率提升,永无止境。而达成效率提升的最佳手段即在于将重复的、低效的

36、、容易出错误的人工操作转变为自动的、高效的、稳定的自动化操作,同时也将降低员工所需要付出的时间等成本。减少人工错误:当需要人工不断重复地、机械性地完成一项工作时,非常容易造成疲劳,疲倦,从而操作粗心造成错误,很多云上的大事故,都是因为人工的不当操作而造成的。甚至是在故障的处理过程中,因为缺乏标准流程或标准自动化工具,进而导致更大的故障。提升员工满意度:大概没有人会喜欢这种重复的、机械的人工操作,尤其是还可能造成重大事故的情况下。因此提升自动化,则可以提升员工的满意度甚至是幸福感,进而可以提升运维(Ops)的乐趣,让员工可以快乐地工作。四、自动化能力 Automation 22 3.如何衡量企业

37、运维体系的自动化成熟度 任何事物的成功都离不开客观的数字化,以及相关的衡量指标。依据指标可以清晰地看到自己所处的自动化阶段,自动化的应用程度,以及未来继续发展的方式和目标。1)自动化率 统计出日常工作中所需要的所有和开发及运维相关的操作,然后看看其中多少的操作已经是自动化完成的,多少操作是半自动化所完成的,多少操作是手工所需要完成的,分别占比多少,最终可以形成一个全局的饼图。运维操作自动化占比示例 2)操作时长和频次 毋庸置疑,自动化的操作速度远大于手工操作。如能记录完成操作所需要的时间,再进行自动化前和自动化后的对比,便可轻易地看出自动化的价值所在。尤其是频繁,复杂的操作,业务价值的体现则会

38、更加明显。现代 IT 中最为频繁的操作为:环境部署(Infrastructure)环境配置(Configuration Management)四、自动化能力 Automation 23 应用部署和配置(Application Deployment)日志、报警或故障处理 3)平均修复时间 MTTR 从报警发生到故障被解决,系统被恢复的时间,称之为平均修复时间(Mean Time To Repair),它的公式如下:平均修复时间=总故障时间总故障次数 举例来说,假设一年的总共故障时间是 100 小时,总的故障次数是 12 次,则平均修复时间为 8.3 小时。进一步,则可以根据故障的分类,模块,根因

39、等进行分类,分别进行统计。特别说明:在严格的情况下,请注意平均修复时间和平均恢复时间的稍许区别,前者不包括从故障实际发生到报警的时间,只是包括故障已经被发现,并且开始进行故障修复的时间,而平均恢复时间包括两者:从故障实际发生到故障报警,和故障报警到故障修复的时间。通常来说,故障报警所需要的时间相当于修复所需的时间而言较短,且占比较少,因此在宽松的语境下,两者会被混用。4)高质量的自动化所应具备的特性 自动化能力的构建应该按照正式的产品和项目进行,同样需要需求管理,调研,设计,研发,测试和部署等必要的环节,并保持持续迭代。而部署后的环境同样需要具备健康管理,从而进行监控,报警,故障和修复等。必要

40、时,进行整体性的优化,改造和升级。除此之外,现代化的自动化还应该考虑以下需求:完备的角色管理和授权体系:毋庸置疑的是,自动化能力将会涉及到所有系统的所有环节,包括核心业务系统,机密数据等操作。越是重要的系统应该越依赖自动化能力而非手工方式,因为人工的处理存在种种的弊病,如因为粗心导致的失误操作等。因此,完备的角色管理和授权体系可以保证重要业务持续运行,以及保证机密数据的安全性。四、自动化能力 Automation 24 具备审计能力:所有的自动化都应该具备可以被审计的能力,尤其是当所操作的对象是核心业务或机密数据时,更依赖审计能力去保证其安全。其次审计能力也有利于自动化系统本身故障的排查。Cl

41、oud 上的云产品大多已经接入了Cloud 上的审计服务,应该开启这类服务,并时常检查数据的完整性,保证关键的操作都被记录了下来。标准化和平台化:统一的自动化能力是其他特性的重要依赖,标准化和平台化的目的都是为了统一。统一性的管理也有助于平台自身的建设,尤其应该避免建设多个自动化平台。统一的自动化平台也有利于公司统一进行监督和扩展,如要修改审核规则时,更容易落实规则。5)自动化能力成熟度模型 四、自动化能力 Automation 25 如果您希望对所在企业的自动化能力成熟度进行评估,建议至第十章进行“CloudOps 成熟度自评”。4.阿里云的自动化能力和产品 1)第一层:特定场景的自动化能力

42、 适合“中级”的自动化场景和需求。弹性伸缩?使用场景:当服务器数量需要进行弹性化管理时。?弹性伸缩服务:弹性伸缩(Auto Scaling)是根据业务需求和策略自动调整计算能力(即实例数量)的服务。您可以指定实例的类型,即 ECS 实例或ECI 实例。在业务需求增长时,弹性伸缩自动增加指定类型的实例,来保证计算能力;在业务需求下降时,弹性伸缩自动减少指定类型的实例,来节约成本。弹性伸缩不仅适合业务量不断波动的应用程序,同时也适合业务量稳定的应用程序。?产品文档:https:/ 部署模版?使用场景:当需要具备完全自动化的部署能力时,甚至可以达到一键部署。?资源编排服务 ROS:资源编排服务 RO

43、S(Resource Orchestration Service)是阿里云提供的一项简化云计算资源管理的服务。开发者和管理员可以编写模板,在模板中定义所需的阿里云资源(例如:ECS 实例、RDS 数据库实例)、资源间的依赖关系等。ROS 的编排引擎将根据模板自动完成所有资源的创建和配置,实现自动化部署及运维。?产品文档:https:/ 事件驱动?使用场景:当某个特定的事件发生时,应该触发的自动化任务。?说明:事件的来源可以来自 Cloud 的云产品和服务器,也可以主动发送自定义事件。通常 Cloud 本身关注的是基础设施(Infrastructure)层,而自定 四、自动化能力 Automat

44、ion 26 义事件则多是业务系统和业务逻辑层。当事件发生时,可以触发启动相关的自动化任务,如自动检查,自动修复,或者通知某运维人员。事件通知内通常都会包括一些简单扼要的关键信息,如包括实例 ID 等,这类可以提取出来作为自动化任务的参数。报警驱动?使用场景:当需要根据监控报警触发自动化任务时。?说明:和上述场景类似,区别在于这里的触动来源是报警。通常也可以分为Cloud 提供的基础设施(Infrastructure)层的报警和业务系统和业务逻辑层的报警。并以此为触发来源,触发自动化相关的任务。定时运维?使用场景:当需要在预定的时间开始执行的任务。?说明:和上述场景类似,区别在于这里的触动来源

45、是根据预设的时间,通常允许按日,按周,按月等周期性定时运维。2)第二层:通用的自动化能力(原子能力)适合“高级”及以上的自动化场景和需求。自动化运维平台 适合通用的云上运维工作流编排引擎,且应该具备以下能力:?编排任何云产品 Open API 的能力,包括打通服务器内部和容器内部。?丰富的控制手段:并发控制,批量控制,错误控制,暂停控制。?必要的审批环节:事先审批,事中审批,事后通知。?支持多种触发方式:定时触发、事件触发、报警触发,手动触发。?支持代码化,集成版本控制系统如 Git 即可完成版本管理,以及 GitOps,Ops as Code 等先进运维理念。阿里云运维编排 OOS 即是这样

46、一款具备以上能力的自动化运维平台。四、自动化能力 Automation 27 服务器内部运维通道 除了云产品管控面的服务能力之外,更应该更进一步,进入到数据面提供运维能力。因此应该具备打通服务器内部运维的能力:?包括图形化的操作方式,尤其是 Windows 用户。?包括命令行的操作方式,适合 Linux 系统。?应该支持基于 OpenAPI 的命令式执行,方便二次开发。?应该支持所有操作的审计能力,确保操作的安全性和合规性。基础能力、原子能力 当以上的云产品都无法满足自动化需求时,或需要的自动化能力非常灵活时,则可以依赖最基础的能力,云产品的原子能力 OpenAPI、SDK 和 CLI。Clo

47、ud 厂商提供的 SDK 应该是使用 OpenAPI 的第一选择,SDK 不仅给 OpenAPI 的调用提供了方便,更包含了诸多 API 调用的最佳实践等,根据二八原则,如默认配置应该可以满足 80%的场景。除此之外,Cloud 厂商提供的 CLI 也是不二选择,当需要在 Shell 或脚本语言中快速集成时,或者当需要构建一个 PoC 类型的自动化项目时,直接使用 CLI 就可以快速达成目的。且 CLI 的语法相对而言比较简略,因此更容易上手。3)阿里云自动化能力和产品金字塔 四、自动化能力 Automation 28 4)阿里云产品和能力与业界工具对照表 五、弹性能力 Elasticity

48、29 五、弹性能力 Elasticity 1.弹性能力的基本概念 Gartner 从两个维度定义了云服务的弹性能力:从云服务器提供商的角度,云服务的弹性意味着“云服务具备根据需要自动增加或减少系统容量的能力(比如 CPU、内存、磁盘和网络带宽),这会给用户带来一种无限算力的感知”。从客户的角度,云服务的弹性指的是云服务具备自动跟随需求的波动变化增加或减少特定服务容量的能力。弹性能力主要解决在某个具体业务场景下如何实现资源与业务负载波动匹配的能力。当然还有一种更为广义的弹性描述,即云资源支持按需取用,需要时可快速获得,不需要时可随时释放资源的能力,这种能力目前已经成为公有云的能力标配,本文不做更

49、多相关阐述。弹性能力指的是平台具备根据业务负载变化,及时且独立地增加或减少基础设施资源的能力。其中,资源可以是 CPU 核数、内存、网络带宽,磁盘,也可以是 ECS 实例。弹性能力是公有云典型优势之一,根据添加或减少资源的粒度,弹性能力可以细分为以下两类:垂直弹性(vertical elasticity):主要指的是增加或减少计算资源的某个组件,比如 CPU 核数、内存大小、网络带宽大小、磁盘空间大小等。水平弹性(Horizonal elasticity):主要指的是增加或减少相同计算资源的数量。与弹性能力有关的一个概念是可扩展性(scalability),它通常指的是在不中断服务的前提下,系

50、统具备通过增加当前的硬件资源(向上扩容)或增加额外的硬件资源(横向扩容)的方式应对更高业务负载的能力。与弹性能力总是试图提供与当前业务负载匹配的动态能力相比,可扩展性是一个静态属性,即以增量方式通过提供更多资源来满足负载增加的场景。五、弹性能力 Elasticity 30 当业务负载下降时,弹性能力会动态释放不需要的资源,而可扩展性不会。所以,可扩展性只能满足部分弹性场景的需求,可以看做是弹性能力的一个子集。2.弹性能力的业务价值 对于具有周期性峰谷波动,或者面临偶发临时流量激增的业务而言,如何快速响应避免流量高峰期业务不可用,客户侧的常见需求如下:资源交付的速度:指的是获得资源的周期,包含从

51、发起资源请求到资源交付的周期。资源数量的保障:指的是获得所需资源的成功率,成功率也会影响业务是否受损,比如单次资源扩容需要 1000 台算力,但因为资源不足导致只能交付 500台。资源的交付效率:主要指的是资源从获得到可用的时间周期,交付效率最终会影响业务是否受损;如果资源已经交付,但业务初始化配置的周期较长,则会延长最终上线时间。资源的使用成本:指满足业务计算诉求时的获取成本,当然也包括当资源不再需要时,用户可以释放并且不再收费。公有云的弹性能力能为业务带来的价值包括:敏捷性:当业务出现激增需求时,在传统模式下,用户需要经过采购、安装、配置等长周期的流程,无法快速响应业务的变化;而云上的弹性

52、能力能帮助企业快速满足计划外的需求,而无需考虑季节性波动。高可用性:对于周期性波动的业务负载,通过自动化的水平扩缩容能力,可以实现跟随业务负载的波动自动创建或释放资源,提升业务的连续性。对于突发的激增流量,云上快速的弹性能力也能在分钟级完成所需资源的交付,大大提升业务的高可用性。节省成本:在传统模式下,所有资源的成本在采购之初就已支出,不管资源是否被使用。而云上资源按量付费的模式允许客户仅需为使用的资源付费,不需 五、弹性能力 Elasticity 31 要的资源可随时释放。同时,还允许用户跟随波动的实时业务负载需要调整资源的大小,实现成本最优。高效:自动化弹性可以实现根据用户指定的策略或者自

53、适应策略,自动调整资源的数量,完全无需人工参与,不仅能更快地响应业务的变化,而且释放运维人员的维护。3.如何衡量弹性能力成熟度?1)如何衡量弹性能力 在衡量弹性能力之前,可以先看看几个典型的弹性业务场景,包括:电商平台:年度大促或周期性促销需要大量的临时资源来保障促销活动的流量洪峰,比如国内的双 11 大促销、黑五活动,每日秒杀等。社交媒体:类似微博等媒体平台,当出现艺人八卦引发社交用户热议等类似场景时,需要紧急快速扩容,避免服务不可用。在线旅游平台:在长假前一段时间会出现机票酒店查询与订购的请求高峰,比如国庆假长假,春节假期等。在线视频/游戏平台:每天晚上放学或下班后到半夜期间是休闲娱乐的高

54、峰期,平台的访问流量是白天的几倍或几十倍。临时的开发测试:需要快速完成测试资源的交付,并在开发测试结束后释放对应资源。在评估弹性能力之前,首先需要明确不同业务场景在做弹性化改造过程中面临的一些挑战,具体如下:弹性速度:尽管云上计算资源是按需取用,但资源的交付速度(从资源购买到资源可用的延迟)至关重要。当某个流量洪峰突然出现时,留给资源响应的时间通常不会太长,如果资源无法快速交付,则会直接影响业务的正常访问。五、弹性能力 Elasticity 32 弹性成功率:公有云上资源规模庞大,对单个用户而言可以认为是提供无限算力,但不同云厂商在不同地域的资源池规模大小不一。当某个可用区的资源规模有限时,用

55、户可能会遇到因资源不足导致弹性算力无法满足的情况,弹性成功率将直接影响业务的连续性和可用性。弹性效率:对于类似渲染或科学计算等需要大规模算力的场景而言,如果用户分批申请所需算力,只有当全部算力都准备完毕才能开始执行任务,必然会导致部分已申请但未使用的资源浪费,因此,一次性交付大规模算力的效率将大大提升业务的效率。弹性准确性:对于自动响应业务负载波动的弹性场景而言,如果申请的资源需求大于当前业务负载需求,则会出现过度供给带来资源和成本浪费,而如果拥有的资源需求小于当前业务负载需求,则会出现业务服务降级甚至不可用的场景。因此,提供与业务负载匹配的准确资源量,能更好的实现业务与成本的平衡。弹性资源预

56、定:对于非常规的弹性需求,比如类似双十一的年度大促活动或者新游戏开服时,客户在无法确保弹性成功率的情况下,需要额外的弹性资源保障机制以应对预期外的业务流量。2)弹性能力分级 云上的弹性能力与资源的使用和成本密不可分,要全面衡量业务的弹性成熟度需要同时从业务的弹性管理能力和资源成本管理两个维度进行。因此,我们将弹性成熟度分为以下五个等级,对应的能力要求如下:五、弹性能力 Elasticity 33 如果您希望对所在企业弹性能力成熟度进行评估,建议至第十章“CloudOps 成熟度自评”。4.提升弹性能力的建议与步骤 要充分利用云上的弹性能力提升业务的可用性,用户可以根据以下步骤对云上业务形态和架

57、构进行分析,并进行相关业务改造,提升业务的高可用性的同时降低成本:a)分析并识别业务中负载存在波动的业务模块。b)明确不同业务模块对应的负载波动上下限,它们决定了该模块在业务高峰期和低谷期所需资源的数量。五、弹性能力 Elasticity 34 c)分析负载波动所需资源的数量和对应时间分布,明确所需资源是否能通过自动扩缩容满足,还是需要提前准备,比如类似双 11 大促的活动,流量会激增几百倍,一定需要提前准备相关资源。d)明确不同业务模块在应用层的要求或约束,比如系统初始化要求、会话保持、资源释放时的数据处理要求等。e)分析目前不具备弹性能力的业务模块是否可以通过类似弹性伸缩的产品进行改造,提

58、升业务的可用性。f)根据业务历史波动规律,配置相关扩缩容策略,并测试是否满足业务负载变化的需求。g)持续测试并改进弹性伸缩相关配置,直到与业务波动匹配。5.弹性工具推荐 1)开源的弹性工具推荐 目前在虚拟机(Virtual Machine)维度的水平扩缩容暂无主流或广泛使用的开源工具,但容器(Container)维度的水平扩缩容则以 Kubernetes 的调度层弹性组件使用最为广泛。五、弹性能力 Elasticity 35 Kubernetes 的调度层资源主要分为两个维度?Node 级别:即多个服务器组成的一个集群资源池。?Pod 级别:是 Kubernetes 中最小的部署单元,代表一个

59、运行的时机应用程序。Kubernetes 的调度层弹性主要是根据业务负载的变化,自动调整应用对一个副本的数量或资源的大小,从而实现调度层的伸缩。Kubernetes 的弹性组件分为两类:水平伸缩(HPA)组件和垂直伸缩(VPA)组件。容器资源的水平伸缩(HPA)Kubernetes 通过 Horizontal Pod Autoscaler 组件,根据资源使用率或者自定义指标实现 pod 副本的自动增加或减少,其工作原理如下:容器资源的垂直伸缩(VPA)Kubernetes 通过 Vertical Pod Autoscaler(VPA)组件,根据容器资源使用率,自动设置 CPU 和内存调整的请求

60、,允许在 pod 上进行资源的调整。VPA 会基于 pod 资源的使用情况,自动为集群设置资源占用的限制,从而让集群将 pod 调度到有足够的资源的最佳节点上,其工作原理如下:五、弹性能力 Elasticity 36 2)阿里云的弹性工具推荐 阿里云提供了丰富的 VM 粒度的弹性产品与工具,用户可通过控制台或标准OpenAPI,快速完成业务的接入和结合,提升云上业务的可用性和连续性,同时降低云上成本。a)垂直伸缩 对于单体应用、独立应用、或有状态的应用等场景,随着业务不断升级和变化,用户需要快速升级资源配置以应对业务变化。例如,某些视频平台的晚上 6 点到 12 点是业务高峰期,不论是计算能力

61、还是网络资源,其需求量都会大于之前的水平。此时,客户需要对系统进行配置升级,如升级到性能更高的实例规格、提高带宽配置、扩大磁盘大小等。当高峰期结束时,整体负载下降到低谷状态,出于成本的考虑,企业可以对云服务器进行配置降级,如降低实例规格、降低带宽值等。阿里云的云资源均提供控制台和标准的 OpenAPI,用户可以根据需要自助完成云资源的配置变更。目前,阿里云提供的 VM 维度的垂直伸缩能力包括:修改 CPU 核数、内存大小、磁盘大小、公网带宽大小、修改带宽的付费方式等。用户还可以通过运维编排服务(OOS),设置在指定时间或当某个条件触发时自动调整 VM 的规格,满足各种场景需求。五、弹性能力 E

62、lasticity 37 b)弹性供应 对于科学计算、图形图像渲染等场景而言,其业务对算力交付的需求通常较高,包括单次任务所需算力规模较大(可能需要几千上万核的算力)、海量算力尽量一次性满足(否则任务也无法正常执行),希望算力成本越低越好等。因此,海量算力快速交付的能力也体现了云厂商的弹性深度体验。公有云的按量付费模式衍生了一种新的付费形态,叫可抢占式(Spot)实例或竞价实例。Spot 实例的本质是把公有云的闲置资源以较低价格(一般是按量付费价格的10%90%)出售,吸引价格敏感的用户出价购买,价高者得。Spot 实例虽然价格便宜,但因为它采用的是竞价模式,价格会随闲置资源使用波动,也就意味

63、着一旦 Spot 实例的市场价格超过用户出价或者系统因为库存等需求,该实例就会被平台自动回收,实例上运行的业务就会停止,因此用户的应用需要对这种行为进行适配。对于部分价格非常敏感但容错性较高的业务而言,如果能充分利用 Spot 实例的特性,就能以较低成本快速完成业务的交付。阿里云的弹性供应组是一个快速交付 ECS 算力集群的方案,用户只需要指定所需算力的大小和单位(支持 vCPU 核数,ECS 实例个数,内存数量等),以及可用区和实例规格,弹性供应组会自动去指定的可用区扫描指定实例规格的算力,最终交付指定大小的算力。除了交付算力外,弹性供应组可以在以下几个维度进一步满足个性化的弹性需求场景:精

64、细化的成本控制:对于价格敏感的用户,弹性供应组支持指定算力集群中按量和 Spot 实例的比例,在确保基础算力的基础上,通过 spot 实例降低算力集群的总拥有成本。弹性供应组还支持指定实例规格最高出价,以及成本优化类型的交付模式,这样系统会自动在指定可用区下的实例规格中选择价格最低的实例进行交付,进一步降低算力的使用成本。算力自动保持:如果使用了 spot 实例,当 spot 实例被回收以后算力集群的总容量会下降。通过弹性供应组的保持模式,当 spot 实例被回收或者总算力未满足时,弹性供应组会自动寻找算力进行补充,完全无需人工干预。五、弹性能力 Elasticity 38 弹性供应组会根据用

65、户指定的可用区和实例规格进行组合交付 c)弹性伸缩(ESS)对于分布式应用、无状态应用、大型应用等场景,用户手动指定固定数量的云资源已经无法满足业务快速和剧烈的变化。客户可以借助于阿里云的弹性伸缩服务(ESS),根据业务需求和策略自动调整实例数量,在业务需求增长时,弹性伸缩自动增加实例,来保证计算能力;在业务需求下降时,弹性伸缩自动减少实例,节约成本。同时,弹性伸缩具备实例健康检查能力,能自动识别并替换不健康的实例,不仅适合业务量不断波动的应用程序,同时也适合业务量稳定的应用程序,保障业务的持续运行。目前弹性伸缩(ESS)产品提供了以下几个维度的自动化能力,帮助客户自助实现业务的自动化智能化扩

66、缩容,快速提升业务可用性。灵活丰富的扩缩容模式 对于业务负载波动比较稳定的场景,例如在每天中午12点开始业务需求明显增加,每天晚上 8 点后需求明显减少的场景,用户可以通过定时任务快速完成可预期负载的响应。但对于业务负载变化无明显规律,或者在规律性波动外偶尔有突发负载的 五、弹性能力 Elasticity 39 场景,需要更灵活的伸缩模式来响应业务波动。弹性伸缩目前提供的扩缩容模式包括:?手动模式:允许用户手动进行弹性伸缩,包括手动添加、移出或者删除已有的资源。?固定数量模式:用户设置集群的最小/最大期望资源数量,当实例数量低于下限/超过上限时,系统会自动添加/移出资源,使得资源数量等于下限/

67、上限。?健康监测模式:系统自动检查计算资源的运行和健康状态,如果发现一台计算资源未处于运行中或处于不健康状态时,弹性伸缩服务会自动移出该资源,并创建一台新的资源进行替换。?定时模式:用户可以通过创建定时任务,实现在指定时间内自动创建或释放指定 4 数量的资源。?指标模式:监控集群中资源的性能指标(如 CPU 利用率、网络流量均值)波动,当指标当前值超出制定阈值时,自动触发执行资源的扩缩容。完善的业务指标监控矩阵 一般业务负载的波动都与一个或多个业务指标有强关联性,即用户可以通过监控业务负载的一个或多个指标识别到业务的上下波动。阿里云的弹性伸缩服务不仅支持根据伸缩组内集群实例的十几种性能指标进行

68、扩缩容,比如实例的 CPU 使用率、内存使用率、网络吞吐率等,还支持根据其他产品的指标进行自动扩缩容,比如负载均衡的 QPS。弹性自愈的能力 弹性伸缩自带的健康检查能力,会周期性扫描伸缩组内 ECS 实例的健康状态。如果发现某个实例处于关机状态(不提供正常服务)或实例 OS 内出现异常导致实例无法正常响应,弹性伸缩服务会自动移除该实例,并创建一个新的实例进行替换,确保业务所需算力。此外,当伸缩组与某个负载均衡关联后,如果负载均衡发现伸缩组内某个实例出现异常,自动将该实例摘除后,弹性伸缩也会自动创建一个新实例,确保算力稳定。五、弹性能力 Elasticity 40 有效的成本控制 弹性伸缩目前提

69、供两种方式帮助用户在保障业务可用性的基础上,尽可能降低算力成本。?一是弹性伸缩支持扩容时同时选择按量和抢占式实例,以及指定两种实例的比例。?二是弹性伸缩的动态伸缩模式和预测的伸缩模式均可以自动根据业务负载波动自动计算所需算力的调整,实现资源规模与负载需求直接的完美匹配,避免过度供给带来的成本浪费。个性化的弹性管理能力 对于部分无法做到完全无状态的业务负载,比如在扩容时新交付的实例正式承接负载前,需要下载最新的数据或代码,弹性伸缩的生命周期挂钩可以实现扩缩容时的个性化配置。目前,弹性伸缩支持扩容和缩容两种类型的生命周期挂钩。用户可以创建扩容时的生命周期挂钩,在新扩容出来的实例正式使用前,在实例内

70、做一些自动化的配置任务,比如安装某些应用程序或执行某些脚本。当任务完成之后,才真正将实例投入使用。缩容的生命周期挂钩也是类似的场景,满足多样化的弹性诉求、对于自动化能力较高的用户,希望监控弹性伸缩的各种行为与结果并与其他系统打通,比如当扩容失败时需要及时感知并自动执行其他任务进行兜底,避免业务受损,可以消费弹性伸缩提供的各种事件和通知渠道。目前弹性伸缩支持扩缩容成功、扩缩容失败等场景的事件,并支持 MNS 消息队列、云监控等订阅通道,方便用户快速完成接入和打通。超高的弹性成功率 云上计算资源的获取是通过实例具体规格来指定的,比如阿里云的 c5.large,c6.large,c7.large 等

71、多个实例规格均可以提供 2 核 4GB 的算力。如果客户的业务负载对算力没有特殊的要求,比如实例的网络吞吐上限等,在使用弹性伸缩时,可以选择多个可用区和多种符合要求的实例规格,当遇到临时突发流量时,弹性伸缩 五、弹性能力 Elasticity 41 服务会自动在多个可用区下巡检所有符合要求的实例,尽可能交付所需算力,避免因单个资源库存不足导致业务降级或受损。智能化弹性 对于周期性明显的负载波动,弹性伸缩服务提供了预测伸缩模式,即对业务负载波动历史进行分析建模自动预测业务负载未来 2 天的变化情况,无需用户配置即可实现在需要的时候自动扩缩容所需算力。目前弹性伸缩的预测伸缩模式仅适用于CPU、内存

72、和网络带宽有明显周期性波动的业务负载。智能化弹性能力示例 d)弹性资源预定 对于类似双 11 大促、新游戏开服等可能出现非预期流量洪峰的场景,常规弹性无法 100%满足要求,为了确保某些业务在特殊阶段的 100%可用,客户除了需要提前预估资源外,还需要额外的资源储备,以应对计划外的流量请求。在传统模式下,这些临时额外资源的储备面临 2 大难题:采购周期长且数量难预估,预估不准可能因资源不足导致业务受损,也可能因资源过多导致成本浪费。因临时突增需求的采购,使用周期较短,后期面临闲置问题。阿里云提供的资源预定服务,可以同时满足使用时间不定使用时长不定的峰谷弹性需求,和资源使用了稳定且弹性规模较高的

73、周期性弹性需求。资源预定服务中的弹性保障可以为灵活付费的日常弹性资源需求提供弹性资源的确定性保障。用户只需支付一笔较低的保障费用,阿里云会以私有池的方式 五、弹性能力 Elasticity 42 为用户预留对应的资源池,用户在某个固定周期(支持 1 个月5 年)内都可以获得特定容量的弹性资源,保障所需算力的 100%交付。资源预定服务中的容量预定可以实现指定容量资源的锁定,快速满足弹性规模较大的场景。对于可能面临流量突增的场景,用户通过容量预定可以提前锁定部分资源,在需要的时候优先从锁定资源中获取算力,避免因资源不足导致突增需求无法满足的场景。阿里云资源预定服务根据使用场景提供容量预定和弹性保

74、障等不同类型 参考材料:云原生白皮书:https:/ 阿里云 ACK 产品介绍:https:/ AWS elasticity 架构定义:https:/ AWS automating elasticity:https:/ 五、弹性能力 Elasticity 43 GCP scalable and resilient app:https:/ Azure well-architected framework:https:/ GCP autohealing for highly available app:https:/ VMware elasticity on cloud:https:/ Vmwar

75、e cloud scalability:https:/ 中国信通院 2021 云计算白皮书:http:/ Gartner cloud service elasticity:https:/ hal elasticity:https:/hal.inria.fr/hal-01529654/document HAL-cloud elasticity.pdf HPA 和 VPA 介绍:https:/dasydong.github.io/blog/2019/12/21/k8s-ca-code 综合篇/#概念及原理 六、可靠性能力 Reliabilty 44 六、可靠性能力 Reliabilty 1.基本概

76、念 可靠性指在一定的时间和条件下,系统无故障运行的能力或可能性,一般用 MTBF(平均无故障时间)来衡量。可靠性常作为非功能性需求在系统设计之初被边缘化甚至忽略,当我们再次提起可靠性时,殊不知已经遭受了重大损失。云上的可靠性建设有着天然的优势:首先,可靠性需要在架构上具备高可用性,包括应用的多可用区、多地域部署,甚至异地多活;数据靠考虑多副本容灾能力,通过集群或分片方式提高数据的可用性。这些作为云上的基础资源或组件,已被天然支持,唾手可得。其次,为了进一步可靠性,云还提供了丰富的可观性能力以及自助服务。基于此,用户可用构建多层次的可观测性能力,并基于此实现服务的故障自动发现、自动诊断、以及自愈

77、能力,同时通过混沌工程提前发现生产环境潜在风险。对比于传统的 IDC,云计算的超大规模的数据中心,以及多可用区支持,让用户可基于云以低成本、高扩展、高可靠性快速的构建同城容灾、异地容灾等服务(包括数据)高可用方案。云计算通过虚拟化等技术对客户屏蔽了底层物理硬件,与此同时云厂商通过虚拟化、热迁移等技术,来减少甚至规避物理硬件故障导致的服务受损,进一步提升了用户服务的连续性以及高可用。在可靠性上投入的成本,远比不做可靠性在产生环境代理的损失小得多。一般情况下,高可靠性、低成本和低复杂度是一个不可能三角,更多的时候我们倾向选择提高可靠性的前提下,在成本和复杂度上适度投入。2.构建可靠性管理能力的业务

78、价值 避免损失:根据 Statista 全球头部企业宕机损失统计,2020 年 40%的 IT 企业宕机损失 100 万美元/小时,比如 2019 年提升 6%,17%的 IT 企业宕机损失超过 500 万/小时,构建良好的可靠性能力最直接的收益是尽量避免此类损失。六、可靠性能力 Reliabilty 45 提供确定性:好的可靠性意味着质量匀称,可以提供更长期的确定服务,得到客户的信赖;用户可以在此基础上构建业务,更少去关心不确定的影响,专心做好业务。为业务增值:可靠性在某些服务业务中近似质量,在其它条件相同情况下,好的质量有更高的价值;好的业务(服务)的稳定性是更具竞争力的表现。3.多个层面

79、构建可靠性 云作为基础设施,由于其规模效应积累了大量业务可靠性的经验,并通过产品化方式普惠到每个云上客户。在物理资源层,多地域提供了匀质的资源供给,方便客户根于业务、架构和成本选择最佳资源。在 SaaS 层,提供企业级的免运维服务,业务可以按需方便集成到系统中,基本做到开箱即用。可靠性工程涉及部署方式、系统架构、应用拓扑和代码质量等多方面,除了在这些层面不断引入最佳实践进行探索,也需要工程化的方式对整体业务进行观测,并把混沌工程能力常态化引入到日常运行的业务中,做到提前、持续发现隐患,并常态化治理。1)构建多地容灾架构 对比于传统的运维,云厂商不仅提供了超大规模的数据中心,同时提供了全球多地域

80、服务,每个地域是完全独立的数据中心,多个地域之间完全独立。而每个地域又有多个可用区,每个可用区之间电力和网络互相独立。云计算有天然的规模化和可靠性优势。对于可靠性要求较高的应用,通常会做同城多机房部署,避免由于单机房的网络、电力等物理故障导致应用整体不可用。该场景下,在云上,用户可以使用同一个地域的多个可用区来部署,通过多个可用区的互通能力来完成应用间通讯,同时多可用区的物理隔离性极大提升了应用的容灾能力。针对多可用区部署的服务,云服务厂商不仅会在云资源的供给上提供物理隔离的多个可用区,同时也会开放 OpenAPI能力来供用户查询并控制各个可用区可用购买的不同类型云资源,用户可用基于OpenA

81、PI 服务能力来构建自己的多可用区部署能力。特大型的重要商业系统,对系统的容灾能力提出了更高的要求,同城多机房解决的是机房维度的单点问题,无法解决某个城市因为天灾人祸导致的城市级的故障。该 六、可靠性能力 Reliabilty 46 场景下,在云上可以使用多地域部署,另外,多地域间物理距离适当远一些,避免单地域故障导致服务整体不可用,提升应用的极致高可用。对比于传统的 IDC 异地容灾方案,云天然的多地域支持会极大简化用户跨地域运营服务的成本。对于高阶用户,云服务厂商会提供 GSLB 全球负载均衡以及对应的 CDN 服务来辅助支撑基础设施的高可用,也会提供自动化运维的 Auto Scaling

82、 能力,用户可用通过配置 Auto Scaling 策略来实现自动化的多地域、多可用区自动化部署,保障服务基础设施始终处于高可靠性状态。2)数据备份和容灾恢复能力 云服务厂商在数据的高可靠性上具备天然的优势,不仅体现在存储的多副本,数据可靠性极高的 SLA 保障上,同时以服务化的方式向用户暴露了 OpenAPI,用户可利用云厂商提供的快照、镜像等能力,实现数据备份容灾的高可靠性能力建设。快照能力是云厂商提供的数据备份的核心产品能力,用户可使用快照进行系统盘、数据盘的备份,同时支持增量备份模式,帮助客户节约存储成本。快照支持手动备份与自动备份,推荐使用自动备份方式实现自动快照生成、轮转,对于特定

83、业务场景,可以通过手动方式进行指定快照生成与保留时间,也可以设置为永久保留。当系统出现故障,需要将磁盘(系统盘或者数据盘)数据恢复到历史某一时刻,可以使用快照回滚能力,将指定磁盘回滚,通过快照数据的恢复能力,来提升数据的容灾能力。同样,用户可用自定义镜像,将快照的操作系统、数据环境信息完整的包含在镜像中。然后使用自定义镜像创建多台具有相同操作系统和数据环境信息的实例。对于多地容灾架构下,用户实现多地域部署时,可以使用镜像的跨地域复制能力来实现镜像备份的分发,从而实现多地域部署情况下的数据备份。3)应用可观测能力 为了帮助用户更快、更直观、更简单的发现系统内部问题,云服务厂商提供了完善的工具与服

84、务化能力,用户基于此来构建不同层次的可观测能力,同时利用云厂商提供的自助服务来快速发现云资源、甚至自身业务服务的问题。为了支持不同层次的用户需求,云厂商通常会提供以下几大类监控服务能力:云资源监控、应用层 APM、业务层监控。六、可靠性能力 Reliabilty 47 云资源监控:应用依赖的底层资源监控,比如资源的 CPU、内存、网络等指标的使用率等。通过基础监控,用户可以自助发现云资源发生的异常,这是可观测性最基础的能力。云厂商同时会提供云资源的诊断能力,用户可通过一键发起对云资源的诊断,来自助发现云资源可能存在的问题。更进一步,云厂商会提供运维事件能力,用户基于云提供的 EventBrid

85、ge 事件总线,通过自动化编排能力方式感知到云资源的异常事件,并完成自定义的自动化运维动作。应用层 APM:基于云资源部署的具体应用场景,包括应用指标性能(Metric)、系统调用链(Tracing)、日志监控(Logging)三个维度,比如应用的 JVM 指标、线程池监控、RPC 服务的成功率、时延、错误率等。业务层监控:应用层监控数据一般通过 pull/push 方式在数据聚合服务上进行计算,产出业务指标数据。指标数据异常检测也是云上提供的一项基础服务,用户可以选择传统的曲线异动、同比环比异常,甚至高阶的智能基线对比的自动检测能力对业务进行监控。云资源监控只能发现云资源的问题,对于部署在云

86、上的大规模服务来说,应用层问题的监控和定位能力是更加复杂和困难的。云上需要有应用维度的监控和定位能力,在应用维度具备标准监控能力,比如服务端应用运行时、线程池、数据库、中间件、接口调用等,在前端应用,具备从页面打开速度(测速)、页面稳定性(JS Error)和外部服务调用成功率(API)等维度监控页面的健康度的能力。从生态角度,这些能力要提供诸如 Prometheus、Kubernetes 等开源产品形态。除应用监控外,云上链路追踪 Tracing Analysis 为分布式应用的开发者提供了完整的调用链路还原、调用请求量统计、链路拓扑、应用依赖分析等工具,可以帮助开发者快速分析和诊断分布式应

87、用架构下的性能瓶颈,提高微服务时代下的开发诊断效率。云服务厂商会通过产品以服务化的方式来提供日志服务,用户使用日志服务做日志、数据的采集与集成,并基于此做 Logging 和 Metering。用户通过自定义应用系统的内容、格式,并通过日志服务收集,并在日志服务中配置自定义细粒度监控大盘,观测自身业务运行情况,同时配置预警体系,建设用户层问题发现与定位能力。六、可靠性能力 Reliabilty 48 4)弹性容错能力 除了在基础设施多地域部署、数据上多副本备份容灾能力外,云服务厂商通常也会提供应用服务的容错能力,帮助用户构建具备弹性、容错能力的分布式系统。弹性容错能力:分布式系统核心的两个弹性

88、容错能力是流控与降级,通过流控来保护应用过载,通过降级来容忍业务部分有损换取整体可靠性。传统的流控方式是人工判断干预,高阶的方式是通过监控体系自动发现热点流量或者异常流量,自动化选择自适应过载保护或者设置自动降级策略并执行。混沌工程与故障演练:混沌工程(Chaos Engineer)是一种提高分布式系统弹性能力的工程实践,通过主动制造故障,测试系统在各种压力下的行为,在生产环境提前识别潜在的故障,避免故障真实发生。故障演练是遵循混沌工程实验原理的实践之一,其建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的流程,覆盖用户从计划到还原的完整演练过程,并通过可视化的

89、方式清晰呈现给用户。结合观测能力和预警能力,通过混沌工程来完成故障巡检、故障注入、以及系统稳态度量。5)全面分析方法:FMEA 设计出可靠性高的系统是一个复杂的过程,由于异常场景很多,只要稍有遗落就会存在隐患,根据墨菲定律“可能出错的事情最终会出错”,因此推荐使用 FMEA 方法对系统做一个全面分析。FMEA(Failure mode and effects analysis)即故障模式与影响分析,具体分布步骤:给出初始的架构设计图。假设架构中某个组件发生故障。分析故障对系统功能造成的影响。根据分析结果(ROI),判断架构是否需要进行优化。六、可靠性能力 Reliabilty 49 4.可靠性

90、衡量标准 如果您希望对所在企业可靠性能力成熟度进行评估,建议至第十章“CloudOps 成熟度自评”。5.工具推荐 1)阿里云相关工具 从基础设施可靠性、数据可靠性到应用可观测性、APM、自助诊断、弹性容错能力等服务可靠性,阿里云都提供了完备的产品解决方案。用户可以利用这一系列能力,提升自身服务的可靠性。全球化超级数据中心 阿里云基础设施目前已面向全球四大洲,开服运营 25 个公共云地域、80 个可用区,此外还拥有 4 个金融云、政务云专属地域,并且致力于持续的新地域规划和建设。六、可靠性能力 Reliabilty 50 通过全球化的布局、超级规模的数据中心、持续的投入与深入布局来保障阿里云基

91、础设施坚实、可靠。快照与自定义镜像 从块存储技术角度,阿里云的块存储设备在具备高性能和低时延的优势下,同时提供了极高 SLA 保障了数据的可靠性,其中云盘采用分布式三副本机制,为 ECS 实例提供 99.9999999%的数据可靠性保证。从数据备份与容灾恢复角度,阿里云提供了快照 2.0 技术,提供了更高的快照额度、更灵活的自动任务策略,并进一步降低了对业务 I/O 的影响,同时增量快照能力可以以更快的快照制作速度和更小的空间占用,帮助用户提升效率并降低成本。用户可以通过自定义快照策略实现快照自动化备份,以极低的成本完成数据备份,在故障场景,用户可以通过控制台或者 OpenAPI 来手动或着自

92、动化完成快照回滚、数据恢复。同样的原理适用于自定义镜像,用户可以通过镜像的制作、复制、恢复来完成数据备份、中转、恢复。自助问题排查 阿里云的基础云产品服务比如 ECS、RDS、虚拟网络均提供了云资源侧的自助诊断能力,以 ECS 和 DAS 诊断为例简单介绍。?ECS 自助问题排查:ECS 自助问题排查提供的实例健康诊断、操作异常诊断、安全组规则检测、以及网络连通性诊断,可以全方位帮助用户诊断实例的操作系统配置、磁盘状态、网络配置、网络状态等配置异常,同时给予修复建议方案,帮助用户及时处理潜在风险。?数据库自治服务 DAS(Database Autonomy Service)是一种基于机器学习和

93、专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助您消除人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。六、可靠性能力 Reliabilty 51 云监控 CMS 云监控服务可用于收集获取阿里云资源的监控指标或用户自定义的监控指标,探测服务可用性以及针对指标设置警报。使您全面了解阿里云上的资源使用情况、业务的运行状况和健康度,并及时收到异常报警做出反应,保证应用程序顺畅运行。基础监控:云上云下统一的主机监控解决方案及百余款云产品监控。网络监控:基于私网和公网的网络可用性监控。业务监控:过日志监控、自定义监控把业务数据归集到云上进行统一监控和管理。日志服务 SL

94、S 日志服务(SLS)是云原生观测分析平台,为 Log/Metric/Trace 等数据提供大规模、低成本、实时平台化服务。一站式提供数据采集、加工、分析、告警可视化与投递功能,全面提升研发、运维、运营和安全等场景数字化能力。作为云原生观测分析平台。?数据采集:支持 Log/Metric/Trace 统一采集,支持服务器/应用/移动设备/网页/IoT 等数据源接入,支持阿里云产品/开源系统/云间/云下日志数据接入。?数据加工:通过灵活语法,在不编写代码情况下支持各种复杂数据提取、解析、富化、分发等需求,支持结构化分析。?查询分析:提供关键词、SQL92、AIOps 函数等多种方式,支持面向文本

95、+结构化数据实时查询分析,异常巡检与智能分析。?监控告警:具备丰富的可视化组件,可创建所见即所得的交互式分析大盘。同时支持实时可编排的告警功能,可随时随地掌握业务动向。?日志审计:账户下实时自动化、中心化采集云产品日志并进行审计,支持升级所需合规存储、查询及信息汇总报表。六、可靠性能力 Reliabilty 52?投递与消费:与各种实时计算及服务实时对接,并可以实现自定义消费。支持数据投递至存储类服务,支持压缩、自定义 Partition 以及行列等各种存储格式。应用实时监控服务 ARMS 应用实时监控服务(Application Real-Time Monitoring Service,简称

96、 ARMS)是一款应用性能管理产品,包含前端监控、应用监控和 Prometheus 监控三大子产品,涵盖了浏览器、小程序、APP、分布式应用和容器环境等性能管理,能帮助用户实现全栈式的性能监控和端到端的全链路追踪诊断。?实时洞察,即刻提升应用性能。前端、应用至底层机器,应用实时监控服务ARMS 提供了完整的数据大盘监控,展示请求量、响应时间、FullGC 次数、慢 SQL 和异常次数、应用间调用次数与耗时等重要的关键指标,时刻了解应用程序的运行状况,确保向用户提供优质的使用体验。?全面掌握 Web 端性能数据,提供优质体验。应用实时监控服务 ARMS 前端监控专注于 Web 端体验数据监控,从

97、页面打开速度、页面稳定性和外部服务调用成功率这三个方面监测 Web 页面的健康度,帮助您降低页面加载时间、减少 JS 错误,有效提升用户体验。?Prometheus 监控,云原生时代一站式体验。应用实时监控服务 ARMS 提供Prometheus 全托管式云服务,无需安装运维,一键开启,开箱即用监控大盘。链路追踪 XTrace 链路追踪(Tracing Analysis)为分布式应用的开发者提供了完整的调用链路还原、调用请求量统计、链路拓扑、应用依赖分析等工具。能够帮助开发者快速分析和诊断分布式应用架构下的性能瓶颈,提高微服务时代下的开发诊断效率。?分布式调用链查询诊断:同时支持微服务程序 H

98、TTP、Dubbo、HSF 等接口进行追踪与 PaaS 调用,如对数据库、NoSQL、MQ 等调用进行追踪。?应用性能实时汇总:可以通过跟踪整个应用程序的用户请求,来实时汇总,组成应用程序的单个服务和资源。六、可靠性能力 Reliabilty 53?分布式拓扑动态发现:可以收集您的所有分布式微服务应用和相关 PaaS 产品的分布式调用信息。应用高可用服务 AHAS 应用高可用服务(Application High Availability Service)专注于提高应用及业务的高可用能力,主要提供流量防护、故障演练、多活容灾、开关预案四大核心能力。用户通过各模块可以快速低成本地在营销活动场景、

99、业务核心场景全面提升业务稳定性和韧性。?流量监控与防护:提供包括 QPS、并发线程、响应时间(RT)、异常、CPU/load、网络流量等指标的秒级监控能力。同时,提供应用级别的流量控制、应用间的降级隔离、单机自适应过载保护、热点流量探测与防控、脉冲流量削峰填谷、慢方法/SQL 的自动熔断、分布式流量控制等。?网关防护:支持 Nginx/Ingress 网关层流量控制以及 Spring Cloud Gateway、Zuul 等常用 API gateway 的流量防护,从流量入口处拦截骤增流量,防止下游服务被压垮。?开关预案:支持代码中配置项的动态管理,根据需求为某个应用开启或关闭部分功能,或设置

100、某个性能指标的阈值。通常用于设置黑白名单、运行时动态调整日志级别、降级业务功能等场景。?混沌工程与故障演练:提供一站式架构分析、故障巡检、故障注入、系统稳态度量等功能,帮助用户增强分布式系统的容错性和可恢复性,帮助系统平稳上云。?多活容灾:支持分布在多个站点的系统同时对外提供服务,保障故障场景下的业务快速恢复。横向囊括容灾架构的上线、运维、演练、切流、升级到下线的全生命周期。纵向包含业务流量的完整路径,从流量接入,到服务化调用,异步化消息,再到最终数据落库 六、可靠性能力 Reliabilty 54 2)阿里云与业界相关工具对比/对照表格 七、安全和合规能力 Security 55 七、安全和

101、合规能力 Security 1.基本概念 我国已出台关于网络与数据安全的法律、行政法规、部门规章、规范性文件等共计两百多部,包括网络安全治理的国家基本法网络安全法、数据安全的国家基本法数据安全法、隐私权与个人信息权益的国家基本法个人信息保护法等,形成了覆盖网络安全等级保护、关键信息基础设施安全保护、网络关键设备和网络安全专用产品管理、国家网络安全事件管理、密码管理、跨境活动网络安全管理、数据安全管理、个人信息保护等领域的网络安全法律法规体系。无论是企业网络中还是云上,从个人和财务信息到数据保护和隐私,企业需要确保它们符合行业和法规要求,以确保数据的保护和隐私以满足当地政府机构的法律法规。1)云

102、上安全的概念 通常意义的云计算安全或云安全指通过一系列策略、控制和技术,共同确保数据、基础设施和应用安全,保护云计算环境免受外部和内部网络安全威胁和漏洞的影响。越来越多的企业更加的重视云安全和合规,云上安全合规需要有自上而下的顶层设计,要以安全为出发点构建云上应用。2)云上安全的基本原则-安全责任共担模型 不同于传统的 IDC,云计算是一种共享技术模型,其安全责任由双方共同承担,这通常被称为安全责任共担模型。宏观上讲,云计算平台负责基础设施(包括跨地域、多可用区部署的数据中心,以及骨干传输网络)和物理设备(包括计算、存储和网络设备)的安全,并负责运行在云操作系统之上的虚拟化层和云产品层的安全。

103、同时,云平台也负责平台侧的身份和访问的控制和管理、监控和运营,从而为客户提供高可用和高安全的云服务。客户负责以安全的方式配置和使用各种云上产品,并基于这些云产品的安全能力,以安全可控的方式构建自己的云上应用和业务,保障云上数据的安全。七、安全和合规能力 Security 56 2.业务价值 近些年网络安全威胁愈发增多,各种安全事件频出,据 Splunk 发布的2022 全球网络安全态势报告数据显示:49%的企业表示,他们在过去两年中遭受了数据泄露,比一年前调查中的 39%有所增加。79%的受访者表示,他们遇到过勒索软件攻击,35%的受访者承认曾有一次或多次攻击导致其无法访问数据和系统。59%的

104、安全团队表示,他们必须投入大量时间和资源进行补救,这一比例高于一年前的 42%。因网络安全事件而遭受计划外停机的业务关键型工作负载的平均恢复时间为14 小时,受访者估计这种停机的平均损失约为每小时 20 万美元。传统IT结构向云化架构转变,所带来的网络安全威胁愈发大,会带来新的安全挑战。可能一个误操作就会让自己的应用从内网访问到公网访问或者泄露了自己的秘钥导致信息安全事件。安全和合规是数字化转型的基石,也是上云的第一步。3.多个层面构建的安全与合规能力 云上安全与合规涉及多个层面,从客户上云开始接触云账号的安全,创建实例后实例内 GuestOS 的应用系统安全,使用时实例所在的网络环境安全,对

105、高敏感信息有要求的信息数据安全,到使用云安全产品构建安全防御体系,以及涉及大量云上资源管理等一系列安全实践。1)云账号安全 身份和访问管理是当今 IT 行业面临的最大挑战之一,也深受云计算的影响。云的IAM(Identity and Access Management,身份认证与访问管理)解决方案实现零信任安全,并且在每个资源的访问点评估访问请求。这将允许每个应用程序、每个策略和每个访问场景的分布式访问决策,基于云的 IAM 解决方案允许组织使用单点登录、多因素身份验证和访问控制来直接提供对云服务的安全访问。账户是资源使用的硬边界,我们建议根据功能、业务、合规性要求等来进行账号的分配和隔离。在

106、多用户需要协同操作资源的场景中,建议避免直接共享使用账号,共享账号的密钥等机密信息会大大增加泄露风险,一旦泄露会威胁账号下所有资源 七、安全和合规能力 Security 57 的安全。建议使用访问控制创建用户和用户组,并授予各用户和用户组最小权限,可以有效降低风险。阿里云提供身份和访问管理的以下安全功能,在账号级别防范风险。身份认证:用户可以使用其云账号(即主账号)或其云账号下 RAM 用户的密码登录阿里云控制台并对其云上资源进行操作,或者使用阿里云的 Access Key(AK)通过 API 访问阿里云资源时对用户身份进行认证,也可以通过阿里云 Security Token Service(

107、STS)为 RAM 用户、阿里云服务、身份提供商等受信实体提供短期访问资源的权限凭证的云服务。颁发令牌时,管理员可以根据需要来定义令牌的权限和自动过期时间(默认为 1 小时过期)。此外,阿里云还支持 MFA认证、SSO 认证、SSH 密钥对认证方式。访问授权(RAM):阿里云为客户提供了多种工具和功能,用来帮助客户在各种情况下授权资源的使用权力。其中,阿里云为客户提供 Resource Access Management(RAM)资源访问控制服务,用于用户身份管理与资源访问控制。RAM 使得一个阿里云账号(主账号)可拥有多个独立的子用户(RAM 用户),从而避免与其他用户共享云账号密钥,并可以

108、根据最小权限原则为不同用户分配最小的工作权限,从而降低用户的信息安全管理风险。RAM 授权策略可以细化到对某个 API-Action 和 Resource-ID 的细粒度授权,还可以支持多种限制条件(例如,源 IP 地址、安全访问通道 SSL/TLS、访问时间、多因素认证等)。常见的提升账号的安全措施有下面的手段:a)开启 MFA 多因素账号认证 建议账号启用 MFA 多因素认证,即在用户名和密码(第一层安全要素)的基础上,增加了 MFA 安全码(第二层安全要素,MFA 设备生成的动态验证码),以此提高账号安全性。b)使用 RAM 子账号而不是主账号并合理设置资源安全隔离 确保用户访问 ECS

109、 资源使用最小使用权限,避免共享账号或是过于宽泛的授权。通过使用访问控制 RAM(Resource Access Management),建议禁止直接使用主账号进行资源操作,可创建 RAM 子用户(组)并授予特定权限策略实现在账号维度上 七、安全和合规能力 Security 58 对云服务器 ECS 资源进行细粒度的访问控制。同时为了限制发起调用的子账号的网络范围,可以设置公网支持访问的 CIDR 地址。用户:如果您购买了多台云服务器 ECS 实例,您的组织里有多个用户(如员工、系统或应用程序)需要使用这些实例,您可以创建多个子用户并通过授权的方式使部分用户能够有权使用这些实例,避免了将同一个

110、 AccessKey 泄露给多人的安全风险。用户组:您可以创建多个用户组,并授予不同权限策略,起到批量管理的效果。用户组的策略:?SysAdmins:该用户组需要创建和管理的权限。您可以给 SysAdmins 组授予一个权限策略,该策略授予用户组成员执行所有 ECS 操作的权限,包括ECS 实例、镜像、快照和安全组等。?Developers:该用户组需要使用实例的权限。您可以给 Developers 组授予一个权限策略,该策略授予用户组成员调用 DescribeInstances、StartInstance、StopInstance、RunInstance 和 DeleteInstance 等

111、权限。c)云产品 API 调用使用实例角色而不是 AK 实例 RAM 角色(推荐使用加固模式访问元数据)允许您将一个角色关联到 ECS 实例,在实例内部基于 STS(Security Token Service)临时凭证(临时凭证将周期性更新)访问其他云产品的 API。一方面可以保证 AccessKey 安全,另一方面也可以借助 RAM 实现权限的精细化控制和管理。一般情况下,ECS 实例的应用程序是通过用户账号或者 RAM 用户的 AccessKey 访问阿里云各产品的 API。为了满足调用需求,需要直接把 AccessKey 固化在实例中,如写在配置文件中。但是这种方式权限过高,存在泄露信

112、息和难以维护等问题。因此,阿里云推出了实例RAM 角色解决这些问题。d)AK 防泄密 阿里云账号 AccessKey 是客户访问阿里云 API 的密钥,请务必妥善保管。请勿通过任何方式(如 Github 等)将 AccessKey 公开至外部渠道,以免被恶意利用而造成 七、安全和合规能力 Security 59 安全威胁。AccessKey 泄露会威胁所有资源的安全,可以有效降低 AccessKey 泄露的风险。AK 信息使用安全建议 在使用阿里云产品过程中需要用户遵循以下几点安全规范,降低凭证泄漏造成的影响:不要将 AccessKey 嵌入代码中 定期轮换 AccessKey 定期吊销不需要

113、的 AccessKey 遵循最小权限原则,使用 RAM 账户 开启操作日志审计,并将其投递至 OSS 和 SLS 长期保存和审计 可以开启 acs:SourceIp 限定公网 IP 网段访问阿里云 API 通过设置 acs:SecureTransport 取值为 true,表示通过 HTTPS 方式访问阿里云 e)账密管理安全建议 云账号?管理员账号必须开启 MFA 认证。?账号分级权限设置,最小权限授权原则。?禁用 root 账号访问 API 或常用请求方法。?建议使用服务目录集中身份管理。秘钥凭据?过期的证书、凭据禁止使用。?根账号需删除访问秘钥。?30 天以上不再使用的秘钥、凭据定期清理

114、。?秘钥、凭据最新使用情况监控。?定期自动扫描您的 GIT 仓库和历史记录排查秘钥泄露可能。密码?密码复杂性与到期提醒,密码强度校验。七、安全和合规能力 Security 60?密码复杂度策略强制实施。?设置与其他平台不一致的复杂账密,避免被社工风险。?建议 AK 以及其他账密信息使用 KMS 安全托管,避免明文落盘存储。?主机上不同账号间不应共享密码或秘钥对。机密信息使用 KMS 安全加固托管 机密数据明文落盘存储会导致泄漏风险,建议您提前开通密钥管理服务,无需自行研发和运维密码设施,即可在云服务中使用数据加密功能,例如在云服务器 ECS 中使用云盘加密、实例可信启动等功能。2)实例内 Gu

115、estOs 应用系统安全 a)实例登陆安全配置 实例登陆权限控制?登陆账号权限默认非root权限,需用户在本地通过su或sudo提权至root,默认状态不支持 root 直接使用 pem 密钥文件登录。?建议使用安全的访问控制协议访问 ECS 主机,并根据镜像类型选择不同的登录凭证:Linux 系统:建议配置只支持 rsa 密钥对的方式登录,不支持在控制台创建口令。Windows系统:使用8位以上包含特殊字符的复杂密码作为登录凭证。Linux 实例:默认非 root 账号登陆与设置秘钥对登陆实例 默认非 root 账号登陆实例 如果您使用系统用户 root 登录 Linux 操作系统的 ECS

116、 实例,则可以获取系统最高权限。该方式虽然便于您进行系统运维操作,但如果 ECS 实例被入侵,则会存在影响严重的数据安全风险。建议用户使用公共云镜像:Anolis OS 8.4 或 Ubuntu 20.04,该版本镜像支持设置普通用户 ecs-user 作为登录名,其他镜像版本会陆续支持设置普通用户 ecs-user登录实例。七、安全和合规能力 Security 61 实例非 root 账号登录 使用临时下发的 SSH 密钥对连接 linux 实例 ECS 推荐使用 config_ecs_instance_connect 插件,可以将 SSH 公钥发送到指定实例内部供指定用户使用,密钥保留 6

117、0s。在 60s 内,您可以通过 SSH 公钥登录的方式进入实例,无需输入密码。SSH 密钥对通过加密算法生成一对密钥,默认采用 RSA 2048 位的加密方式。相较于用户名和密码认证方式,SSH 密钥对有以下优势:?安全性,SSH 密钥对登录认证更为安全可靠。?密钥对安全强度远高于常规用户口令,可以杜绝暴力破解威胁。?不可能通过公钥推导出私钥。?便捷性。?如果您将公钥配置在 Linux 实例中,那么,在本地或者另外一台实例中,您可以使用私钥通过 SSH 命令或相关工具登录目标实例,而不需要输入密码。?便于远程登录大量 Linux 实例,方便管理。如果您需要批量维护多台 Linux实例,推荐使

118、用这种方式登录。建议配置 sshd_config 默认禁止密码登陆只支持 rsa 密钥对的方式登录。ssh 配置文件中修改关于密码登录的配置选项。Windows 实例:设置复杂的密码与定期更换 弱口令一直是数据泄露的一个大症结,因为弱口令是最容易出现的也是最容易被利用的漏洞之一。服务器的口令建议至少 8 位以上,从字符种类上增加口令复杂度,如包含大小写字母、数字和特殊字符等,并且要不定时更新口令,养成良好的安全运维习惯。七、安全和合规能力 Security 62 ECS 设置为强密码:8-30 个字符,必须同时包含三项(大写字母、小写字母、数字、()!#$%&*_-+=|:;,.?/中的特殊符

119、号),其中 Windows 实例不能以斜线号(/)为首字符。b)服务端口保护 服务器给互联网提供服务的同时会暴露对应的服务端口。从安全管理的角度来说,开启的服务端口越多,越不安全。建议只对外提供必要的服务端口,并修改常见端口为高端口(30000 以后),再对提供服务的端口做访问控制。例如:数据库服务尽量在内网环境使用,避免暴露在公网。如果必须要在公网访问,则需要修改默认连接端口 3306 为高端口,并根据业务授权可访问的客户端地址。c)避免服务弱口令 如果您的服务器使用弱口令登录,黑客可能会非法登录您的服务器,窃取服务器数据或破坏服务器。建议您为服务器设置复杂的登录口令,并定期提升登录口令的安

120、全性。口令提升办法:设置复杂密码。不使用常见或公开的弱口令。定期修改密码。常见系统的登录弱口令的操作防范,具体方法请参见修改常见的服务器弱口令。d)使用 IDaaS 认证应用系统身份权限 云身份服务 IDaaS(英文名:Alibaba Cloud IDentity as a Service,简称 IDaaS)是阿里云为企业用户提供的云原生的、经济的、便捷的、标准的身份、权限管理体系。IDaaS 提供一站式组织架构、账户全生命周期管理、应用接入实现单点登录(SSO),并控制账号所具备的权限等能力。七、安全和合规能力 Security 63 e)数据传输加密 配置安全组或防火墙,确保仅允许 ECS

121、 实例和 API 终端节点或其他敏感远程网络服务之间的加密连接,可使用传输层安全性(TLS1.2 及以上版本)等加密协议加密在客户端和实例之间传输的敏感数据。f)日志异常监控与审计 根据 FireEye M-Trends 2018 报告,企业安全防护管理能力薄弱,尤其是亚太地区。全球范围内企业组织的攻击从发生到发现所需时长平均 101 天,而亚太地域平均需要 498 天。企业需要长期、可靠、无篡改的日志记录与审计支持来持续缩短这个时间。建议您(客户)使用云监控、操作审计、日志审计、VPC 流日志、应用日志等构建一套异常资源、权限访问监控告警体系,对及时发现问题与止损,对优化安全防御体系有至关重

122、要的意义:使用云监控设置账单报警,防止 DDOS 攻击。使用操作审计 ActionTrail 监控未授权的访问、识别潜在安全配置错误、威胁或意外行为,也用于支持质量流程、法律或合规义务,还可以用于威胁识别和响应工作,请使用 MFA 限制 ActionTrail 访问权限。启用配置 VPC 流日志记录 VPC 网络中弹性网卡 ENI 传入和传出的流量信息,使用 Flowlog 日志中心用于 VPC 的策略统计、弹性网卡流量统计以及网段间流量统计,帮助您快速、有效地分析 VPC 流日志。使用日志审计服务,日志服务提供一站式数据采集、清洗、分析、可视化和告警功能,支持日志服务相关场景:DevOps、

123、运营、安全、审计。跟踪应用事件日志、Api 调用日志。所有日志定期同步 SLS、OSS 长期保存,并设置好访问权限。添加实例 ID、地域、可用区、环境(测试、生产)附加信息到日志中存储,便于排查问题。七、安全和合规能力 Security 64 3)网络环境安全 云计算利用虚拟网络(Virtual Private Cloud,简称 VPC),来抽象物理网络并创建网络资源池,实现数据链路层的隔离,为每个用户提供一张独立隔离的安全网络环境。不同 VPC 之间内部网络完全隔离,只能通过对外映射的 IP 互连。在 VPC 内部,用户可以自定义 IP 地址范围、网段、路由表和网关等;此外,用户可以通过 V

124、PN 网关、高速通道物理专线、智能接入网关等服务将本地数据中心和云上VPC 打通,也可以通过云企业网实现全球网络互通,从而形成一个按需定制的网络环境,实现应用的平滑迁移上云和对数据中心的扩展。此外,网络是所有云服务的唯一入口,网络攻击是种类最多、危害最大,也是最难防护的风险之一。云计算平台会提供一套成熟的网络安全架构,以应对来自互联网的各种威胁。在阿里云上,可以通过安全组、网络 ACL、路由策略或网络专线来控制虚拟网络的访问权限。除了对内网网络访问的控制之外,还需要配置云防火墙、应用程序防火墙、DDoS 防护等安全措施,针对各种外部网络安全威胁,进行安全防护。云上网络安全防御架构示例 七、安全

125、和合规能力 Security 65 a)网络资源隔离安全建议 建立网络管理员,统一管理安全组、网络 ACL 以及流量日志。使用 ACL 限制不需要公开的任何内容。网络资源隔离,预设置较大子网,避免子网重叠使用。围绕访问点而不是资源配置安全组。定期重新访问安全组以优化规则。b)搭建实例安全的网络环境 合理设置安全组,网络隔离减少攻击面。安全组是重要的网络安全隔离手段,用于设置单台或多台云服务器的网络访问控制。通过设置安全组规则,可以在网络层过滤服务器的主动/被动访问行为,限定服务器对外/对内的端口访问,授权访问地址,从而减少攻击面,保护服务器的安全。以下是安全组实践的安全建议:最小原则白名单开放

126、 安全组应该是白名单性质的,所以需尽量开放和暴露最少的端口,同时尽可能少地分配公网 IP。避免设置 0.0.0.0/0 授权对象 允许全部入网访问是经常犯的错误。使用 0.0.0.0/0 意味着所有的端口都对外暴露了访问权限。这是非常不安全的。正确的做法是,先拒绝所有的端口对外开放。安全组应该是白名单访问。筛查潜在高危安全组 安全组规则设置不当会造成严重的安全隐患。阿里云会定期检查您的安全组,如果安全组规则对特定端口的访问不做限制,就会产生预警。您可以使用潜在高危安全组概览发现不合理的安全组规则,通过修改安全组规则保证 ECS 实例的网络安全。七、安全和合规能力 Security 66?关闭不

127、需要的入网规则?以安全组为授权对象添加规则 不同的安全组按照最小原则开放相应的出入规则。对于不同的应用分层应该使用不同的安全组,不同的安全组应有相应的出入规则。经典网络的内网安全组规则不要使用 CIDR 或者 IP 授权 对于经典网络类型的 ECS 实例,阿里云默认不开启任何内网的入规则。内网的授权一定要谨慎。?定义合理的安全组名称和标签 合理的安全组名称和描述有助于您快速识别当前复杂的规则组合。将需要互相通信的 ECS 实例加入同一个安全组 一个 ECS 实例最多可以加入 5 个安全组,而同一安全组内的 ECS 实例之间是网络互通的。安全组内实例间隔离 安全组是一种虚拟防火墙,具备状态检测和

128、包过滤功能。安全组由同一个地域内具有相同安全保护需求并相互信任的实例组成。为了满足同安全组内实例之间网络隔离的需求,阿里云丰富了安全组网络连通策略,支持安全组内实现网络隔离。使用安全组五元组规则 安全组用于设置单台或多台 ECS 实例的网络访问控制,它是重要的网络安全隔离手段,用于在云端划分安全域。安全组五元组规则能精确控制源 IP、源端口、目的 IP、目的端口以及传输层协议。公网服务的云服务器和内网服务器尽量属于不同的安全组 是否对外提供公网服务,包括主动暴露某些端口对外访问(例如 80、443 等),被动地提供端口转发规则(例如云服务器具有公网 IP、EIP、NAT 端口转发规则等),都会

129、导致自己的应用可能被公网访问到。七、安全和合规能力 Security 67?合理配置安全域,隔离企业内部不同安全等级服务 您可以基于 VPC 专有网络,构建自定义专属网络,隔离企业内部不同安全级别的服务器,避免互通网络环境下受其他服务器影响。建议您创建一个专有网络,选择自有 IP 地址范围、划分网段、配置路由表和网关等。然后将重要的数据存储在一个跟互联网网络完全隔离的内网环境,日常可以用弹性 IP(EIP)或者跳板机的方式对数据进行管理。具体步骤请参见创建专有网络。?使用跳板机或堡垒机,防御内部和外部入侵破坏 跳板机由于其自身的权限巨大,需要通过工具做好审计记录,建议直接使用堡垒机,保障网络和

130、数据不受来自外部和内部用户的入侵和破坏,同时运用各种技术手段监控和记录运维人员对网络内的服务器、网络设备、安全设备、数据库等设备的操作行为,以便集中报警、及时处理及审计定责。使用跳板机 SSH 时,建议您优先使用 SSH 密钥对而不是密码登录。?公网 IP 合理分配,降低公网攻击风险 不论是经典网络还是专有网络(VPC)中,合理的分配公网 IP 可以让系统更加方便地进行公网管理,同时减少系统受攻击的风险。在专有网络的场景下,创建虚拟交换机时,建议您尽量将需要公网访问的服务区的 IP 区间放在固定的几个交换机(子网 CIDR)中,方便审计和区分,避免不小心暴露公网访问。在分布式应用中,大多数应用

131、都有不同的分层和分组,对于不提供公网访问的云服务器尽量不提供公网 IP,如果是有多台服务器提供公网访问,建议您配置公网流量分发的负载均衡服务来公网服务,提升系统的可用性,避免单点。对于不需要公网访问的云服务器尽量不要分配公网 IP。专有网络中当您的云服务器需要访问公网的时候,优先建议您使用 NAT 网关,用于为 VPC 内 七、安全和合规能力 Security 68 无公网 IP 的 ECS 实例提供访问互联网的代理服务,您只需要配置相应的SNAT 规则即可为具体的 CIDR 网段或者子网提供公网访问能力,具体配置参见 SNAT。避免因为只需要访问公网的能力而在分配了公网 IP(EIP)之后也

132、向公网暴露了服务。4)信息数据安全 a)使用高安全要求业务使用增强计算实例 如果您的业务面向高安全可信要求的场景,可以使用安全增强型实例,保障实例可信启动和实例中隐私数据的安全。支持 Intel SGX 加密计算,支持加密内存,保障关键代码和数据的机密性与完整性不受恶意软件的破坏。依托 TPM/TCM 芯片,从底层服务器硬件到 GuestOS 的启动链均进行度量和验证,实现可信启动。b)使用更安全的镜像 使用满足三级等保合规镜像 阿里云根据国家信息安全部发布的GB/T22239-2019 信息安全技术网络安全等级保护基本要求中对操作系统提出的一些等级保护要求,推出自研云原生操作系统Alibab

133、a Cloud Linux 等保 2.0 三级版镜像。您使用本镜像无需额外配置即可满足以下等保合规要求:?身份鉴别?访问控制?安全审计?入侵防范?恶意代码防范 使用公共镜像开启镜像安全加固 使用官方提供的公共镜像,可开启公共实例镜像安全加固能力,该安全加固能力提供网站漏洞检查、云产品安全配置检查、主机登录异常告警等安全功能。七、安全和合规能力 Security 69 使用加密的自定义镜像 避免镜像丢失后数据泄露风险,请使用国际标准认证的 AES-256 算法对镜像进行加密。用户可选择创建加密的系统盘、数据盘,若云盘是加密云盘,使用该云盘创建的快照也是加密镜像,或对已有的未加密镜像拷贝时选择加密

134、,生成的新镜像为加密镜像。若自定义加密镜像需要共享其他云账号时,建议用户为共享加密镜像创建独立的BYOK 密钥,避免 KMS 密钥泄露导致安全风险。c)云盘数据加密(需开启 KMS)选择云盘数据加密,能够最大限度保护您的数据安全,您的业务和应用程序无需做额外的改动。同时该云盘生成的快照及这些快照创建的云盘将自动延续加密属性。数据加密适用于数据安全或法规合规等场景,帮助您加密保护存储在阿里云 ECS 上的数据。无需自建和维护密钥管理基础设施,您就能保护数据的隐私性和自主性,为业务数据提供安全边界,被加密的云盘可以是系统盘和数据盘。阿里云官网随实例选购加密云盘页面 d)快照容灾备份 数据备份是容灾

135、的基础,可以降低因系统故障、操作失误以及安全问题而导致数据丢失的风险。ECS 自带的快照功能可满足大部分用户数据备份的需求。您可根据自身业务需求选择创建快照的方式。具体步骤请参见手动创建快照和执行或取消自动快照策略。七、安全和合规能力 Security 70 建议您每日创建一次自动快照,每次快照至少保留 7 天,养成良好的备份习惯,在故障发生时可以迅速恢复重要数据,减少损失。阿里云官网快照服务选购页面 e)使用加密的快照 ECS 加密采用行业标准的 AES-256 加密算法,利用密钥加密快照,避免快照丢失后数据泄露风险。用户可选择创建加密的云盘,若云盘是加密云盘,使用该云盘创建的快照也是加密快

136、照,或对已有的未加密快照拷贝时选择加密,生成的新快照为加密快照。f)加固模式下访问实例元数据 加固模式下,实例和实例元数据服务器间建立一个会话,并在查看实例元数据时通过 token 验证身份,超过有效期后关闭会话并清除 token。token 具有以下特点:仅适用于一台实例。如果将 token 文件复制到其它实例使用,会被拒绝访问。必须定义 token 有效期,范围为 1 秒21600 秒(6 小时)。在有效期内可以重复使用,方便您平衡安全性和用户体验。不接受代理访问,如果创建 token 的请求中包含 X-Forwarded-For 标头,则拒绝签发 token。不限制向实例签发的 toke

137、n 数量。5)应用安全防护 网络流量攻击防护:基础 DDOS 防御(免费)与 DDOS 高防 DDoS(Distributed Denial of Service,即分布式拒绝服务)攻击指借助于客户/服务器技术,联合多个计算机作为攻击平台,对一个或多个目标发动攻击,成倍地提高拒绝服务攻击的威力,影响业务和应用对用户提供服务。七、安全和合规能力 Security 71 阿里云云盾可以防护 SYN Flood、UDP Flood、ACK Flood、ICMP Flood、DNS Flood、CC 攻击等 3 到 7 层 DDoS 的攻击。DDoS 基础防护免费提供高达 5GB 的默认 DDoS防护

138、能力。ECS 实例默认开启 DDoS 基础防护服务。使用 DDoS 基础防护服务,无需采购昂贵清洗设备,受到 DDoS 攻击时不会影响访问速度,带宽充足不会被其他用户连带影响,保证业务可用和稳定。ECS 实例创建后,您可以设置清洗阈值,具体步骤请参见设置清洗阈值。在此基础上,阿里云推出了安全信誉防护联盟计划,将基于安全信誉分进一步提升DDoS 防护能力,您可获得高达 100GB 以上的免费 DDoS 防护资源。您可以在云盾DDoS 基础防护控制台中查看您账号当前的安全信誉分以及安全信誉详情和评分依据。详情请参见安全信誉防护联盟。对DDOS防御有更高要求的可购买DDOS高防。系统漏洞攻击防护:云

139、安全中心(基础版免费)接入云安全中心。云安全中心是一个实时识别、分析、预警安全威胁的统一安全管理系统,通过防勒索、防病毒、防篡改、合规检查等安全能力,实现威胁检测、响应、溯源的自动化安全运营闭环,保护云上资产和本地主机并满足监管合规要求。Agent 插件是云安全中心提供的本地安全插件,您必须在要防护的服务器上安装该插件才能使用云安全中心的服务。如何安装 Agent 插件,请参见安装 Agent。云安全中心自动为您开通基础版功能。基础版仅提供主机异常登录检测、漏洞检测、云产品安全配置项检测,如需更多高级威胁检测、漏洞修复、病毒查杀等功能,请登录云安全中心控制台。系统漏洞问题是长期存在的安全风险,

140、可以通过系统补丁程序,或者安骑士补丁修复。Windows 系统需要一直开启补丁更新,Linux 系统要设置定期任务,通过执行yum update-y 来更新系统软件包及内核。安骑士如何修复漏洞,请参见安骑士补丁管理。云盾旗下的安骑士产品具有识别并防御非法破解密码行为的功能,避免被黑客入侵,批量维护服务器安全。安骑士能针对服务器应用软件安全方面提供配置检测和修复方案,提高服务器安全强度。详细功能介绍请参见安骑士产品功能列表。七、安全和合规能力 Security 72 应用漏洞攻击防护:云盾 Web 防火墙 云盾 Web 应用防火墙(Web Application Firewall,简称 WAF)

141、基于云安全大数据能力实现,通过防御 SQL 注入、XSS 跨站脚本、常见 Web 服务器插件漏洞、木马上传、非授权核心资源访问等 OWASP 常见攻击,过滤海量恶意 CC 攻击,避免您的网站资产数据泄露,保障网站的安全与可用性。接入 Web 应用防火墙的好处如下:?无需安装任何软、硬件,无需更改网站配置、代码,它可以轻松应对各类 Web应用攻击,确保网站的 Web 安全与可用性。除了具有强大的 Web 防御能力,还可以为指定网站做专属防护。适用于在金融、电商、o2o、互联网+、游戏、政府、保险等各类网站的 Web 应用安全防护上。?如果缺少 WAF,只有前面介绍的防护措施,会存在短板,例如在面

142、对数据泄密、恶意 CC、木马上传篡改网页等攻击的时候,不能全面地防护,可能会导致 Web 入侵。接入 Web 应用防火墙的具体步骤,请参见部署 WAF 防护。6)应用资源管理 规模化、自动化运维与审计云上资源,避免因低级错误的配置变更造成出现“例外”或单点资产保护遗漏情况。建议您(客户)统一实例、安全组的命名安全与部署约定,统一命名规范,定期检测、提醒或删除不符合命名规范的安全组、实例。使用 Tag 标签规模化管理资源,使用云助手自动化运维资源通道,使用配置审计 Config 对资源进行合规审计,使用应用配置管理 ACM 集中管理所有应用配置。Tag 标签 标签可以标记资源,允许企业或个人将相

143、同作用的云服务器 ECS 资源归类,便于搜索和资源聚合:?使用 Tag 规模化识别、分类、定位云资源的管理与计费。七、安全和合规能力 Security 73?使用自动化工具管理 Tag 标签,从而更轻松地自动管理、搜索和过滤标签和资源。云助手 传统的运维通道需要借助 SSH 取得密钥进行管理,并开放相应的网络端口,密钥管理不当以及网络端口暴露都会对云上资源带来很大的安全隐患。云助手是专为云服务器 ECS 打造的原生自动化运维工具,通过免密码、免登录、无需使用跳板机的形式,在 ECS 实例上实现批量运维、执行命令(Shell、Powershell和 Bat)和发送文件等操作。典型的使用场景包括:

144、安装卸载软件、启动或停止服务、分发配置文件和执行一般的命令(或脚本)等。可以帮助客户安全、高效的运维云上资源。通过云助手,可以在云服务器 ECS 上实现批量运维、执行命令和发送文件等操作;通过云助手Session Manager,可以交互式运维 ECS 实例。以上运维操作都无需密码,无需登录,ECS 实例不需要使用公网,也不需要通过跳板机,通过云助手以下安全机制保证运维通道的安全性:?权限控制:云助手通过 RAM 策略,从实例、资源组、标签、源 IP 地址等多个维度控制用户对实例的访问权限。只有具有权限的用户才能通过云助手通道运维 ECS 实例。?链路可靠:全链路采用 Https 协议进行交互

145、,传输过程中对数据进行加密。ECS 实例入方向采用内部安全管控链路,无需用户开放端口,降低被入侵的风险;出方向通过内网进行通信,无需暴露公网即可使用。?内容安全:通过云助手通道传输的命令内容,通过加密及签名校验的方式,确保传输过程中无法被篡改,保证命令内容的安全性。?日志审计:通过云助手通道传输的命令、文件都可以通过 API 进行审计,用户可以查询执行的时间、身份、执行内容、执行结果等信息。同时支持将日志投递到存储(OSS)或日志(SLS)等系统中,提供日志归档、分析能力。七、安全和合规能力 Security 74 配置审计 Config 配置审计 Config 是面向云上资源的审计服务,为用

146、户提供跨区域的资源清单和检索能力,记录资源的历史配置快照,形成配置时间线。当资源发生配置变更时,自动触发合规评估,并针对“不合规”配置发出告警。使用户能够实现对于海量云上资源合规性的自主监控,应对企业内部和外部合规的需要。应用配置管理 ACM 应用配置管理 ACM(Application Configuration Management)是一款在分布式架构环境中对应用配置进行集中管理和推送的产品。凭借配置变更、配置推送、历史版本管理、灰度发布、配置变更审计等配置管理工具,ACM 能帮助您集中管理所有应用环境中的配置,降低分布式系统中管理配置的成本,并降低因错误的配置变更造成可用性下降甚至发生故

147、障的风险。4.云安全成熟度模型 七、安全和合规能力 Security 75 如果您希望对所在企业的安全与合规能力成熟度进行评估,建议至第十章“成熟度自评”。5.工具推荐 1)阿里云在安全和合规方面主要相关产品 安全组 安全组是阿里云提供的实例级别虚拟化防火墙,具备状态检测和数据包过滤功能,可用于在云端划分各个 ECS 实例(在容器服务中,即各个容器集群)间的安全域。安全组是一个逻辑上的分组,这个分组是由同一个地域(Region)内具有相同安全保护需求并相互信任的实例组成。使用安全组可设置单台或多台云服务器的网络访问控制,它是重要的网络安全隔离手段,用于在云端划分网络安全域。配置严格的安全组访问

148、权限,是最简单直接的防范网络攻击、屏蔽恶意流量的方式。网络 ACL 网络 ACL 是专有网络 VPC 中的网络访问控制功能。您可以自定义设置网络 ACL 规则,并将网络 ACL 与交换机绑定,实现对交换机中云服务器 ECS 实例流量的访问控制。网络 ACL 是在 VSW 粒度对进出 VSW 的流量做检测和数据包过滤。云防火墙 云防火墙在安全组、网络 ACL 功能的基础上提供了补充,为构建网络安全环境提供了更好的“深层防御”。安全组、网络 ACL 提供分布式网络层流量过滤,以限制每个订阅中虚拟网络内资源的访问流量。如果用户需要跨虚拟网络,启用某些应用程序级别的保护时,则需要使用云防火墙服务。阿里

149、云云防火墙是业界首款公共云环境下的 SaaS 化防火墙,可以统一管理互联网到业务的南北向访问策略,以及业务与业务之间的东西向微隔离策略。通过云防火墙,用户可以对南北向和东西向访问的网络流量进行分析,并支持全网流量(互联网访问流量、安全组间流量等)可视化,并支持对主动外联行为的分析和阻断。七、安全和合规能力 Security 76 云防火墙还集成了入侵检测(IPS)功能和威胁情报能力,并支持入侵检测分析。同时,云防火墙支持网络流量及安全事件日志存储功能,默认保存 6 个月的安全事件日志、网络流量日志及防火墙操作日志,满足网安法和等保 2.0 的相关要求。Web 应用防火墙 WAF Web 应用防

150、火墙(WAF),云防火墙为所有端口和协议提供网络级别的保护,Web应用程序防火墙(WAF)是应用程序网关的一项功能,为您的网站或 App 业务提供一站式安全防护。WAF 可以有效识别 Web 业务流量的恶意特征,在对流量进行清洗和过滤后,将正常、安全的流量返回给服务器,避免网站服务器被恶意入侵导致服务器性能异常等问题,保障网站的业务安全和数据安全。DDoS 防护 阿里云使用自主研发的 DDoS 防护系统保护所有数据中心,支持防护全类型 DDoS攻击,并通过 AI 智能防护引擎对攻击行为进行精准识别和自动加载防护规则,保证网络的稳定性。同时,阿里云的 DDoS 防护系统支持通过安全报表实时监控风

151、险和防护情况。操作审计 ActionTrail 操作审计(ActionTrail)为用户提供统一的云资源操作安全日志管理,记录云账号下的用户登录及资源访问操作,包括操作人、操作时间、源 IP 地址、资源对象、操作名称及操作状态。利用 ActionTrail 保存的操作记录,用户可以实现安全分析、入侵检测、资源变更追踪以及合规性审计。为了满足用户的合规性审计需要,用户往往需要获取主账户和其子用户的详细操作记录。ActionTrail 所记录的操作事件可以满足此类合规性审计需求。配置审计 Config 配置审计 Config 是面向云上资源的审计服务,为用户提供跨区域的资源清单和检索能力,记录资源

152、的历史配置快照,形成配置时间线。当资源发生配置变更时,自 七、安全和合规能力 Security 77 动触发合规评估,并针对“不合规”配置发出告警,使用户能够实现对于海量云上资源合规性的自主监控,应对企业内部和外部合规的需要。日志审计服务 在继承现有日志服务所有功能外,阿里云还支持多账户下实时自动化、中心化采集云产品日志并进行审计,以及支持审计所需的存储、查询及信息汇总。日志审计服务覆盖基础(ActionTrail、容器服务 Kubernetes 版)、存储(OSS、NAS)、网络(SLB、API 网关)、数据库(关系型数据库 RDS、云原生分布式数据库 PolarDB-X1.0、云原生数据库

153、 PolarDB)、安全(WAF、DDoS 防护、云防火墙、云安全中心)等产品,并支持自由对接其他生态产品或自有 SOC 中心。云助手 云助手是专为云服务器 ECS 打造的原生自动化运维工具,通过免密码、免登录、无需使用跳板机的形式,在 ECS 实例上实现批量运维、执行命令(Shell、Powershell和 Bat)和发送文件等操作。典型的使用场景包括:安装卸载软件、启动或停止服务、分发配置文件和执行一般的命令(或脚本)等。访问控制 RAM 访问控制 RAM 使您能够安全地集中管理对阿里云服务和资源的访问。您可以使用 RAM 创建并管理子用户和用户组,并通过权限管控他们对云资源的访问。云安全

154、中心 云安全中心是一个实时识别、分析、预警安全威胁的统一安全管理系统,通过防勒索、防病毒、防篡改、合规检查等安全能力,实现威胁检测、告警响应、攻击溯源的自动化安全运营闭环,保护您的云上资产和本地服务器安全,并满足监管合规要求。应用配置管理 ACM 应用配置管理(Application Configuration Management,简称 ACM)是一款在分布式架构环境中对应用配置进行集中管理和推送的产品。七、安全和合规能力 Security 78 2)阿里云产品和能力与业界工具对照表 八、成本和资源量化管理能力 Cost 79 八、成本和资源量化管理能力 Cost 1.成本管理能力的基本概念

155、 企业自建 IDC 是一个重资产长周期的过程,整个采购、部署周期以周或月为单位计算,同时企业需要对相应 IT 设备的整个生命周期负责,除了经济成本,还需要付出较大的时间成本和人力成本。而使用云服务,企业进入了一个全新的消费模式:按需使用、按量付费、运维标准化和自动化。从云服务商的视角,随着云计算规模的不断扩大,其自身的边际成本在不断降低,企业在云上也可以进一步享受到云计算的规模红利。因此从宏观上看,使用云服务会大幅降低企业在 IT 方面的经济成本、时间成本、人力成本。需要注意的是,在云上的按需使用的消费模式给企业的组织管理带来新的挑战,自建 IDC 模式是一次性采购一次性支出,云上变成了实时的

156、按需采购与支出,对运维,财务、技术、产品团队的协作模式有了新的要求。FinOps 基金会给出的 FinOps 定义里认为“云上成本管理是由技术与运维、产品与业务、财务与采购等多个团队在数据驱动的支出决策上进行协作,使企业能够获得最大的业务价值”。不同的团队侧重点会不一样,下面概述不同团队视角所需要重点关注的内容:技术与运维 需重点关注云资源使用的灵活性、性价比以及资源利用率。产品与业务 需重点关注云资源本身的成本以及使用效率以便业务的高效扩展与迭代。财务与采购 需重点关注业务团队的云资源预算,各业务团队云资源成本的分析,云资源成本异常的监控。2.成本管理能力的业务价值 Flexera 2022

157、 年云状态报告数据显示:受访企业认为他们云开支里有 32%是浪费的,高于去年的 30%。中国信息通信研究院的云 MSP 服务发展调查报告显示:云优化 八、成本和资源量化管理能力 Cost 80 能力成为企业选择云管理服务商时考虑的重要因素,其中,容量和成本优化、云上应用性能优化成为企业云管理的首要需求。云上有丰富的资源计费方式,例如云上特有的抢占式实例可以低至 1 折;丰富的资源规格,例如云上特有的突发性能实例成本低廉,非常适合轻量级 web 应用、开发/测试环境等低性能负载业务场景;云上提供了多种提升资源利用率的方法,例如开启节省停机模式后在停机期间不收取计算资源费用。因此,从技术、产品团队

158、角度看,选择合适的资源计费方式、资源规格类型、提升资源利用率都是可以有效降低成本的。从财务角度看,预算管理、成本分析是非常基础的诉求,这些在云上应当如何使用是需要重点关注的。综上,本章节将从资源计费方式选型、资源规格选型、提升资源利用率、成本分析与监控角度来说明云上成本管理的方法。云上成本管理四大维度 1)资源计费方式选型 以云服务器为例,它的资源成本主要由计算、存储、网络三大部分构成。在云上,针对每部分,一般会提供丰富的计费方式,不同的计费方式背后是成本低廉性(简称经济性)、使用灵活性、资源确定性三者的平衡。通常,云上计算资源从产品形态看一般有三种:包年包月、按量付费、抢占式实例,其中包年包

159、月为国内云厂商特有的形态。三种产品形态对应了不同的产品能力,如包年包月费用低但一般会对降配、释放(退订)等做一定的限制,因此会丧失一定的灵活性,同时从团队的视角看,包年包月这种付费方式,财务团队与运维团队是强耦合的。例如退订一台包年包月的实例后再重新创建一台相同或相近配置的包年包月实例,这是运维很朴素的需求,然而整个流程里都要依赖财务团队;按量付费拥有最强的 八、成本和资源量化管理能力 Cost 81 灵活性,可以随意创建释放升降配,但费用较高;抢占式实例在保护期之外随时可能被系统回收释放,资源的确定性相对较低,对应用本身兼容性要求很高,但价格相比按量付费可以低至 1 折。从付款方式看主要有三

160、种:全预付、部分预付、后付费,三种付款方式对应了不同的折扣体系,诚然,全预付可以享受更高的折扣,其他次之。按量付费的产品形态一般采用后付费的付款方式,但由于后付费费用较高,云厂商提供了预留实例(Reserved Instances)、节省计划(Savings Plans)等可抵扣后付费账单的产品,企业可以通过预付费的方式购买这些产品享受高的折扣从而降低成本,同时由于这类产品的特点是资源与账单解耦,意味着财务和运维团队可以解耦,运维可以随意创建释放资源,无需与财务打交道,因此这种按量付费的产品加上抵扣类产品搭配使用的方式可以兼顾资源的灵活性和成本的低廉性,但是需要预估好资源的使用量,避免抵扣率低

161、造成成本的浪费。为了解决按量付费产品形态下资源的确定性问题,云厂商提供了容量预留(Capacity Reservations)产品,企业购买此产品后,立刻开始以后付费的方式计费,无论何时创建资源只要能匹配到预留的容量里都确保有库存,此时只收取实例费用,不收取容量预留费用。需要注意容量预留的利用率,避免利用率太低造成成本浪费。可以看到,企业在云上针对计算资源选择适合自己业务的产品形态、付款方式是非常重要的,采用不同的方式会直接影响到资源的产品功能与成本,往往需要联合业务团队、技术团队、财务团队协作才能达到最优效果。下图总结了上述各种产品在经济性、灵活性、确定性方面的平衡情况:八、成本和资源量化管

162、理能力 Cost 82 选择合适的计费方式降低成本 企业根据实际的业务需求和应用场景,为不同类型应用的资源选择合适计费方式,才能更好地实现云上成本控制。常见的业务类型有如下四种:下面总结了不同业务类型适用的计费方式:八、成本和资源量化管理能力 Cost 83 2)资源规格选型 计算资源 计算资源从处理器类型角度看,业界典型的厂商或者架构 Intel、AMD、ARM 三种云厂商都有提供,全面覆盖企业的各种场景。从产品能力看,分为通用型、计算型、内存型、高主频型、大数据型、本地 SSD 型、GPU 型、FPGA 型、突发性能型等,计算资源规格选型是企业在成本方面需要重点关注的,只有选择适合自己业务

163、场景的规格类型,才能获得最优的性价比,如某电商网站根据自身业务特点选择计算型实例(4vCPU),相比通用型,成本降低 20%以上,再如突发性能实例成本低廉,其中的小规格非常适合轻量级 web 应用、开发/测试环境等低性能负载业务场景。另外企业在选型后,在实例运行过程中应及时监控资源的负载情况,以便及时调整到适合自己的规格。云厂商根据不同的使用场景推出了不同的实例规格,而且在不断的更新迭代,如阿里云云服务器 ECS,目前已经迭代至第七代,越新的实例意味着性价比越高,企业在选型时应尽量选择最新一代的实例。存储资源 云服务器搭配的存储资源从架构看,主要有本地盘、云盘、NFS,三者之间存在以下差异:?

164、性能和成本方面:在相同成本下,本地盘相比云盘,拥有更高的性能,但有数据丢失的风险,而云盘数据可靠性高,以阿里云云盘为例,可达 9 个 9;但 NFS 通常拥有更高的数据可靠性,以阿里云 NAS 为例,其可靠性达 11个 9,但 NAS 性能会更弱一些,相对应的成本也更低。?产品功能方面:本地盘有诸多限制,如不支持快照、不支持变配、宕机迁移不保留数据等;而云盘没有这些限制;NFS 产品能力上天然支持共享存储,这也是本地盘、云盘所不具备的。不同的存储资源拥有不同的功能、性能、成本。对于企业来说,需要根据自己的业务特点选择适合自己存储资源。八、成本和资源量化管理能力 Cost 84 3)提升资源利用

165、率 提升资源利用率也是控制成本的一种方式,企业需要充分发挥云上的弹性能力、自动化运维能力、监控能力,做到在业务需要时创建资源,在业务空闲时停止或释放闲置资源;在业务增长时升级资源规格,在业务需求下降时降低规格;提升资源利用率也包括提升资源的使用效率,效率的提升可以降低企业人工操作的成本。下面列举一些提升资源利用率的方法。提升利用率?针对抵扣类产品,如预留实例券、节省计划、容量预留等,企业需要定期关注其利用率与覆盖率,避免利用率过低造成浪费,同时若发现利用率已达到100%,要及时升级加购。云厂商一般都会提供相应的工具,企业可以在云厂商控制台进行查看与调整,或者集成云厂商提供的 OpenAPI 自

166、动化调整。?企业可以通过云厂商提供的监控工具来实时监控计算资源 CPU、内存的利用率,及时根据前面章节提到的弹性能力进行资源的水平、垂直弹性伸缩,提升利用率降低成本。若存在长期负载较低的情况,建议使用突发性能实例来降低成本。?针对按量付费实例,若非 7*24 小时提供服务,可以开启节省停机模式,开启后停机时间不收取计算资源费用,可以借助自动化运维工具来实现周期性定时开关机(开关节省停机模式)。?针对包年包月实例,若企业不再使用,可以进行退订,但云厂商通常会对退订做一定额度的限制,企业需要避免大量退订导致超出可退订额度。?针对实例的带宽,若周期性出现带宽较高的场景,可以借助自动化运维工具,定时升

167、降带宽,实时调整带宽避免浪费。提升效率?针对抢占式实例,企业参照相关使用的最佳实践,包括消费实例被系统回收释放的消息,借助诸如弹性供应等产品来实现算力集群的稳定交付,提升资源使用效率。八、成本和资源量化管理能力 Cost 85?针对包年包月实例,若企业长期使用,可以开启自动续费、也可以借助统一到期日这样的功能来提升续费效率。释放闲置资源?企业可以通过云厂商提供的监控工具来实时监控计算资源 CPU、内存、磁盘的使用率,关注是否存在资源闲置。?针对弹性公网 IP,企业需要特别关注,是否存在资源闲置,若存在应及时释放,避免付出资源占用费。值得一提的是云厂商们纷纷推出了 Advisor 产品,企业可以

168、授权 Advisor 产品定期扫描自己账号下的资源,给出安全、性能、稳定性、成本各方面的建议,企业可以依据给出的建议做优化。4)成本分析与监控 企业在云上的消费通常是跨多个云产品的,企业内部对云资源的消费通常是跨多部门的,各部门都会产生云资源的开支,而企业财务部门是需要为每笔开支负责的,因此从企业财务部门视角看,对云厂商有以下诉求:?清楚地知道企业内部各个部门每月消费了多少金额。?通过设置预算来管理各个部门的开支。?需要工具从各个维度分析自身成本,判断自身成本是否合理,是否有优化空间。?成本异常监控能力。针对以上诉求,云厂商也提供了解决方案:组织管理、预算管理、异常监控、成本分析与优化。组织管

169、理 企业财务人员可以在云厂商提供的组织管理工具里创建自己的组织,以一种目录树的形式将使用云资源的部门、团队录入。八、成本和资源量化管理能力 Cost 86 当部门使用资源的时候需要为对应的资源打上标签或资源组,之后在组织管理工具里可以设置自动分配规则,如:创建“团队 A”这样一个组织,设置一个自动分配规则:当云资源有“Key=团队”,“Value=A”的标签时,将该资源自动分配到“团队 A”这个组织里,之后就可以以“团队 A”这个组织为维度来查看相关资源所消耗的费用。预算管理 企业财务人员可以在云厂商的预算管理工具里根据上述的组织、标签、资源组等维度来设置预算,若某组织超过预算,财务人员可以收

170、到邮件提醒。异常监控 云厂商提供了异常监控能力,可以设置根据一定的条件进行每日巡检,如有消费异常可以收到邮件提醒。成本分析与优化 云厂商通常会提供一些成本分析的工具供企业使用,提供的能力有:?支持各个维度的成本分析,如:组织维度、账号维度、产品维度、账单类型维度、标签维度、地域维度等。?支持将分析时使用的条件保存下来形成一个报告/报表,将消费情况可视化,便于以后更方便地查看和分析。?根据历史消费记录,预测下一个周期的消费金额,便于企业做预算的时候参考。成本优化方面云厂商也有工具推出,即根据企业在云上消费的资源,自动分析和推荐一些优化方案,如资源闲置建议释放、资源利用率低建议降配、按量付费资源使

171、用较多时会推荐购买合适的预留实例券/节省计划等。上述成本分析与监控的能力,企业除了可以在云厂商控制台进行查看管理外,也可以把将云厂商相关财务类的 OpenAPI 对接到自己的财务系统里,更方便自主地做成本控制。八、成本和资源量化管理能力 Cost 87 3.如何衡量成本管理能力成熟度 1)如何衡量成本管理能力 企业可以通过对自身资源使用量、各类付费方式的使用情况、弹性能力的使用情况、成本分析与监控的使用情况、是否具备一定的成本预测能力等维度来衡量自身的成本管理能力,详细分级情况见下表。2)成本管理能力分级 如果您希望对所在企业的云成本和资源量化管理能力成熟度进行评估,建议至第十章“CloudO

172、ps 成熟度自评”。八、成本和资源量化管理能力 Cost 88 4.工具推荐 1)阿里云产品推荐 a)计费方式选型 计算资源 下面总结了在阿里云 ECS 各计费方式的特点与适用场景:八、成本和资源量化管理能力 Cost 89 存储资源 阿里云云服务器 ECS 依赖的块存储资源(也称之为云盘),其产品形态主要有包年包月、按量付费两种,包年包月成本低但灵活性较差,按量付费灵活性高但成本也高。需要指出前面提到的节省计划是支持抵扣按量付费云盘账单的,而前面提到的预留实例券不支持抵扣按量付费云盘账单,但阿里云提供了与预留实例券类似的可以抵扣存储资源账单的产品存储单位容量包。下面总结了各个产品的特点以及使

173、用的场景:八、成本和资源量化管理能力 Cost 90 网络资源 阿里云 ECS 网络资源的成本主要在公网 IP 与带宽上,公网 IP 分为普通公网 IP 与弹性公网 IP,普通公网 IP 的生命周期与 ECS 一致,不收取公网 IP 地址资源占用费,而弹性公网 IP 可独立于 ECS 存在,若其 IP 地址未分配到 ECS 实例上,会收取 IP 地址资源占用费,因此弹性公网 IP 如果闲置将会产生一定的成本浪费,这是值得企业关注的。带宽的计费方式分为按使用流量计费和按固定带宽计费,按使用流量计费以“元/GB”为定价单位,即实际消耗多少 GB 就付多少费用并按小时出账,按固定带宽计费支持预付费和

174、后付费两种模式,按照配置的带宽峰值进行按小时或按月按年收费,不关心实际消耗多少流量。因此企业在选择带宽计费方式的时候,需要根据自己的业务特点进行判断,若业务属于平时带宽使用较低但间歇性的出现网络访问高峰的场景,适合选择按使用流量计费,而稳定的 7*24 小时服务更适合选择按固定带宽计费。在云上,公网 IP 与带宽不止用于诸如阿里云 ECS 这种云服务,也会用在负载均衡,公网 Nat 网关等提供公网访问的产品上,针对按固定带宽计费的公网带宽,云厂商提供了共享带宽包产品,可将上述多个产品的公网带宽统一加入到共享带宽包里,由于支持预付费模式,同时多产品间带宽可以互相复用,所以可以有效降低成本,同时方

175、便统一管理和监控公网流量,利用共享带宽包提供超大峰值的带宽,也不需要担心带宽跑满。针对按使用流量计费的公网带宽,云厂商提供了共享流量包,与共享带宽包类似,企业可以通过预付费模式享受一定的折扣来降低成本。不过使用这类产品企业需要预估好自己的公网流量,避免购买过大的带宽包,使用率过低从而造成成本浪费。b)资源规格选型 计算资源选型 阿里云 ECS 所提供的的实例规格为例,下图总结了阿里云 ECS 所提供的实例规格适用的业务场景:八、成本和资源量化管理能力 Cost 91 存储资源选型 阿里云云盘、本地盘、NAS 在数据可靠性、成本、性能、产品功能等方面的对比情况:八、成本和资源量化管理能力 Cos

176、t 92 2)业界相关工具参考 Gartner 官网提供了做 IT 成本管理相关的公司,可以参见此链接。参考文档 Cloud Computing Trends:Flexera 2022 State of the Cloud Report 中国信息通信研究院:云计算白皮书 FinOps Foundation:What is FinOps 九、CloudOps 成熟度模型全景图 93 九、CloudOps 成熟度模型全景图 以下为 CloudOps 整体成熟度模型的整体概览,更详细的能力定义,可至具体能力章节查看。十、CloudOps 成熟度自评 94 十、CloudOps 成熟度自评 本章节用于

177、为读者提供一个 CloudOps 成熟度的自评体系,由于不同企业每个维度的成熟度可能不同,我们选择了讲五个维度分开来评估的方式。1.成本管理和控制评估 1)是否会根据业务的不同形态选择不同的资源付费方式,比如长期稳态业务采用类似包年包月方式购买,临时需求采用按量方式购买?A.否,业务有临时弹性需求,但暂时没有区别对待(0 分)B.否,业务没有临时弹性需求,不需要(3 分)C.是,(5 分)2)是否使用过抢占式实例?A.否,没有听说过该产品(0 分)B.否,听说过该产品,但是因为会被动释放感觉使用门槛太高(1 分)C.是,使用过该产品并在部分场景开始少量使用(3 分)D.是,有该产品,通过应用逻

178、辑适配或者自动化工具实现规模使用(5 分)3)是否使用过费用抵扣类产品(比如预留实例券、节省计划、存储容量包、共享流量包、共享带宽包等)?A.否,从没使用过(0 分)B.是,购买了一种费用抵扣类产品(3 分)C.是,购买了两种及以上的费用抵扣类产品(5 分)4)是否会做一些提升资源利用率的方法?(多选,总分为各项加起来)A.是,会周期性查看并释放闲置资源(2 分)B.是,会通过定时开关机节省费用(2 分)C.是,会依据业务需求调整到对应的实例规格(1 分)D.否(0 分)十、CloudOps 成熟度自评 95 5)是否具备根据资源的使用方对各个部门、各个云服务进行成本分析和控制?A.不具备(0

179、 分)B.部分具备(2 分)C.具备(5 分)6)目前使用的成本管理能力有哪些?(多选,总分为各项加起来)A.成本分析工具(2 分)B.预算管理工具(1 分)C.成本优化工具(2 分)D.都未使用过(0 分)7)是否具备对云上资源消耗的智能化预估能力?A.从未预估过(0 分)B.暂不需要(2 分)C.预估过,但预估与实际差别较大(3 分)D.基本都能预估准确,能严格控制(5 分)总分 35 分,评分对应等级:0 分8 分:初级 9 分15 分:中级 16 分25 分:高级 26 分34 分:标准化 35 分:智能化 十、CloudOps 成熟度自评 96 2.自动化能力评估 1)您重新部署一套

180、新环境所需要的时间?A.一个月或更久(1 分)B.一周到两周(3 分)C.一周内(4 分)D.一天或更短(5 分)2)生产环境部署的频率是多久一次?A.每月一次或更少(1 分)B.每两周一次(3 分)C.每周一次(4 分)D.每周多次(5 分)3)从代码提交后到在生产环境上部署生效所需要的时间?A.超过一周(1 分)B.一周内(3 分)C.一天内(4 分)D.按需进行,一小时内(5 分)4)使用云的主要方式?A.控制台(1 分)B.控制台+CLI(或同类产品)(3 分)C.控制台+SDK,即已集成云 API(4 分)D.控制台+CLI 或 SDK,且已后者为主(5 分)5)日常的 DevOps

181、 和 CloudOps 中,完全依赖手工完成的任务占全部运维工作的比例是多少?(预估即可)A.75%以上(1 分)B.50-75%之间(3 分)C.25-50%之间(4 分)十、CloudOps 成熟度自评 97 D.小于 25%(5 分)6)持续集成(CI)、持续部署(CD)流水线的自动化率有多高?A.全手工操作,或有少量的脚本可以辅助。(1 分)B.基本自动化,自动化比例超过 50%,但必须由手工操作才能完成从 code 到部署的全流程。(3 分)C.完全自动化。即从代码提交后,流水线是全自动化执行,只有少数的步骤需要人工审批或干预。(5 分)7)公司内有统一的作业平台?A.无(0 分)s

182、 B.有(1 分)C.有,且支持白屏化(3 分)D.有,且支持版本化,白屏化操作(5 分)8)公司有成功实施的 AIOps 场景?A.无(0 分)B.有,且小于 5 个场景。(3 分)C.有,且有或超过 5 个场景。(5 分)总分 40 分,评分对应等级:0 分9 分:初级 10 分19 分:中级 20 分29 分:高级 30 分39 分:标准化 40 分:智能化 十、CloudOps 成熟度自评 98 3.可靠性评估 可靠性主要从业务架构、数据备份、提前规避、故障恢复等多个维度进行评估。1)核心业务是否采用多可用区部署模式?A.否(0 分)B.是(5 分)2)核心业务是否具备容灾能力?A.不

183、具备(0 分)B.可用区级别容灾(可用区级别即同城跨机房)(3 分)C.地域级别容灾(地域级别即不同城的跨机房)(5 分)3)核心业务数据是否会做数据备份?A.从来不做(0 分)B.偶尔才做(1 分)C.以月为单位定期周(2 分)D.以周为单位定期做(4 分)E.每天自动做(5 分)4)您目前在业务维度的监控能力有哪些?(多选)A.没有任何监控能力(0 分)B.基础资源的基础指标监控(比如 CPU 使用率,内存使用率)(1 分)C.基础设施的异常事件监控(比如实例宕机事件)(2 分)D.应用维度的监控(比如时延、错误率等)(2 分)5)当业务出问题时,您是如何排查定位问题?A.只能查看历史监控

184、数据(1 分)B.简单业务日志或手动保留现场(2 分)C.有比较详细的问题诊断工具和链路 trace 工具(3 分)D.有现场的自动化诊断工具进行排查(5 分)十、CloudOps 成熟度自评 99 6)您的业务多久会进行一次故障演练?A.从来没有(0 分)B.每年一次(1 分)C.每半年一次(2 分)D.每月一次(3 分)E.每周一次(5 分)7)您的业务是否具备以下能力?(多选)A.业务可以自动应对流量洪峰、依赖服务质量下降等情况(2 分)B.业务部分场景可以达到故障自愈(3 分)C.具备通过 AIOps 预测故障(5 分)D.都不具备(0 分)总分 40 分,评分对应等级:0 分9 分:

185、初级 10 分19 分:中级 20 分29 分:高级 30 分39 分:标准化 40 分:智能化 十、CloudOps 成熟度自评 100 4.弹性评估 1)您目前批量交付算力资源的周期是?A.月级及以上(0 分)B.周级(1 分)C.天级(2 分)D.小时级(4 分)E.分钟级(5 分)2)对于负载存在周期性波动的业务场景,您当前的应对方式是?A.一次性购买业务峰值所需的资源,不做调整(0 分)B.根据业务波动的时间规律,在合适的时间手动调整具体的资源配置(2 分)C.根据业务波动的时间规律,设置脚本自动调整具体的资源配置(3 分)D.无需配置,系统可自动识别业务波动,并自动调整动态的资源配

186、置(5 分)3)对于业务可能出现的临时或突发负载激增,您当前的应对方式是?A.系统自动监控,目前无应对(0 分)B.系统自动监控,需要人工手动扩缩(2 分)C.系统自动监控,并扩展用户指定数量的资源进行自动响应(3 分)D.系统自动监控,并根据负载波动自动扩展激增流量所需资源进行响应(5 分)4)当业务某个资源出现异常时,您目前的应对方式是?A.系统无监控,无法发现资源异常(0 分)B.系统能发现异常,但是需要人工分析和处理(2 分)C.系统发现异常后能自动创建新的资源替换该异常资源(5 分)5)对于业务负载波动对应的成本管理,您目前的处理方式是?A.不关心成本,无所谓(0 分)B.关心成本,

187、但只是关注,没有具体行动(0 分)C.关心成本,并通过调整业务对应资源规格或者数量进行成本优化(1 分)十、CloudOps 成熟度自评 101 D.关心成本,并通过历史经验设置业务扩容和缩容的时间点以及策略进行成本优化(3 分)E.关心成本,并通过算法实现业务扩缩容时间与负载波动更匹配的方式进行成本优化(5 分)总分 25 分,评分对应等级:0 分4 分:初级 5 分8 分:中级 9 分14 分:高级 15 分24 分:标准化 25 分:智能化 十、CloudOps 成熟度自评 102 5.安全与合规评估 1)您目前的账号体系是否做到不同角色使用不同子账号登录和操作?A.否(0 分)B.是(

188、5 分)2)您的账号体系是否能支持不同角色对应不同权限的设置和管理?A.否(0 分)B.是,仅支持部分权限的管理(2 分)C.是,可以完全做到精细化的权限管理(5 分)3)您的账号体系是否具备审计能力?A.否(0 分)B.是(5 分)4)是否构建了实例的安全规范并定期巡检?A.否,暂无安全规范(0 分)B.是,仅建立了实例的安全规范,但无巡检(2 分)C.是,同时建立了实例的安全规范,并定期巡检和执行(5 分)5)您目前登录实例的方式是?A.使用 root 账号和密码登录(0 分)B.使用非 root 账号和密码登录(1 分)C.使用秘钥对登录(3 分)D.通过其他安全通道进行访问(比如基于

189、Websocket 的 SSH 方式)(5 分)6)您的实例更新(补丁)的检测和修复系统漏洞的频次是?A.从来不修复系统漏洞(0 分)B.不定期更新(2 分)C.每个月更新一次(3 分)十、CloudOps 成熟度自评 103 D.每周更新一次(5 分)7)是否具备用户对云资源操作的审计能力?A.无(0 分)B.有,但仅支持部分操作的审计(3 分)C.有,支持全部操作的审计(5 分)8)对敏感数据的存储是否有额外的安全保障机制?A.无(0 分)B.是,对敏感数据所在存储介质进行进行加密(5 分)总分 40 分,评分对应等级:0 分9 分:初级 10 分19 分:中级 20 分29 分:高级 30 分39 分:标准化 40 分:智能化 感谢关注阿里云弹性计算出品

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里云:CloudOps 云上自动化运维白皮书 2.0(2023)(103页).pdf)为本站 (bungbung) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部