上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

阿里云:ECS成熟度评估&洞察(2023)(37页).pdf

编号:123744 PDF 37页 9.17MB 下载积分:VIP专享
下载报告请您先登录!

阿里云:ECS成熟度评估&洞察(2023)(37页).pdf

1、卷首语3 月 22 日,阿里云宣布 CloudOps(云上自动化运维)套件全新升级,并发布了 CloudOps 云上自动化运维白皮书 2.0 版本。随着本次产品升级,阿里云推出了配套的智能化产品方案,即“ECS 成熟度评估与洞察(ECS Insight)”,它基于用户的 ECS 多维度的使用数据,从基础能力、成本管理、自动化、可靠性、弹性和安全性六个维度帮助用户分析定位潜在的运维风险,并推荐对应解决方案与最佳实践,全方位帮助企业用户降本增效,提升业务连续性。本书内容根据发布会整理而成,供阅览。目录重磅发布:云上自动化运维(CloudOps)白皮书 2.0.5阿里云马小婷:ECS 使用成熟度评估

2、与洞察(Insight)分享.13阿里云贾少天:阿里云 ECS CloudOps 新能力与最佳实践分享.30重磅发布:云上自动化运维(CloudOps)白皮书 2.05重磅发布:云上自动化运维(CloudOps)白皮书 2.0摘要:2022 年 3 月 22 日,【全新升级 阿里云 ECS CloudOps 2.0 来啦!】发布会正式播出,本次发布会上阿里云宣布 CloudOps(云上自动化运维)套件全新升级,并发布了 CloudOps 云上自动化运维白皮书 2.0 版本。随着本次产品的升级,阿里云推出了配套的智能化产品方案,即“ECS 成熟度评估与洞察(ECS insight)”,它结合客户

3、的资源管理需求以及云上相关的产品实践,从基础能力、成本管理、自动化、可靠性、弹性和安全性六个维度帮助用户分析定位潜在的运维风险,并推荐对应解决方案与最佳实践,全方位帮助企业用户降本增效,提升业务连续性。阿里云弹性计算资深技术专家徐海弘在本次直播中带来了题为 云上自动化运维成熟度模型分享的演讲,以下是他的演讲内容整理:弹性计算团队一直期望通过持续的体验优化,以及相关工具的建设,提升客户在云上的运维效率。在过去的一年里,我们通过客户的拜访,结合云上的一些交付实践,整理了包括自动化运维在内的白皮书以及建设了相关的工具。重磅发布:云上自动化运维(CloudOps)白皮书 2.06弹性计算团队在 202

4、1 年 12 月,开始引入 CloudOps 云上自动化运维。大家已经意识到,当线下转为线上,资源使用方式和客户关注点也都会发生变化。DevOps in Cloud 并不完全等于把线下 CloudOps 实践原封不动搬到云上。所以在 2021 年 Puppet 的报告里提到,通过各种调查反馈来看,65%处于发展中期的企业声称,他们已经开始使用云上资源。但从调查结果来看,只有 20%的企业充分利用到云自身的一些特性或优势开展业务。在 1.0 中,我们主要基于云上的资源交付运维等各方面的差异性,从降低成本,提升交付速度,提高自动化程度,提升灵活性,增强系统可靠性,以及提高业务安全性几个视角的提出一

5、些最佳实践和对应工具。重磅发布:云上自动化运维(CloudOps)白皮书 2.07在过去一段时间里,ops 生态和趋势也在发生变化。很多早期已经存在的内容,因为各种原因被大家再度关注。这里涉及到 ops 不同维度的增强版,它们侧重点各不相同。有些在垂直业务域的应用,有些强调运维实践执行的方案。其中,FinOps 是 Finance+DevOps 的组合,侧重于提升云上资源的使用率和性能,要求业务、财务与工程师团队紧密协同,通过数据的方式提升成本的可视化能力,进而优化成本。根据 Flexera 2022 年的评估,云上每年大概 32%的成本支出是因为资源闲置或使用率低被浪费。在过去 12 个月,

6、FinOps 参与团队的规模增长了 75%。因为最近几年人工智能和机器学习的突破发展,AIOps 被大家重新提起。如何把相关技术应用到各种运维场景,实现降本增效。从相关的评估报告可以看到,全球 AIOps 市场规模在 2025 年预计会到达 112.5 亿美元。除此之外,DevSecOps 是 Security+DevOps 的组合,它是一种将安全作为贯穿整个 IT 生命周期的共同责任实践方法。重磅发布:云上自动化运维(CloudOps)白皮书 2.08最后,在机器学习领域 MLOps 将 DevOps 的方法论和工具在 ML 领域的应用。根据 MarketsandMarkets 的报告,全球

7、 MLOps 市场规模在 2025 年预计会到达 4.9 亿美元。DevSecOps 的概念最早于 2012 年被 IT 安全领域的专家以及从业者提出之后,在后续的时间内,包括 Gartner 以及 RSAC 会议都在逐步强化相关概念和实践,尤其是安全左移等概念的提出,强调安全应该贯彻在 DevOps 整个生命周期。当前,将风险管理、合规治理等多重因素融入 DevSecOps 框架成为业界趋势之一。不管是什么类型的 Ops,最终都要围绕资源展开。资源包含基础设施,应用团队,数据业务流程等等,其中典型的参与方有云集成商。在云上,云平台是集成商这个角色里面最重要的成员。当然其他不同的角色,有最传统

8、的开发,运维人员,运营人员等。还有一些业务领域的专家,有财务的,还有安全的。从云平台的视角,我们首要做的是提升基础产品使用体验以及能力丰富度,这是CloudOps 之本。它可以从根源上避免问题,比如以 ECS 产品,过去一年内我们从工单的视角去展开,逐步分析客户的问题,并从产品自身去解决它。从 3 月重磅发布:云上自动化运维(CloudOps)白皮书 2.09份结果看工单的数量同比有相当的下降,取得非常不错的结果,侧面也验证了产品自身的体验是 CloudOps 最基础的部分。除此之外,云平台屏蔽了资源的一些特性,所以云上的一些 Ops 实践发生了对应的变化。因此需要综合客户的资源运维诉求以及云

9、上资源使用的方式,通过多样化的产品能力构建云上 Ops 的最佳实践,这是另外一部分需要持续建设的地饭。最后从业务的角色去看,我们一直认为包括开发/运维等角色在内的业务团队是CloudOps 重要参与方,但他们也是 CloudOps 最佳实践的最大贡献者。很多用户具备非常丰富的资源管理实践。在过去一段时间里面,我们的产品团队以及研发团队拜访了不少客户,了解他们的场景以及现有的工作方式,用于指导我们后续的工作。综合上面的信息,资源管理实践分为三部分,发现问题,解决问题,以及预防问题。其中,在发现问题里,我们需要思考,如何设立最佳实践的规范和基于数据的诊断能力?其中,最关键是设立一个最佳实践规范。其

10、次围绕规范的数据化的诊断能力可以帮助大家发现问题。因为有了规范和诊断能力后,才可以解决问题和预防问题。从而引导出,接下来要介绍的白皮书以及洞察工具。重磅发布:云上自动化运维(CloudOps)白皮书 2.010我们通过观察业界的趋势变化,持续与客户沟通、拜访了解客户使用的应用场景,以及自身产品的能力建设。我们把这些信息进行整理之后,推出了 CloudOps白皮书。这里有两点需要强调的是,第一,关于成熟度模型。我们把用户使用云把它分成几个等级。初级时,企业刚开始使用资源,开始关注云上使用的自动化、弹性、安全、合规等特性。在实践中,开始有意识的接触和使用产品。企业更多以默认配置的方式,简单开启相关

11、功能。随着后期逐步的深入,它会慢慢到中级、高级、标准化,智能化等不同阶段。第二点在分类方面,通过对 CloudOps 的各个领域进行拆分,我们引入了自动化能力。自动化能力指我们如何运用工具和系统,减少甚至完全取代人工操作。从而更好的提升相关的运维效率。除此之外,典型分类有弹性能力、可靠性能力、安全合规能力、成本和资源量化管理能力等等。上图展示了阿里云弹性计算 CloudOps 的产品全貌,大家看到在最下层是 IaaS的基础能力。在这个层面,如我们前面提到的,是整个 CloudOps 之本,弹性计算也一直在致力这些基础能力的提升以及体验的改进。重磅发布:云上自动化运维(CloudOps)白皮书

12、2.011在基础产品的上层,就是 CloudOps 的产品矩阵。如我们上面在 CloudOps 白皮书里面提到的,我们分成了五个维度,即成本管理、自动化服务、可靠性服务、弹性服务、安全合规服务。在大家最熟悉的弹性服务里,以最典型的弹性伸缩工具为例,客户可以根据业务负载,自动对资源进行扩容或缩容的工作。在弹性资源保障里,我们针对不同场景,提供了资源使用方式,客户可以通过阅读实例,预留容量包、容量预定的方式管理资源。ECS 使用成熟度评估与洞察模型,是在控制台上的一个开放工具。它是我们在白皮书里面提到的,各种最佳实践以及相关规范标准的实现。如上图所示,在第一部分,大家可以看到工具可以针对当前登陆用

13、户的资源使用情况,诊断出不同维度当前成熟度的情况,比如自动化能力,基础能力、洞察弹性能力、安全能力等方面的使用情况。在第二部分,可以看到不同维度评分的情况,包括得分项以及失分项。比如在稳重磅发布:云上自动化运维(CloudOps)白皮书 2.012定性维度,目前一共有十个评估项。用户当前可能有七个得分项,三个失分项。在这三个失分项里,我们也会做一些细化,给出一些对应的实践方案,便于依据做提升和优化。如果系统发现用户最近七天,没有使用快照对数据进行备份,针对这个问题用户可以进行一些优化。当然,CloudOps 是一个持续的过程,不论是白皮书还是洞察工具,它是对过去我们和客户一起合作整理出来的一些

14、最佳实践的总结,在后续我们也会融入更多新的内容,感谢大家。点击链接回看精彩直播,点击链接/扫码还可阅读/下载CloudOps 云上自动化运维白皮书 2.0阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享13阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享摘要:2022 年 3 月 22 日,【全新升级 阿里云 ECS CloudOps 2.0 来啦!】发布会正式播出,本次发布会上阿里云宣布 CloudOps(云上自动化运维)套件全新升级,并发布了 CloudOps 云上自动化运维白皮书 2.0 版本。随着本次产品的升级,阿里云推出了配套的智能化产品方案,即“EC

15、S 成熟度评估与洞察(ECS insight)”,它基于用户的 ECS 多维度的使用数据,从基础能力、成本管理、自动化、可靠性、弹性和安全性六个维度帮助用户分析定位潜在的运维风险,并推荐对应解决方案与最佳实践,全方位帮助企业用户降本增效,提升业务连续性。阿里云弹性计算高级产品专家马小婷在本次直播中带来了题为新品介绍:ECS使用成熟度评估与洞察(ECS Insight)的演讲,以下是她的演讲内容整理:阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享14ECS 使用成熟度评估与洞察,简称 ECS Insight。顾名思义,ECS 使用成熟度评估与洞察是对用户使用 ECS 的情况,进

16、行分析和评估,然后给出评估后的优化建议。这个产品是一个数据驱动产品,它的目的是帮助 ECS 用户能够持续挖掘 ECS 上的业务风险,结合企业云上运维的最佳实践,进行持续优化,最终实现云上业务的稳定永续。由于 ECS 使用成熟度评估与洞察的名称比较长,所以后面我们统一简称为“ECS Insight”。在Cloud白皮书2.0中,我们对CloudOps的定义给出了明确说明,即CloudOps=DevOps x Cloud。因为我们发现 95%的企业已经开始使用 DevOps 进行软件开发和交付,但只有不到 20%的企业,真正发挥了云本身的特性和优势,去提升 DevOps 实践的效率。比如云天然具备

17、高弹性的特性,以及标准化的自服务能力。与此同时,随着 FinOps、DevSecOps 等概念的盛行,业务的安全性和成本也是DevOps 落地过程中不可忽略的重要部分。在这些背景下,我们提出了 CloudOps 的概念以及它包含的五个维度,即成本洞阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享15察(Cost)、自动化能力(Automation)、可靠性能力(Reliability)、弹性能力(Elasticity)和安全性能力(Security),五个维度简称为 CARES。这也意味着,如果用户在使用 DevOps 缩短开发周期、提升业务效率的同时,同时希望让业务保持稳定、

18、安全、可靠,且低成本的持续运营,我们就可以从这五个方面入手,进行持续的完善。这与我们希望用户能够提升 CloudOps 成熟度的出发点不谋而合。一、CloudOps vs ECS接下来,让我们看一看 CloudOps 和 ECS Insight 之间的关系。上图展示了三部分的内容。最底层是 IaaS 层的基础能力,它包含平台侧的基础能力,比如各种计算形态、镜像等服务和用户侧的原子能力,包括资源分组管理,以及 Guest OS 的个性化配置管理。这些是所有 IaaS 服务必须提供的能力。在中间部分,是阿里云提供的 CloudOps 的产品能力。对于 CloudOps 定义的阿里云马小婷:ECS

19、使用成熟度评估与洞察(Insight)分享16CARES 五个维度,在每个垂直领域,阿里云都提供了对应的自动化和自服务工具,帮助用户不断提升该垂直领域的成熟度。每个维度的成熟度越高,意味着业务在该领域做的更好,整体业务更稳定、更可靠、更高效、更安全,性价比更高。比如在成本管理维度,阿里云目前提供了非常丰富的资源付费方式,包括包年、包月、按量预留实例、节省计划等等,用来应对不同场景的需求。对于长期稳定的业务,我们推荐用户采用包年/包月的方式进行购买,这样能够享受长周期优惠。对于临时测试的需求,我们推荐用户采用按量购买的方式。虽然按量每个小时的单价略高,但它非常灵活,可以随时释放。如果业务存在不同

20、时段的临时需求,且整个业务需求量不小的情况下,我们推荐用户购买节省计划进行抵扣。这样既能享受到随时需要随时创建或释放资源的灵活性,还能够通过节省计划按小时进行抵扣,降低整体的使用成本。既然有这么丰富的付费方式,在不同阶段我们应该选择什么样的付费方式进行组合,既能够满足不同业务场景的业务负载需求,还能降低整体的使用成本,持续保持超高性价比的优势?这需要用户持续分析和运营。那究竟该怎么运营呢?基于这些问题,我们就推出了 CloudOps 的落地实践,即 ECS 的使用成熟度评估与洞察。它基于用户在 CloudOps 定义 CARES 五个维度的使用数据,对该维度的使用情况进行分析,然后提出对应的优

21、化建议,帮助用户持续完善该维度的不足之处,保障业务高效可用、稳定有序。整体来说,ECS Insight 是 CloudOps 定义的落地指南。阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享17二、ECS Insight 详细介绍接下来,我将详细介绍一下 ECS Insight 这个产品。首先,简单了解一下 ECSInsight 的工作原理。ECS Insight 是对用户账号下的所有 ECS 以及关联资源的使用情况进行分析,包括 ECS 的分布情况,快照的使用情况,ECS、云盘、带宽、各个维度的使用率数据、以及 ECS 的费用分布等等。通过结合阿里云服务上万家企业沉淀的云上运

22、维最佳实践经验,我们最终会给用户产出两个结果。一是当前用户在 CloudOps 多个维度的成熟度现状。每个维度以百分制进行统计,采用扣分制,如果某项没有满足云上推荐的最佳实践,则扣除对应的分数。用户可以查看每个维度的评分项,对应的分值以及是否得分。这个评估结果的更新频次是 T+1 天。这些用户数据的分析来源,其实是非常丰富的。它不仅包含 ECS 的操作日志、云监控,还包含用户去的资源管控行为等等。覆盖了用户使用 ECS 的所有关键阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享18指标。在 ECS 中,除了 CloudOps 定义的 CARES 五个维度以外,我们还增加了一个

23、ECS基础能力维度。因为我们发现,对于云上 ECS 规模达到一定程度的企业用户而言,ECS 对应的规格、可用区、地域分布、以及资源使用率都会影响到整个业务的连续性。所以我们增加了这一部分内容,作为 ECS 的补充。二是,对于没有得分项,ECS Insight 会明确标识出存在风险的资源,并提供对应优化的最佳实践指南。这些最佳实践自于各个行业,中大型企业的经验沉淀,是大家多年摸索和成长的积累,非常具有参考意义。了解完 ECS 的工作原理之后,我们可以快速看一下 ECS 的产品页面。目前,这个产品还处于测试阶段。用户通过申请后,就可以在 ECS 控制台,看到自己当前账号下,ECS 成熟度评估的报告

24、。这个报告可以分成三部分,如上图所示。第一部分是左侧以雷达图展示 ECS 使用成熟度评估现状的全貌,从 ECS 的基础能力和 CloudOps 的六个维度,对用户当前使用 ECS 的情况进行全面评分,您阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享19可以看到总得分以及每个维度的分值。第二部分是页面上方展示的每个维度的得分详情以及该维度总得分,包括该维度一共包含了多少个评分项,多少项得分,多少项没得分。虽然最终分值和成熟度的匹配,不完全相关,比如 80 分以上表示高级,79 分是中级,但是,分数越高意味着业务在该维度存在的风险较少。目前,每个维度的评分项并不完善,分值分配仍有

25、完善空间。我们后续将持续进行优化,欢迎大家提供反馈建议。第三部分是页面下方的评分项详情。用户可以经常看得分项或失分项。针对每个失分项,我们提供了失分的原因说明,以及如何进行优化的建议指南。对于非常具体的评分项,我们还会列举具有风险的资源详细信息,包括资源 ID、可用区、IP 信息等等,从而方便用户快速定位出现问题的资源,并及时采取行动。接下来,让我们看一下 ECS 每个维度的产品能力,帮助大家对每个维度成熟度的提升方式有更直接的体验。首先,看一下 ECS 的基础能力。虽然 CloudOps 成熟度中,并没有包含 ECS 的基础能力,但它与公有云本身的特性密切相关,会直接影响到云上业务的连续性。

26、所以我们增加了这个维度。阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享20大家都知道,公有云上的云服务器都是分为规格族和规格,比如通用型实例、计算型实例、内存型实例。随着芯片、硬件、服务器的演进,实例规格族还在不断的增加。阿里云目前提供的实例规格,已经超过了 300 种。上图展示了,阿里云提供的不同场景的最新实例规格族,这个图几乎每年都会全部更新一轮。对于一些比较老的实例规格,比如经典网络的实例,它不仅性价比低,而且不支持部分新功能的特性,面临较多的限制。所以我们推荐用户需要跟随着实例规格的演进,持续的更新底层资源的规格,不仅能够提升性价比,还能够保障业务的稳定性,一举两得。

27、此外,随着资源规模的增加,资源使用者的数量也会逐渐变多。不同用户对于不同资源的使用权限不一样。当资源规模达到一定程度后,如果我们不根据业务单元对资源进行分组和分权管理,不仅会面临资源查找慢的问题,还会因为部分用户权限过大,导致误操作等一系列严重后果。面对这些痛点,ECS 的基础能力从计算、存储、网络和账号管理四个维度,评估ECS 以及关联资源的分布情况、使用情况是否合理,及时发现并识别业务在性能高、可用等维度存在的一些潜在风险,并提供对应的优化建议,为云上业务的持续运营,提供指导方针。总体来说,ECS 基础能力的成熟度评估是,识别云上资源管理最基本的分布,使用情况是否合理,从而避免单个资源的常

28、规性风险。第二部分是成本洞察能力。阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享21前面提到的 ECS 实例不仅规格繁多,还提供了非常丰富的付费方式。包括包年、包月、按量、抢占式实例、预留实例、节省计划等等。上张展示了不同付费方式,适合的业务场景。如何根据业务的形态,选择性价比最高的付费方式?这非常考验大家的算数能力。同时,如果企业里存在多个不同的团队,出现一起使用云资源的场景。如果我们不对资源的使用方或团队进行准确的核算和分摊,会导致大量的资源浪费。最终,导致企业的云上支出远远超出预期。这与企业想推进 FinOps 的初衷,背道而驰。如果我们采用一刀切的方式进行成本控制,势

29、必会影响部分业务的正常发展。如何根据资源的实际使用情况,进行准确识别,并且针对性的进行优化,最终实现成本优化与业务发展两不误是非常重要的。面对这些问题,成本洞察能力从三个方面提供了分析和推荐。首先,我们需要帮助用户识别一些闲置或低使用率的资源。推荐用户使用云上灵活的变配、停机、不计费等自服务能力,避免一些显而易见的铺张浪费。其次,我们推荐用户使用类似于预留实例券、节省计划等权益类产品。对一些临阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享22时的按量资源进行抵扣,最终降低这一部分的使用成本。最后,我们推荐用户借助标签、财务单元、预算管理等工具,进行端到端的成本管理分析,持续优

30、化成本支出,最终实现 FinOps 的落地。整体来说,成本洞察能力的成熟度评估是,指导用户更好地利用云上灵活的付费方式和成本管理工具。在避免不必要的成本浪费的基础上,端到端的进行成本的管理。第三部分,是自动化能力。不少人对于 DevOps 一直有一个误解,认为 DevOps 就是自动化。其实自动化只是实践的一种手段,而且是一个非常重要的手段。为什么自动化如此重要呢?因为受限于技术能力或业务发展阶段的限制,不少企业的自动化能力目前都严重不足。不少企业靠人海战术支撑,不仅响应周期长,而且容易出现失误。同时,我们也观察到部分用户能通过脚本完成一些基础的运维工作。但这部分脚本大多数是个人独自维护,很难

31、复用或形成规范。上图展示了,目前在自动化领域的演进方向和现状。阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享23欧美企业在 IT 管理上的自动化的程度更高,主要是因为欧美企业的人工成本高。国内企业的自动化处于偏下水平,大量用户依赖 UI 控制台、终端工具或脚本进行自动化。面对这些问题,自动化能力的成熟度评估从三个层面上提供了分析和推荐。最基础的是,通过控制台或 open API 的方式,完成基础的资源管控操作。这个能力大多数的用户都能做到。中级水平意味着用户能够借助自动化工具,完成 DevOps 中的基础设施及其代码、或运维及其代码的自动化管理,提升类似于 CICD 等高频管

32、理场景的效率。在阿里云上,用户可以借助类似资源编排、云助手运维编排等工具,完成应用的发布和部署。它涉及资源交付申请、应用打包分发、以及应用灰度发布等多个环节。如果每个环节都能自动化,可以将整个应用的发布周期从以前的 35 天,缩短到一个小时。如果需要达到更高级的水平,需要用户组合使用多种自动化的服务和工具。并且形成标准化的运维流程和统一的配置管理平台,最终实现标准化和统一化的运维。整体来说,自动化能力的成熟度反映了当前用户在 ECS 管理运维上的自动化的水平。同时也为用户提升自动化水平,提供了对应的路径和工具。用户借助这些自动化工具的使用,能够更高效地解决日常运维的痛点。第四部分是可靠性能力。

33、阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享24讲到可靠性,大家首先想到的是底层基础设施的稳定性,比如 SLA。但是这里存在一个大家都忽略的问题,即底层基础设施的稳定性,只要不是 100%,意味着不完全可靠。如果我们将业务的可用性寄希望于单个实例的稳定性是非常不可取的。如果从根源解决问题,应该加强应用构建,使它具备高可用的特性。同时,在同一个企业里,不同的业务团队对稳定性的诉求不一样。比如一些离线业务的大数据计算集群,可能会要求晚上 12 点7 点之间业务是不能中断的。对于一些在线服务业务而言,它的高峰期可能是早上 9 点到晚上 10 点。在不影响业务可用性的情况下,多个部

34、门对底层变更响应的协同成本实非常高。一旦出问题需要一些自动化的辅助工具,帮助工作人员快速排查和定位。上图展示了 ECS 可靠性的能力支撑,ECS 的可靠性主要来自两部分。第一部分是,底层基础设施的稳定性。第二部分是,ECS 内的稳定性。基础设施的稳定性取决于公有云的地域、可用区的分布、以及单个物理服务器的稳定性。所以要实现初级的可靠性,我们需要将业务尽可能的分散在不同的物理机、不同的可用区进行部署,从而避免大规模故障的风险。对于 ECS 内的稳定性,则需要借助高可用架构的保障。我们需要周期性的进行数据备份,需要实时监控实例的性能波动。当实例的性能出现异动时,我们需要阿里云马小婷:ECS 使用成

35、熟度评估与洞察(Insight)分享25快速的自动完成业务切换,提升业务本身和数据高可用的能力。高级的可靠性则离不开更多维度的实时监控,故障演练、故障注入等工具的支持。这是一个更偏系统工程的建设,工具和能力只是辅助手段,更重要的是多个不同团队的协同。整体来说,在可靠性的成熟度上,ECS Insight 从实例的稳定性、数据的可靠性、性能的可靠性、以及可观测性四个维度进行评估。我们推荐用户先要做到初级和中级的可靠性。目前这四个维度的衡量,基本上可以帮助用户做到初级、中级和部分高级的可靠性。至于更高级的可靠性,则需要配合持续的演练才能达到。第五部分是弹性能力。弹性能力是云最基础的优势之一,按需取用

36、按量付费是弹性的本质,也是云的重要特性之一。相比于线下 IDC,对于临时大规模的弹性需求,不仅交付周期长,还有可能因为预估不准,导致资源准备不足,最终影响业务效果。对于存在峰谷波动的业务而言,如果提前扩容,会存在资源超配的情况,不仅前期投入高,而且存在大量的资源浪费。如果进行人工扩容,则存在反应慢,可能阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享26因为扩容不及时,导致业务受损,最终影响用户体验。所以如何利用云上灵活的弹性能力,在满足业务需求的同时,避免资源和成本的浪费是至关重要的。ECS Insight 的弹性能力从以下三个维度,为我们提供了指导。最初级的方式是,通过控制

37、台或 Open API 批量购买或释放按量的 ECS 实例。这样就能够通过半人工的方式,满足临时的弹性需求。对于明确的弹性需求,ECS建议使用弹性伸缩,实现资源跟随业务的波动,自动进行水平扩缩容。在提升业务高可用的同时,降低使用成本。在这个基础上,如果用户有更复杂的业务需求。我们可以借助弹性伸缩的生命周期,挂钩弹性强度评估以及实例规格范式的方式,提升业务的弹性、灵活性和韧性,最终实现全自动的、自适应的弹性资源管理,保障在线业务的连续性。弹性能力是用户判断使用是否合适的,最直接的体现之一。弹性能力的成熟度评估,则反映了用户对云的使用深度。用好了弹性,在某种程度上可以说用户也就用好了云的一半。最后

38、一部分是安全性能力。阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享27安全问题是一个很难证明,也很难证伪的问题。安全防护不容易直接看到效果,不少企业都存在侥幸心理。一旦安全防护没有做到位,后果也非常严重,轻则业务临时不可用,重则核心数据丢失,损失巨大。基于这个事实,我们观察到不少企业客户的安全意识严重不足。包括对关键业务的关键数据缺少防护意识,导致实例被攻击后,重要的数据被删除,无法找回。云上安全能力的构建是一个责任共担模式,它需要云厂商和用户一起进行构建。云厂商负责对底层基础设施的安全性进行保障,包括云服务器镜像、支撑云服务器、镜像底层的软硬件服务。除此之外,还包括各个地域

39、和可用区的服务器、网络设备、存储设备等安全性,以及虚拟化系统的安全性。用户则需要对语音服务器 ECS 上的操作系统、操作系统里的应用数据、以及应用业务架构的安全性负责。包括环境变量配置,软件应用,数据安全,安全合规等等。如果用户自身不做任何安全防护和措施,完全依赖底层基础设施的安全性,相当于在裸奔。除了安全意识不足,用户在安全实践的落地层面,也面临门槛高的问题,包括明确制定安全规范,及时扫描并发现不符合安全规范的安全问题等等。在这个维度上,ECS Insight 从访问安全、数据安全和应用安全三个维度为用户提供了明确的提升路径。访问安全关注的是,资源的访问权限和访问审计的问题,包括设置更安全的

40、实例登录方式,为实例访问提供登录审计、防止未授权的访问等等。数据安全是不少用户面临的问题,与线下机房不同的是,云上数据一旦被删除是无法找回的。因此,养成定期备份重要数据或对高敏数据进行加密,能够大大提升数据的安全性。应用安全性则是业务持续运行的终极目标,应用安全的保障在访问安全、数据安全的基础上,需要持续的完善应用本身的代码的安全性。以及通过类似 WAF、阿里云马小婷:ECS 使用成熟度评估与洞察(Insight)分享28DDOS 等安全防护能力进行保障。整体来说,安全无小事,业务的安全性需要云厂商和用户共同创建。在体系化的构建业务安全时,我们需要从访问安全、数据安全和应用安全等多个维度进行综

41、合考虑。三、总结与展望综上所述,ECS Insight 产品和 CloudOps 一脉相承。它从 CloudOps 定义的CARES 五个维度,对用户使用 ECS 的情况进行全面的分析和评估。结合云厂商的最佳实践,识别各个维度中存在的可优化点,并提供对应的建议来帮助用户进行持续优化。目前,每个纬度下的能力评估和准确度不够完美。因此在新一年里,ECS Insight会持续在两个方向进行优化。一方面,我们会持续优化并提升 CloudOps CARES五大维度评分的准确度,让每个维度的评分能更准确的反映用户的实际情况。这个能力的完善离不开采集更多的 ECS 指标和使用数据,离不开用户对阿里云的阿里云

42、马小婷:ECS 使用成熟度评估与洞察(Insight)分享29信任和支持。另一方面,我们将持续完善 CloudOps 的自服务能力,为用户在云上进行DevOps 的实践提供更全面、更智能、更自动化的能力支撑,帮助用户充分利用于本身的优势,助力其业务高质量的交付和安全稳定的运行。阿里云贾少天:阿里云 ECS CloudOps 新能力与最佳实践分享30阿里云贾少天:阿里云 ECS CloudOps 新能力与最佳实践分享摘要:2022 年 3 月 22 日,【全新升级 阿里云 ECS CloudOps 2.0 来啦!】发布会正式播出,本次发布会上阿里云宣布 CloudOps(云上自动化运维)套件全新

43、升级,并发布了 CloudOps 云上自动化运维白皮书 2.0 版本。随着本次产品的升级,阿里云推出了配套的智能化产品方案,即“ECS 成熟度评估与洞察(ECS insight)”,它基于用户的 ECS 多维度的使用数据,从基础能力、成本管理、自动化、可靠性、弹性和安全性六个维度帮助用户分析定位潜在的运维风险,并推荐对应解决方案与最佳实践,全方位帮助企业用户降本增效,提升业务连续性。阿里云弹性计算高级产品专家贾少天在本次直播中带来了题为ECS CloudOps新能力与最佳实践的演讲,以下是他的演讲内容整理:阿里云贾少天:阿里云 ECS CloudOps 新能力与最佳实践分享31Cloudops

44、 是从自动化、弹性、成本、安全、稳定 5 个维度来提供能力帮助用户更好的解决日常遇到的各种问题。而这 5 个维度是期望通过各种各样的能力在用云的不同阶段来帮助用户,主要着力于从用云规划、架构设计到迁移上云、再到云上使用资源,最后对资源进行运维管理几个阶段让用户更高效、更精细、更智能、更开放的使用阿里云产品解决 devops 需求。下面我就从新功能中选择几个为大家进行更进一步的介绍。首先在规划设计阶段,第一个需要考虑的是成本问题。从成本优化角度来看,怎么做好成本管理是一个复杂且需要持续投入的过程。从第一步资源付费类型的选择开始就需要全面的考虑,了解多种付费类型的特点,选择适合自己的一种或者多种付

45、费类型来满足业务和成本双方面的需求,同时我们推荐的最佳实践是如图,通过抢占式+按量+预付费或 saving Plan 购买的按量实例多种实例规格的组合来实现成本最优的效果,兼顾了稳定和弹性的多重效果。然后是如何选择合适的实例规格,用户需要根据自己的场景选择最符合性能及成本要求的实例规格,阿里云最近推出了倚天 710 实例,在计算密集型计算场景阿里云贾少天:阿里云 ECS CloudOps 新能力与最佳实践分享32性能更加稳定,进一步扩充了更多的选择。下一步在持续使用资源的过程中,用户需要根据自身业务不同阶段的情况来判断资源负载的合理性,然后通过垂直伸缩(比如升配降配等方式),水平扩缩容、对资源

46、进行阶段性停机降低成本等方式来进一步优化成本。最后,也是最重要的一步就是持续关注成本的变化,通过阿里云提供的企业级财务能力来深入了解费用情况及合理性,然后通过循环的方式回到第一步持续优化之前的选择,只有把成本视角融入到日常流程中才能达成持续提升成本优化效果的目标。同时,在规划设计阶段,对于云上资源使用的高可用设计也需要有明确的设计,根据用户自身业务短期和长期的发展情况,选择合适的高可用设计思路来满足业务的发展需要。从最基本通过部署集功能实现物理机级别的高可用,到通过弹性产品或自主编程的方式,实现多可用区级别的高可用,再到最复杂、成本相对最高且效果最好的多地域高可用,多种方式可以让不同场景的用户

47、在设计阶段就打下了高可用的基础。阿里云贾少天:阿里云 ECS CloudOps 新能力与最佳实践分享33当经历了规划设计阶段之后,如果用户有线下资源或者其他云厂商资源需要迁移到阿里云,阿里云也提供了“服务器迁移中心”产品,帮助用户把其他地方的服务器高效的迁移到阿里云。而且在原有的服务器迁移的基础上进一步发布了 4 种全新的迁移能力,如支持停止维护的 CentOS 实例平滑迁移到 Alibaba cloud linux 及龙蜥系统等长期维护的系统,支持突破实例规划分布情况限制和可用区限制的跨可用区迁移 ECS、支持从 VMware 通过 agentless 也就是无代理的方式免费迁移到阿里云以及

48、从线下的笔记本、PC 等快速迁移到阿里云无影云桌面的迁移能力,扩展了更多的迁移场景来满足不同用户的需求场景。完成了迁移的工作,下一步我们看下帮助用户高效使用 ECS 资源的弹性伸缩又推出了哪些更精细更智能的功能。第一,当用户面对上千种实例规格的时候,怎么更快的选择实例越来越成为一个难题,弹性伸缩基于此推出了基于规格属性的智能选型,通过定义 vCPU 核数、内存大小、规格族等属性,弹性伸缩就能自动帮助用户圈定一批实例规格来完成弹性场景的需求。阿里云贾少天:阿里云 ECS CloudOps 新能力与最佳实践分享34第二,发布 15 秒的监控指标和多指标联合的报警能力让通过负载变化的触发速度更快更精

49、准。第三,原有的 ECS 弹性伸缩的基础上发布了 ECI 弹性伸缩,让想使用容器的用户不用 maintain k8s 集群,最简单的使用上 ECI 这个兼容容器生态的实例类型。第四,持续优化迭代的预测型伸缩组,让机器学习帮助用户做扩缩容的决策。它可以通过过去两天用户使用 ECS 资源的负载和实例数量的变化,预测未来 114天的实例资源的使用情况。希望这些功能在各个点上能帮助用户更多的使用云的弹性。另外还有资源使用阶段可以帮助提升安全系数,降低风险的安全功能大家也可以了解下,比如阿里云提供了加密计算环境、系统盘的原声加密能力、非 root 账号登陆、镜像原声加密能力、加密快照等,帮助对安全合规有

50、更高要求的用户快速的提升安全系数。阿里云贾少天:阿里云 ECS CloudOps 新能力与最佳实践分享35再下一个阶段就是对资源的运维管理阶段了,这里我会着重为大家带来 4 款新的能力,提升资源运维阶段的效率,降低日常运维工作的门槛。第一个是标签服务提供的创建者标签功能。用户只需要在控制台对功能进行开启,阿里云的标签服务就会完全自动的帮助用户对账号下创建的资源打上创建者标签,比如一些资源是由子账号创建的,则这些资源就会自动打上有子账号信息的标签,由主账号创建的则打上有主账号信息的标签。如果是由各个云产品通过用户授权的方式帮用户创建的资源,则会打上对应云服务的标签,让用户仅通过一步操作就能从账号

51、角度对资源进行全面的分类,特别是一个公司内多个团队通过多个子账号来创建资源的情况下,方便用户更清晰的识别出来资源的来源和归属,从而进一步通过这个标签的分组来进行分账、运维等更多操作。阿里云贾少天:阿里云 ECS CloudOps 新能力与最佳实践分享36第二个为大家带来的运维管理新功能是云助手产品提供的“会话管理功能”,用于优化日常需要登陆到 ECS 机器上进行运维操作的场景。往常用户如果实现 ECS 资源登陆能力,要么需要设置外网 IP,要么需要购置跳板机来提升安全性,然后通过跳板机进行登记,而且继续是成功登陆,后续的所有操作都无法进行方便的审计。云助手推出的会话管理功能就是为了解决这些痛点

52、。会话管理推出了免公网、免跳板机、免密码的快速登录方式,用户只需要在控制台一键开启就能使用,而且所有在资源上的操作都能保存下来进行审计,做到简化操作的同时具有审计安全的能力。阿里云贾少天:阿里云 ECS CloudOps 新能力与最佳实践分享37第三个是我们新推出的阿里云客户端产品。很多用户反馈日常管理资源没有一个相对集中的入口,每次通过传统的 ssh 进行远程连接的时候,都需要先获取 ECS 网络信息之后再在 ssh 工具中进行操作,而重启等操作又要去别的地方才能完成。阿里云客户端是一个集合了 ssh+阿里云资源管理+简单易用+多账号管理的软件,可以下载到本地之后轻松完成对于资源的高效运维,

53、里面也包含了前面提到的支持免密登录的会话管理功能,真正做到让每天的运维工作事半功倍。最后一个运维管理功能介绍是资源编排产品推出的 Terraform 托管功能。目前有很多的用户都是用 Terraform 来管理和使用云资源,资源编排产品在原生 Terraform 的基础上除了提供帮助用户执行模版能力外还提供了更多的附加能力,比如通过 Terraform 模版来进行资源询价和费用计算、进行资源标签或资源组的传递、多账号多地域一致性部署等能力,让很多在 Terraform 上无法实现的功能都能在ROS的托管能力上快速实现,帮助用户更好的使用Terraform能力。阿里云贾少天:阿里云 ECS CloudOps 新能力与最佳实践分享38以上就是我带来的从规划设计、到迁移上云、再到资源使用以及最后的运维管理4 个阶段的新功能介绍,感谢大家的观看。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里云:ECS成熟度评估&洞察(2023)(37页).pdf)为本站 (蒸蒸日上) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部