上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

阿里云:2022快递行业云上技术服务白皮书(67页).pdf

编号:106502 PDF 67页 64.40MB 下载积分:VIP专享
下载报告请您先登录!

阿里云:2022快递行业云上技术服务白皮书(67页).pdf

1、目录CATALOG1.1 快递行业介绍 1.2 快递行业图谱 1.3 国内快递公司市场现状 0101031.快递行业介绍及现状分析 2.1 电商产业驱动快递业发展 2.2 快递业发展呈现多样复杂性 2.3 新冠疫情加速提升网购渗透率,推动数字化发展 2.4 长期看:快递产业仍处于成长期,未来发展空间可观 050707082.快递行业机会分析 3.1 快递行业业务术语 3.2 包裹全生命周期 3.3 快递业务主体流程 3.4 快递业务核心系统分析 091112143.快递业务介绍 4.1 核心业务上云最佳实践 4.1.1 上云背景介绍 4.1.2 云原生应用架构优势 4.1.3 云原生应用架构改

2、造 4.1.4 业务迁移上云最佳实践 4.2 大促保障最佳实践4.2.1 背景介绍 4.2.2 双十一快递业务峰值晴雨表 4.2.3 大促保障的五大技术要素 4.2.4 大促保障故障&预案演练 4.2.5 大促保障全链路监控 4.3 技术服务展望4.3.1 高可用架构 4.3.2 DevOps 4.3.3 云上容量规划 4.3.4 应用架构优化 93939452534.快递行业技术服务最佳实践 5.总结1.快递行业介绍及现状分析1.1 快递行业介绍中国快递业起步于20世纪80年代,直到90年代上半期,EMS几乎是国内快递业务的唯一经营者。随着中国经济

3、的迅速发展,民营经济不断壮大,企业参与国际分工的水平不断提高深化,企业对商务文件、样品、目录等传递的时效性、方便性、安全性产生更高的需求。在这种背景下,中国民营快递行业应运而生。2001年,中国正式加入世界贸易组织,以因特网为平台的在线交易加速了快递行业信息化发展。21世纪初期,外资快递企业进入中国,国内快递行业逐步规范。2010年之后,战略资本进入快递行业,快递企业也加快了上市步伐。如今,快递行业在我国的地位更加稳固,正随着社会、经济的进步而得到蓬勃发展。2021年我国快递业务量达1000亿件,这是我国快递年业务量首次突破千亿级别,日均服务用户近7亿人次。国家邮政局副局长表示,我国邮政快递业

4、综合实力持续增强,年快递业务量突破1000亿件,连续8年稳居世界第一。8家快递企业成功上市,形成3家年业务量超100亿件、收入规模超1000亿元的品牌快递集团。1.2 快递行业图谱随着电子商务及信息科技的发展,我国快递业格局也发生了较大变化。以前,中国邮政快递服务业几乎承担了所有的快递服务业,今已形成国有企业、民营企业、外资企业三足鼎立的局面。在民营、外资企业出现之后不单单是给我国的快递行业带了市场竞争的压力,也加快了我国快递行业的发展。近几年我国民营、国有、外资快递企业业务量市场份额的占比见下表:01 快递行业云上技术服务白皮书快递行业云上技术服务白皮书东、中、西部地区各项快递业务量均保持了

5、持续稳定的增长势头,从各地业务量占比数据可以看出中部地区业务增长持续提速,市场份额继续上升。2021年,东、中、西部地区快递业务量比重分别为78.1%、14.6%和7.3%,业务收入比重分别为78.2%、12.9%和8.9%。与去年同期相比,东部地区快递业务量比重下降1.3个百分点,快递业务收入比重下降1.4个百分点;中部地区快递业务量比重上升1.3个百分点,快递业务收入比重上升1个百分点;西部地区快递业务量比重基本持平,快递业务收入比重上升0.4个百分点。从快递行业产业链来看,上游采购主要包括运输装备、燃料(成品油)、货物包装用品、集装箱、场站等。运输方式包括航空运输、公路运输、铁路运输等。

6、快递行业的客户所处行业呈现多样性且范围极为广泛,包括商户、个人、机构、企业等。数据来源:国家邮政局表一:我国民营、国有、外资快递企业业务量市场份额占比表二:东、中、西部地区各项快递业务量增长趋势数据来源:国家邮政局7.2%11.9%80.9%西部中部东部7.3%7.8%7.4%7.3%7.3%11.6%12.3%12.9%14.6%13.3%81.1%79.9%79.7%78.1%79.4%2016年快递业务区域分类2017年2018年2019年2021年2020年1.2%19.9%78.9%外资企业国有企业民营企业1.0%0.7%0.6%0.2%0.4%1.5%/13.4%9.9%9.1%1

7、0.0%10.8%12.3%/85.6%89.4%90.3%89.8%88.8%86.2%92.2%2013年快递企业分类2014年2015年2016年2020年2019年2018年2017年快递行业云上技术服务白皮书 021.3 国内快递公司市场现状 头部效应明显,中通实现霸主地位中国快递行业发展到今天,已经从爆发式增长阶段转向集约化、规模化、品牌化发展阶段,市场头部效应已经愈发明显。行业内几大巨头三通一达、顺丰速运、百世等快递巨头占据了最主要的市场地位,从2021年上半年的份额来看,五六大头部公司的市占率市场占有率超过780%,其中2021年上半年的份额看,中通(220.37%)韵达(16

8、.7%)圆通(15.8%)申通顺丰(110.14%)顺丰申通(109.08%),百世(8.2%)。如图2,五家公司中,行业老大中通的快递业务增速最高,其次为圆通,体现在市场份额上,则是中通继续遥遥领先,且市场份额进一步扩大,圆通的市场份额也有所扩大。韵达、申通、顺丰的市场份额均略有缩水。图1:快递行业图谱03 快递行业云上技术服务白皮书快递行业云上技术服务白皮书 市场格局未稳,头部企业竞争持续从业务总量来看,虽然目前各家快递企业业务总量存在一定差距,但是由于市场开发潜力巨大、线上供需双向增加,巨头之间的竞争仍在持续加剧。需求增加体现在年轻化和年老化用户比例提升。截至2021年6月,我国30-3

9、9岁网民占比为20.3%,在所有年龄段群体中占比最高;40-49岁、20-29岁网民占比分别为18.7%和17.4%,在所有年龄段群体中占比位列二、三位。而50岁及以上网民占比为28.0%,较2020年6月增长5.2个百分点,线上用户向两端走的比例明显提升。而供给的增加则是因为更多商家由线下转移至线上,进一步丰富了线上品类。线上供给及需求双增,有利于增加线上消费占比,提升快递业务量,影响快递企业市场战略和布局。此外,疫情也是对快递企业的一次压力测试,未来随着疫情逐渐缓解,快递需求回补导致快递业务量波动巨大,此时是快递企业压力增大的关键时期,管理能力与行业口碑俱佳的快递企业将脱颖而出。图2:快递

10、行业市占变化折线图快递行业云上技术服务白皮书 042.快递行业机会分析2.1 电商产业驱动快递业发展快递物流在B2C电商产业链中处于商业模式的末端,其交付功用体现在消费支付行为完成之后,因而上游电商行业的发展直接驱动下游快递物流行业的发展。从2011年至今,电子商务对快递业的影响日趋加深,来自电子商务的包裹已经占到快递业包裹总量的90%以上。电子商务在已有的庞大受众群体和市场渗透率情况下,仍然在不断发展下沉市场,提高供需信息对接效率,在供给侧加快输出优质农产品,催生绿色经济的线上化消费需求,进而促进快递行业下沉,着力于快递网点及服务在农村地区的普及,释放农村消费力,带来进一步的快递产业发展空间

11、。图3:B2C电商行业产业图谱05 快递行业云上技术服务白皮书快递行业云上技术服务白皮书表三:我国快递进村、电商进村政策梳理关于加快构建政策体系培育新型农业经营主体的意见统筹规划建设农村物流设施,重点支持一村一品示范村镇和农民合作社示范社建设电商平台基础设施,逐步带动形成以县、乡、村、社为支撑的农村物流网络体系。实施乡村振兴战略的意见重点解决农产品销售中的突出问题,加强农产品产后分级、包装、营销,建设现代化农产品冷链仓储物流体系,打造农产品销售公共服务平台,支持供销、邮政及各类企业把服务网点延伸到乡村,健全农产品产销稳定衔接机制,大力建设具有广泛性的促进农村电子商务发展的基础设施,鼓励支持各类

12、市场主体创新发展基于互联网的新型农业产业模式,深入实施电子商务进农村综合示范,加快推进农村流通现代化。关于做好2022年全面推进乡村振兴重点工作的意见加强县域商业体系建设。实施县域商业建设行动,促进农村消费扩容提质升级。加快农村物流快递网点布局,实施“快递进村”工程,鼓励发展“多站合一”的乡镇客货邮综合服务站、“一点多能”的村级寄递物流综合服务点,推进县乡村物流共同配送,促进农村客货邮融合发展。中共中央国务院2022年关于加快农村寄递物流体系建设的意见鼓励各地区深入推进“四好农村路”和城乡交通运输一体化建设,合理配置城乡交通资源,完善农村客运班车代运邮件快件合作机制,宣传推广农村物流服务品牌。

13、国务院办公厅2021年2020年数字乡村发展工作要点畅通农村电商物流体系,实施“互联网+”农产品出村进城工程,深人推进电子商务进农村。培育壮大乡村新业态,注重新模式、新业态对农村地区消费的拉动作用。中央网信办、农业衣村部、发改委等2020年关于抓好“三农”领域重点工作确保如期实现全面小康的意见有效开发农村市场,扩大电子商务进农村覆盖面,支持供销合作社、邮政快递企业等延伸乡村物流服务网络,加强村级电商服务站点建设,推动农产品进城、工业品下乡双向流通。强化全过程农产品质量安全和食品安全监管,建立健全追溯体系,确保人民群众“舌尖上的安全”。中共中央国务院2020年数字乡村发展战略纲要初步建成一批兼具

14、创业孵化、技术创新、技能培训等功能于一体的新农民新技术创业创新中心,培育形成一批叫得响、质量优、特色显的农村电商产品品牌,基本形成乡村智慧物流配送体系。乡村网络文化繁荣发展,乡村数字治理体系日趋完善。中共中央办公厅国务院中共中央国务院中共中央办公厅国务院关于促进农村电子商务加快发展的指导意见加快完善农村物流体系。加强交通运输、商贸流通、农业、供销、邮政等部门和单位及电商、快递企业对相关农村物流服务网络和设施的共享衔接,加快完善县乡村农村物流体系,鼓励多站合一、服务同网。时间发布部门政策及主要内容国务院办公厅2015年2017年2018年2019年快递行业云上技术服务白皮书 062.2 快递业发

15、展呈现多样复杂性从快递业发展来看,各要素发展阶段不同,行业整体发展呈现复杂的多面性。市场竞争激烈,已经逐渐形成行业头部效应,竞争关系成熟度较高;企业规模等则要素呈现出成长期特点;而利润方面受成本和竞争影响则呈现不断被压缩的趋势。造成这种多样性的原因有三个:一是市场潜力大,受上游电商的飞速发展影响,快递业的业务量、客户数等指标表现超前;二是行业竞争多,市场吸引众多资本进入,多方博弈的结果是行业竞争异常激烈,虽然形成了头部效应,但是各家企业的规模优势主要为区域优势,并未形成稳定的行业格局;三是价格战仍是企业扩大市场份额的主要手段。企业要保持自己不掉队,不败于激烈的市场竞争中,不仅要保持对国家政策、

16、电商商业模式的关注,更要从自身的运营和管理进行调整和优化,保持企业柔性,以应对行业可能出现的迭代和升级。2.3 直播电商为快递需求提振提供新的增长曲线 电子商务的持续繁荣是快递行业稳定增长的基础。在新冠肺炎疫情影响下,无接触经济迅速发展,消费者对网络购物的接受程度和依赖程度大幅提高,线上渗透率持续攀升,呈现出了全新的、平台多元化的网络购物新生态。公开数据显示,截至2021年12月,电商直播用户规模占手机网民整体规模的45%。短视频月活已经突破9.9亿人,占手机网民整体规模的比例超过95%。考虑到短视频在移动互联网用户中的高渗透率以及短视频与直播电商之间的高转化率,电商直播未来还有较大的提升空间

17、,直播电商用户快速增长的同时,电商直播渗透率也在增长。报告显示,2018年至2021年,直播电商的渗透率分别为1.6%、4.3%、8.6%和17.97%,渗透率增速依次为492.59%、168.74%、100%和108.95%。07 快递行业云上技术服务白皮书快递行业云上技术服务白皮书经过这次疫情,线上化已经渗透各个产业和服务,数字化发展已经是毫无疑问的方向,以此为前提,快递企业要深入分析自己的运营和服务,做好规划和应对。2.4 长期看:快递产业仍处于成长期,未来发展空间可观2021年,全国快递服务企业业务量累计完成1083.0亿件,同比增长29.9%;业务收入累计完成10332.3亿元,同比

18、增长17.5%。其中,同城业务量累计完成141.1亿件,同比增长16.0%;异地业务量累计完成920.8亿件,同比增长32.8%;国际/港澳台业务量累计完成21.0亿件,同比增长14.6%。图4:中国直播电商交易规模及增长率图5:2017-2021年快递业务发展情况快递行业云上技术服务白皮书 08快递行业本身成长性很好,直播电商投资规模仍在增长,5G技术又带来直播生态的升级,行业未来发展空间很大。并且新的商业模式和业务领域将不断涌现,行业还有很多年可供耕耘,有众多细分领域可供开拓。不论是国家还是地方,都对行业发展寄予厚望,并给予很好的政策发展环境。上述这些都给行业发展增加了诸多助力,快递企业可

19、坚定继续在行业发展的信心。3.快递业务介绍3.1 快递行业业务术语表四:快递行业术语是由菜鸟网络和快递公司联合向商家提供的一种通过热敏纸打印输出纸质物流面单的物流服务,是物流传输过程中的唯一单据。中心一般为快递总部直接管理,其资金来源都为总部提供,其【成本】和【产能】可以说是整个快递行业的重要指标。中心的量也是快递公司的核心。中心上一站是网点,下一站是中心。比如:东莞网点-广东中心-北京中心,就是揽收出港。揽收出港快递网点就是某个地区的收发件的门店。寄快递可以到网点去寄,也可以给快递员打电话寄件,快递员收了快递包裹也是拿回网点统一发货的。网点已收件、揽件、收寄:快递员上门去发货方处取件成功的表

20、示。揽件、收寄快递单号开头的三段数字,一段是城市二段网点三段业务员,三段码:,分解第一段342代表末端中心对应的编码(比如342代表杭州,表示发往杭州分拨中心的包裹),第二段077代表杭州分拨中心下属的XX网点或XX快递分公司的代号(代号规则由快递公司录入维护),第三段516代表末端派件网点管理的小件员代号或承包区,借助三段码大大提升了分拣效率。电子面单三段码属于物流的一个分支,以经营小件包裹为主。它追求的是速度,是在最快的时间内以最安全的方式给客户提供便捷快速的服务。名词含义快递09 快递行业云上技术服务白皮书快递行业云上技术服务白皮书运输管理系统,英文缩写“TMS”,是

21、一种“供应链”分组下的(基于网络的)操作软件。它能通过多种方法和其他相关的操作一起提高物流的管理能力;包括管理装运单位,指定企业内、国内和国外的发货计划,管理运输模型、基准和费用,维护运输数据,生成提单,优化运输计划,选择承运人及服务方式,招标和投标,审计和支付货运账单,处理货损索赔,安排劳力和场所,管理文件(尤其当国际运输时)和管理第三方物流。TMS仓库管理系统(WarehouseManagementSystem)的缩写,仓库管理系统是通过入库业务、出库业务、仓库调拨、库存调拨和虚仓管理等功能,对批次管理、物料对应、库存盘点、质检管理、虚仓管理和即时库存管理等功能综合运用的管理系统,有效控制

22、并跟踪仓库业务的物流和成本管理全过程,实现或完善企业的仓储信息管理。WMS巴枪又被叫做物流PDA或者物流手持终端,以PDA手持终端作为数据存储的载体,搭载操作系统、扫描引擎,借助无线通讯方式,通过条码扫描形成一套数据采集传输系统。巴枪订单管理系统(OMS)是物流管理系统的一部分,通过对客户下达的订单进行管理及跟踪,动态掌握订单的进展和完成情况,提升物流过程中的作业效率,从而节省运作时间和作业成本,提高物流企业的市场竞争力。OMS从下单成功后,创建物流单完成到买家收货的全过程。配送包裹从揽收到派送的全过程叫做履行,是一个动态的过程(是以包裹的角度来讲的)。在菜鸟内部有一个GSDP的平台,专门负责

23、履行。履行大头笔是一种很粗略的分拣信息,标明了包裹要去的大概方向,一般基于三级地址或四级地址来配置规则,只能进行很粗的分拣。比如从北京朝阳发往浙江杭州余杭区包裹,YTO圆通大头笔记为:余杭。大头笔一个快递包裹的大体生命周期如下,揽收-网点-始发中心-目的地中心-目的地网点-派送,在经历其中的每一个节点,都需要对包裹按照下一个目的地进行分类(分拣)。分拣中心集散中心,也叫分拨中心,转运中心等,就是全国各地的快递到这里要按地址进行分件,然后再由各线路班车或者航班发往目的地。集散中心包裹经过的最后一个中心。末端中心包裹经过的第一个中心。始发中心快递行业云上技术服务白皮书 103.2 包裹全生命周期一

24、个包裹最终要到达消费者手中,期间会经过多个分拨中心和网点。首先小件员将包裹揽收到揽收网点,再交由本地分拨中心分拨,此处分拨中心我们叫做始发中心。揽件网点处理包裹若发现本地到达目的地(末端中心)的件量太少,为了节省运输成本,会和其它包裹一起集包。集包后的包裹们到达始发分拨中心不需要拆包,而是直接装车发往末端中心,始发中心到末端中心运输过程叫做干线运输,包裹通过干线运输到达末端中心后,末端中心会再次分拣,将包裹分发给各个网点的提货车,由对应的运输车辆将货物拉回到派件网点。终于包裹到达了派件网点,会进行最后一次分拣,分给对应的小件员并派送给用户。图6:包裹全生命周期图11 快递行业云上技术服务白皮书

25、快递行业云上技术服务白皮书3.3 快递业务主体流程网点揽收:商家发货后,小件员上门揽收,网点集货后运输到就近的转运中心交货(支线运输),网点也可能会进行集包,主要取决于集包规则和自身的集包能力。中心出港:转运中心汇集下属网点的包裹,集中进行集包分拣操作,将包裹按照目的地址分拣到全国各个流向,干线运输车辆按照排班,装货后发往目的中心(干线运输)。中心进港:末端中心汇集来自全国各地的包裹,进行进港分拣操作,将包裹按照目的地址和网点派送区域分拣到相应的派送网点,网点派遣车辆按照指定时间前往中心取货(回货)。网点派送:网点回货后,会将包裹再一次细分到承包区或者小件员,接下来由小件员进行派送(上门或者放

26、到三方代收点)。3.4 快递业务核心系统分析接下来我们先看下快递的主体业务流程和面临的挑战,通常一个包裹的生命周期图7:快递业务主体流程图快递行业云上技术服务白皮书 12主要是收(揽收)发(发往转运中心)到(目的地转运中心)派(网点派件)签(末端,消费者签收)。对应整个快递公司应用架构主要核心系统是订单系统、把枪系统、分拣系统、运输管理系统。其中订单系统将承载海量的交易订单,是所有链路的入口,也是可用性和时效要求最高的系统,零漏单是最基本的业务目标,他是后续运单业务的基础。把枪系统:在一个包裹收派的全生命周期,把枪系统都需要承载压力。他是整个快递业务架构的核心,并发和数据量都非常大,通常1条订

27、单数据对应15条把枪轨迹数据。不管是收发快递员,转运中心,网点中心仓库管理员,全国分拨中心都重度依赖把枪系统。分拣:一个快递包裹全生命周期经历其中的每一个节点,都需要按照包裹下一个目的地进行分类和分拣。例如到达杭州中心的包裹,需要按照杭州下属的所有网点进行分类,然后集中装车,发往对应的网点进行派送,一个中心每天包裹量往往在几十万数量级,过去依赖人工来完成分拣,工作量巨大,人力成本高同时非常容易出错。在这样的背景下,自动分拣技术逐渐发展成熟。分拣系统:主要承载始发站和目的地站转运中心业务,尤其是目的地转运中心尤为重要,他是整个业务的交叉带。如果把枪出问题,那影响的是只是少部分包裹数据,如果分拣系

28、统出问题那将影响大批量的分拣卡口数据。图8:快递业务核心分析图订单环节:订单环节将承载海量的交易订单,是所有链路的入口,也是可用性和时效要求最高的系统,业务和商家大促同属于一波大促高峰。0漏单是最基本的业务目标,是后续运单业务的基础。收寄环节:派揽、揽收。把枪系统在一个包裹收派的全生命周期都需要承载压力,他是整个快递业务架构的核心,并发和数据量都非常大,不管是收发快递员,转运中心,网点中心仓库管理员,全国分拨中心都需要重度依赖这把枪系统。分拣环节:将订单数据分发到分拣中心,依托系统的高并发处理能力,高效的将包裹精准快速的分发到相应的中转运中心。13 快递行业云上技术服务白皮书快递行业云上技术服

29、务白皮书4.快递行业技术服务最佳实践4.1 核心业务上云最佳实践4.1.1 上云背景介绍随着云计算的快速发展和成熟,越来越多的快递企业正在把自己的核心系统向云上迁移,从而享受云计算带来的技术红利。IDC发布的全球云计算IT基础设施市场预测报告显示:2019年全球云上的IT基础设施占比超过传统数据中心,成为市场主导者。在技术层面,云计算在成本、稳定、安全和效率层面已经远超传统IT。对于企业而言,上云后综合成本下降一半,稳定性提升10倍以上,安全性更是提升50倍。这些信号都在标志着以云计算为基础的数字化时代全面到来。绝大部分快递公司以前都是使用线下机房作为计算及数据存储平台,随着业务量的快速增长,

30、原有线下传统的IT系统遇到了极大挑战,比如618、双十一等大促活动对资源的弹性扩缩及系统稳定性要求极高,传统的IDC系统架构就无法很好的满足业务需求。另外从快递行业发展看,基于传统IOE架构构建的系统无法支撑业务高速增长后的数据量膨胀,受限于资源不可快速地缩容,快递企业只能保留3-6个月的数据信息,且无法对历史包裹进行线上查询和分析,相关应用受阻。由此可见,快递公司如何充分利用云计算的基础设施构建安全、高可用、敏捷的系统架构是未来公司发展的核心竞争力。4.1.2 云原生应用架构优势应用架构被认为是技术发展和创新的火车头。首先,好的应用架构可以快速支撑业务的高速发展;其次,敏捷的应用架构可以大大

31、提升研发效能;最后好的应用架构还可以大大减少后端资源的使用,降低运维的压力。快递行业云上技术服务白皮书 14快递公司是非常典型的云边一体架构,实操环节很重。尤其头部的快递公司基本都拥有数万个分点部和几百个中转场、仓储场地。大量的业务逻辑下沉到边缘,边缘设备的管理和运营挑战压力越来越大,所以快递公司在上云改造过程中,云边一体化的架构升级改造是快递公司必然的选择。通过云边一体,可以让开发在同一个平台上面完成云上业务及边缘侧业务的迭代开发。同时,快递公司还有典型的大数据处理场景,全网每天会新增数亿条扫描数据,需要对这些数据进行实时分析,这就对快递企业的数据处理要求非常高。云原生技术天然适合解决传统应

32、用升级缓慢、架构臃肿、不能快速迭代等问题。具体来看,云原生有四点优势是快递企业迫切需要的:一是云原生架构带来更快速的业务交付速度。数字化转型的紧迫需求下使得快递企业越来越多的业务衍变成数字化业务,数字化业务对于业务渠道、竞争格局、用户体验等诸多方面都带来了非常严苛的要求,直面用户需求更加快速的响应成为企业的核心竞争优势。应用微服务化开发,服务之间使用标准的API接口进行通信。松耦合架构会减轻因需求变更导致的系统迭代成本,为多团队并行开发提供基础,并加快交付速度。云原生技术实现了应用的敏捷开发,大幅提升交付速度,降低业务试错成本,快速响应用户需求,增强用户体验,加速业务创新。二是云原生架构能够更

33、好的提升业务稳定性。自动化程度高,自愈性高,云原生使得应用本身具有“韧性”,即面对强大压力的缓解能力以及压力过后的恢复能力。通过服务状态、系统健康度、接口调用情况、异常的实时告警等实现可视化及预警化,自动化的量化和监控功能,结合业务健康检测启用容器级别的异常自动恢复,及时规避业务风险。三是云原生架构大幅减少企业IT成本。云原生极致的弹性免除了企业侧因应对峰值业务所带来的预留资源的浪费,提高资源的复合利用率,降低了资源成本。同时传统IT架构下的应用中捆绑嵌入了大量的非业务功能,重复造轮子现象严重,研发成本居高不下。云原生技术标准化的交互方式,应用与应用基础设施(编程框架、中间件等)逐步分离,应用

34、基础设施从专用转为通用,从中心化转为松耦合模块化。应用基15 快递行业云上技术服务白皮书快递行业云上技术服务白皮书础设施下沉与云平台充分融合,将云能力与应用基础设施能力进行整合封装构筑统一的技术中台,向业务应用提供简单、一致、易于使用的应用基础设施能力接口,实现技术中台化,缩减重复开发的人力与资源成本。四是云原生架构更大程度的降低了内部协同的折耗。通过引入DevOps理念优化软件研发运营全周期的管理,从软件需求到生产运维的全流程改进和优化,结合统一工具链,实现文化、流程、工具的一致性,降低组织内部的沟通与管理障碍,加速业务的流程化、自动化。云原生架构变革了研发运营的生产方式,打破组织壁垒,实现

35、研发与运维的跨域协同,进一步解放生产力。云原生应用架构改造。某头部快递公司原来的IT架构是基于VMware+Oracle数据库的架构,与阿里云原生团队沟通后,决定采用基于Kubernetes的云原生架构体系。对应用服务架构进行改造,上云之前先对应用的结构、中间件以及研发发布流程都进行了一次整体的改造升级,如下:4.1.2.1 引入云原生中间件产品1)消息队列在快递行业应用链路中主要用于订单/实操链路异步解耦,是非常核心的组件,RocketMQ,RabbitMQ升级到云原生的版本,利用云产品提供的高可用能力提高核心组件稳定性。2)注册中心&配置中心从原来的consul迁移到了mse的nacos版

36、本。3)分布式任务从原来自建的xxl-job,逐步到schedulerX2.0。4.1.2.2 应用容器化跟虚拟机比起来,容器可以同时提升效率和速度,让其更适合微服务场景。另外所有应用原来都是通过jeckins打成war或jar包,直接发布到物理机器上,存在多个应用发布到一台机器上的情况。引入容器技术,解决了环境不一致的问题,保证应用在开发、测试、生产环境的一致性。1)统一镜像,保障日常、预发、生产的环境,固定pod的规格。快递行业云上技术服务白皮书 162)统一jvm的参数规范,统一标准模板。3)准化日志打印格式,封装定义统一的业务日志埋点。4)改造pod的统一readness,livene

37、ss的心跳检测机制,自动拉起pod。4.1.2.3 引入云原生数据库方案通过引入OLTP和OLAP型数据库,将在线数据与离线分析逻辑拆到两种数据库中,不再完全依赖Oracle。这就解决了在历史数据查询场景下Oracle支持不了的业务需求,这里主要推荐使用阿里云的Polardb,主要理由如下:1)支持容量百T的扩容,不用再分库处理,数据量大的,dms提供直接把数据备份到OSS上(OSS的存储成本极低)。2)分布式数据库,可以做读写分离,且共用一个存储节点,(但注意,有踩坑,这里还是会有部分延迟低,在10ms内)。3)读节点可以动态扩容,最多扩充到15个读节点(大促期间,可以开启动态扩缩容能力,当

38、cpu超过80%,自动扩容,否则缩容)。4)当前这里的数据库选型推荐主要基于历史经验,也可以选择RDS-MYSQL作为在线数据处理。4.1.2.4 云原生Pass服务集成云原生Pass服务集成如下图所示:图9:云原生Pass服务集成图17 快递行业云上技术服务白皮书快递行业云上技术服务白皮书持续集成通过Git做版本控制,利用云效的持续集成功能实现了云原生应用的构建、编译及镜像上传,全部的业务镜像均保存在云端的镜像服务仓库,底层是Kubernetes集群作为整个业务的计算资源。其他集成的服务包括:日志服务:通过集成日志服务方便研发人员方便定位业务及异常日志。云监控:通过集成监控能力,方便运维研发

39、人员快速发现故障。服务接入:通过集成统一的接入,整个应用流量可做到精细化管理。弹性伸缩:借助ESS的能力对资源进行动态编排,结合业务高低峰值做到资源动态分配。4.1.2.5 容器服务集群高可用架构ACK集群多层级高可用示意如下图所示:架构说明:图10:ACK集群多层级高可用示意图快递行业云上技术服务白皮书 18容器集群内故障迁移。AZ故障整体容器迁移。Kubernetes集群通过控制应用的副本数来保证集群的高可用。当某个Pod节点出现宕机故障时,通过副本数的保持可以快速在其他Worker节点上再启新的Pod。通过引入监控体系主动发现业务问题,快速解决故障。监控采集示意如下图所示。在同一个Pod

40、里面部署了两个容器,一个是业务容器,一个是Logtail容器。应用只需要按照运维定的目录将业务日志打进去,即可完成监控数据采集。云原生应用架构改造后的技术架构图如下:图11:监控采集示意图19 快递行业云上技术服务白皮书快递行业云上技术服务白皮书4.1.3 业务迁移上云最佳实践通过云化改造后,开始制定各种上云的切流方案。涉及到切流上云的应用多达几百个,整体的依赖又较为复杂,特别核心系统的切流完全不能中断,还有中间件的切流,数据库的切流等。关键切流方案如下:4.1.3.1 应用平滑上云-注册中心迁移阿里云微服务引擎MSE提供注册中心动态迁移方案,该方案基于JavaAgent技术实现。在不需要修改

41、代码的情况下,在应用服务注册和服务发现阶段通过JavaAgent技术无感知地自动调整应用原来的服务注册和服务发现的逻辑,来帮助您通过服务双注册和双订阅实现应用注册中心平滑迁移。4.1.3.1.1 迁移方案介绍MSE提供了托管版的Nacos,相比开源Nacos功能更强大和稳定,能帮助您免去图12:云原生应用架构改造后的技术架构图快递行业云上技术服务白皮书 20运维Nacos集群的烦恼,更加聚焦业务本身的实现。但从使用自建注册中心转向MSE提供的注册中心服务,将涉及对当前应用的注册中心迁移。一般的迁移方法分为停机迁移和非停机迁移。4.1.3.1.1.1 停机迁移如果业务可以接受一段时间的停止对外服

42、务,可通过停机修改应用注册中心配置将应用从自建注册中心迁移到MSE上注册中心。该种方式特点简单,但所带来的劣势是工作量大、涉及人员较多、流程繁琐耗时,导致注册中心迁移成本高、难度大、影响面广。4.1.3.1.1.2 非停机迁移对于大多数企业客户来说,确保注册中心迁移过程平滑、业务无中断非常重要。阿里云微服务引擎MSE提供的基于JavaAgent技术实现的双注册和双订阅迁移方案可实现应用注册中心的非停机平滑迁移。该方案在不需要修改任何代码的情况下,在应用服务注册和服务发现阶段通过JavaAgent技术无感知地自动调整应用原来的服务注册和服务发现逻辑,来帮助应用在迁移过程中同时接入两个注册中心,让

43、已迁移的应用和未迁移的应用可以互相发现,调用不中断,进而保证业务的连续性。相较于停机迁移,该迁移方案仅需重启一次应用接入MSE即可,迁移过程操作便捷,迁移周期短,成本低。4.1.3.1.1.3 支持的注册中心迁移类型目前,MSE已经支持SpringCloud、Dubbo以及非Java应用从开源注册中心向MSE注册中心迁移,具体支持的迁移类型如下:21 快递行业云上技术服务白皮书快递行业云上技术服务白皮书23 快递行业云上技术服务白皮书快递行业云上技术服务白皮书4.1.3.1.1 注册中心迁移参考文档4.1.3.1.2 注册中心迁移参考文档 表五:MSE支持类型MSEEurekaMSENacos

44、微服务框架引擎类型MSE注册中心开源注册中心ZooKeeperSpringCloudDubboDubbo非JavaSpringCloud非JavaSpringCloudSpringCloudNacosEurekaConsul快递行业云上技术服务白皮书 22快递行业云上技术服务白皮书 244.1.3.1.3 SpringCloud应用从开源Consul迁移到MSENaco实战MSE提供了托管版的Nacos,包含比开源Nacos更强大更稳定的功能,能帮助您免去运维Nacos集群的烦恼,更加聚焦业务本身的实现,同时MSE也提供了专业版的Nacos专家支持。本文介绍如何将SpringCloud应用从开

45、源Consul平滑迁移至MSE。表六:注册中心迁移参考文档将SpringCloud应用从开源Eureka迁移到MSENacos将SpringCloud应用从开源ZooKeeper迁移到MSENacos将SpringCloud应用从开源Consul迁移到MSENacos将SpringCloud应用从开源Nacos迁移到MSENacos将SpringCloud应用从开源Eureka迁移到MSEEureka将SpringCloud应用从EDAS注册中心迁移到MSENacos将Dubbo应用从开源Nacos迁移到MSENacoshttps:/ 前提条件创建Nacos引擎:https:/ 迁移方案MSE

46、基于JavaAgent技术,您只需要接入MSE,就能享受微服务的功能,无需修改任何代码和配置。详细的迁移架构图如下:图13:MSE基于JavaAgent技术的迁移架构图图15:参数配置向导步骤一:为集群安装MSE治理中心组件登录容器服务控制台。1)在左侧导航栏选择市场应用市场。2)在应用市场页面单击应用目录页签,然后搜索并单击ack-onepilot。3)在ack-onepilot页面右上方单击一键部署,在创建面板中选择集群和命名空间,设置组件发布名称,然后单击下一步。4)在参数配置向导中确认组件参数信息,然后单击确定。步骤二:为应用开启MSE服务治理1)登录MSE治理中心控制台。图14:参数

47、配置向导25 快递行业云上技术服务白皮书快递行业云上技术服务白皮书2)在左侧导航栏选择微服务治理中心 K8s集群列表。3)在K8s集群列表页面搜索框列表中选择集群名称或集群ID,然后输入相应的关键字,单击搜索图标图标。4)单击目标集群操作列的管理。5)在集群详情页面命名空间列表区域,单击目标命名空间操作列下的开启微服务治理。步骤三:开启Consul无缝迁移功能1)登录容器服务控制台。2)在左侧导航栏单击集群,然后在集群列表页面单击目标集群名称。3)在集群详情页面左侧导航栏选择工作负载 无状态,选择命名空间。4)在目标应用右侧单击编辑。5)在编辑页面的环境变量区域单击新增,添加以下环境变量,然后

48、单击更新。表七:新增环境变量说明图15:新增环境变量编辑变量名称变量/变量引用类型additional_nacos_namespace自定义e5bdc7e1-xxxx-4e2b-906d-b47b8efeee8b说明该配置选填,若不配置,则使用MSENacos默认命名空间。additional_nacos_address自定义mse-9xxxxx-p.nacos-:8848说明该变量值为MSENacos的地址。快递行业云上技术服务白皮书 26步骤四:结果验证登录ConsulServer控制台,查看服务注册实例信息:登录MSENacos控制台,查看服务注册实例信息:4.1.3.2 应用平滑上云-

49、开源RocketMQ迁移上云和开源RocketMQ相比,阿里云消息队列RocketMQ版具有更高的稳定性、安全性及更完善的运维体系。您可以将开源RocketMQ集群迁移到消息队列RocketMQ版上以获得更好的业务体验,本文介绍开源RocketMQ集群迁移到消息队列RocketMQ版的原理和操作流程。图17:ConsulServer控制台查看服务注册实例信息图17:MSENacos控制台查看服务注册实例信息图18:验证服务调用结果27 快递行业云上技术服务白皮书快递行业云上技术服务白皮书4.1.3.2.1 迁移原理对于消息队列来说,如果要实现集群迁移,只需消费完旧集群的消息即可。由于Produ

50、cer和Consumer都是集群化的,您可以通过一台一台操作的方式实现上层业务无感知。4.1.3.2.2 云原生RocketMQ优势和开源RocketMQ相比,消息队列RocketMQ版具有以下优势:高稳定性:消息队列RocketMQ版作为阿里巴巴双十一官方指定消息产品,支撑阿里巴巴集团所有的消息服务,历经十余年高可用与高可靠的严苛考验,具有更高的稳定性。高性能:历年双11购物狂欢节零点千万级TPS、万亿级数据洪峰,创造了全球最大的业务消息并发以及流转纪录(日志类消息除外);在始终保证高性能前提下,支持亿级消息堆积,不影响集群的正常服务。丰富的消息类型:提供丰富的消息类型,满足各种严苛场景下的

51、高级特性需求,当前支持的消息类型涵盖普通消息、顺序消息(全局顺序和分区顺序)、分布式事务消息、定时消息、延时消息。完善的运维体系:消息队列RocketMQ版支持消息查询、全链路消息轨迹查询以及消息回溯等功能,帮助您快速发现和处理系统问题,提高运维效率。安全访问控制:以消息主题、订阅组的粒度,对每一条消息的收、发请求都进行严格的访问控制,确保消息的安全性;全面支持阿里云RAM主子账号、黑白名单、STS等功能,支持TLS传输加密协议。4.1.3.2.3 迁移操作流程开源RocketMQ迁移到消息队列RocketMQ版的操作流程如下图所示:图19:开源RocketMQ迁移到消息队列RocketMQ版

52、操作流程示意图步骤一:创建迁移任务步骤二:迁移评估步骤三:迁移元数据步骤四:迁移消息服务快递行业云上技术服务白皮书 28步骤一:创建迁移任务在消息队列RocketMQ版控制台创建迁移任务,将开源RocketMQ导出的元数据文件导入至消息队列RocketMQ版。1)登录消息队列RocketMQ版控制台。2)在左侧导航栏单击迁移上云。3)在顶部菜单栏,选择地域,如华东1(杭州)。4)在迁移上云页面左上角单击创建任务。5)在创建任务配置向导页面,完成以下操作并单击下一步。a)在任务名称文本框输入迁移上云的任务名称。说明:任务名称长度限制为364个字符,只能包含中文、英文、数字、短划线(-)和下划线(

53、_)。b)单击元数据参数右侧的点击上传元数据文件按钮,选择提前导出的JSON格式的元数据文件。元数据导出操作,请参见准备工作。步骤二:迁移评估从技术和成本方面分别评估迁移上云的条件。表八:迁移评估内容说明评估项消息大小普通和顺序消息:4MB事务和定时或延时消息:64KB说明:其中,所有消息类型的消息属性大小均不能超过16KB。Pull消费接口情况仅企业铂金版支持Pull消费方式,标准版不支持,如果使用Pull方式消费消息,请提前准备消息队列RocketMQ版的企业铂金版实例作为迁移的目标实例。更多信息,请参见订阅消息。定时消息云上支持定时时间秒级精度,建议使用云上使用方式实现。更多信息,请参见

54、定时和延时消息。spring-cloud-alibaba如果您的开源RocketMQ客户端使用的是spring-cloud-alibaba,请确保您的SDK升级为最新版本。C+SDK如果您的开源RocketMQ客户端使用的是C+SDK,请确保您的SDK版本为2.0.1及以上。JavaSDK客户端版本确认功能确认云上Quotas限制如果您的开源RocketMQ客户端使用的是JavaSDK,请确保您使用的客户端的SDK版本为4.9.0及以上。29 快递行业云上技术服务白皮书快递行业云上技术服务白皮书步骤三:迁移元数据将Topic和Group的元数据迁移至云上的消息队列RocketMQ版实例中。1)

55、登录消息队列RocketMQ版控制台。2)在左侧导航栏单击迁移上云。3)在顶部菜单栏,选择地域,如华东1(杭州)。4)在迁移上云任务列表中选择指定的任务,在其操作列单击详情。5)在迁移元数据配置向导页面的目标实例下拉菜单中,选择已创建好的消息队列RocketMQ版实例作为元数据导入的目标实例,并单击确认。6)此时所有的Group元数据已经在后台完成自动导入,界面只显示所有Topic的资源列表,您需要完成所有Topic类型的订正及导入操作后才能查看所有资源的导入结果。7)完成所有Topic消息类型的订正和导入操作,然后单击页面下方的确认。a),在资源列表中选择指定的Topic资源,在其消息类型列

56、的下拉菜单中选择Topic类型,然后在其操作列单击确认并导入;您也可以选中多个Topic,确认完所有选中Topic的类型后,单击页面左下角的批量确认并导入。b)在弹出的提示对话框中单击确认。资源列表中将显示所有Topic和Group的信息及迁移结果。您可以在资源列表上方的迁移详情区域查看所有资源的迁移结果总览。您也可以根据资源名称、资源类型或执行结果进行过滤,查看指定资源的迁移结果。步骤四:迁移消息服务分批将消息生产者集群和消费者集群的节点连接到云上的消息队列RocketMQ版实例,完成消息收发链路的平滑迁移。定时/延时消息的延时时长最大延时时长为40天消息保留时长最大保留时长为3天。快递行业

57、云上技术服务白皮书 301)切换消费者集群中部分节点的接入信息,将这部分消费者接入到云上的消息队列RocketMQ版。切换的这部分消费者将消费消息队列RocketMQ版集群中的消息,剩余消费者继续消费开源RocketMQ集群中的消息。2)切换生产者集群中部分节点的接入信息,将这部分生产者接入到云上消息队列RocketMQ版。切换的这部分生产者将发送消息到消息队列RocketMQ版集群中;剩余的生产者还是将消息发送到开源RocketMQ集群中。3)将剩余的生产者全部接入到消息队列RocketMQ版上。4)此时所有消息将全部被发送到云上的消息队列RocketMQ版集群中。5)将剩余的消费者全部接入

58、到消息队列RocketMQ版上。注意:切换剩余消费者之前,请确保开源RocketMQ中的消息已全部消费完,否则可能会导致消费遗漏。您可以通过查看开源RocketMQ中的消息堆积量来判断消息是否消费完成。此时所有的生产者和消费者都迁移到消息队列RocketMQ版集群上,所有的消息收发都在消息队列RocketMQ版集群中完成。4.1.3.3 应用平滑上云-数据库迁移数据迁移功能帮助您实现同构或异构数据源之间的数据迁移,适用于数据上云迁移、阿里云内部跨实例数据迁移、数据库拆分扩容等业务场景。本文将介绍数据迁移功能支持的数据库、版本和迁移类型,以及具体的配置文档。4.1.3.3.1 迁移类型说明图20

59、:迁移消息服务结果示意图31 快递行业云上技术服务白皮书快递行业云上技术服务白皮书4.1.3.3.2 迁移方案概览DTS支持以下迁移方案,您可以根据业务需求单击具体方案,来查看支持的版本、迁移类型和配置步骤。表九:迁移类型说明表十:迁移方案概览迁移类型说明增量数据迁移DTS会先在源库中实现用于全量数据迁移的静态快照,然后将快照数据迁移到目标库,最后再将迁移过程中源库产生的增量数据实时同步至目标库。说明:增量数据迁移会保持实时同步的状态,所以迁移任务不会自动结束,您需要手动结束迁移任务。全量数据迁移DTS将源库中待迁移对象的存量数据,全部迁移到目标库中。如果在配置数据迁移任务时,仅选择了结构迁移

60、和全量数据迁移,那么在迁移过程中,源库的新增数据不会被迁移至目标库。说明:为保障数据一致性,迁移期间请勿在源库中写入新的数据。如需实现不停机迁移,您需要在配置数据迁移任务时,同时选择结构迁移、全量数据迁移和增量数据迁移。库表结构迁移DTS将源库中待迁移对象的结构定义迁移至目标库(例如表、视图、触发器、存储过程等)。对于异构数据库之间的结构迁移,DTS会根据源库和目标库的语法,将结构定义的语法进行转换,例如将Oracle中的number转换为MySQL中的decimal。源为自建Redis或云数据库Redis的迁移方案https:/ 324.1.3.3.3 自建Oracle迁移至PolarDBM

61、ySQL本章节将介绍如何使用数据传输服务DTS(DataTransmissionService),其他数据库类型迁移请参考上面迁移方案概览。将自建Oracle迁移至PolarDBMySQL引擎集群。DTS支持结构迁移、全量数据迁移以及增量数据迁移,同时使用这三种迁移类型可以实现在本地应用不停服的情况下,平滑地完成Oracle数据库的数据迁移。4.1.3.3.3.1 前提条件1)已创建源数据库自建Oracle和目标集群PolarDBMySQL引擎。2)自建Oracle数据库已开启ARCHIVELOG(归档模式),设置合理的归档日志保持周期且归档日志能够被访问,详情请参见ARCHIVELOG。3)

62、自建Oracle数据库已开启SupplementalLogging,且已开启supplemen-tal_log_data_pk,supplemental_log_data_ui,详情请参见SupplementalLogging。4)已创建目标PolarDBMySQL引擎集群,详情请参见购买按量付费集群和购买包年包月集群。5)PolarDBMySQL引擎集群的存储空间须大于自建Oracle数据库占用的存储空间。4.1.3.3.3.2 注意事项带宽要求:源库所属的服务器需具备足够出口带宽,否则将影响数据迁移速率。如自建Oracle为RAC架构,且用专线/VPN网关/智能接入网关、数据库网关DG、云

63、企业网CEN和ECS的接入方式,则不支持配置ScanIP,仅支持将其中任意1个VIP配置到连接信息中,该方式配置后不支持RAC的节点切换。迁移对象要求:待迁移的表需具备主键或唯一约束,且字段具有唯一性,否则可能会导致目标数据库中出现重复数据。表十一:注意事项明细源库限制类型说明33 快递行业云上技术服务白皮书快递行业云上技术服务白皮书如果您的自建Oracle版本为12c及以上,待迁移表的名称长度需不超过30个字节。如迁移对象为表级别,且需进行编辑(如表列名映射),则单次迁移任务仅支持迁移至多1000张表。当超出数量限制,任务提交后会显示请求报错,此时建议您拆分待迁移的表,分批配置多个任务,或者

64、配置整库的迁移任务。如需进行增量迁移,RedoLog、ArchiveLog:需开启。如为增量迁移任务,DTS要求源数据库的RedoLog、ArchiveLog保存24小时以上,如为全量迁移和增量迁移任务,DTS要求源数据库的RedoLog、ArchiveLog至少保留7天以上(您可在全量迁移完成后将RedoLog、ArchiveLog保存时间设置为24小时以上),否则DTS可能因无法获取RedoLog、ArchiveLog而导致任务失败,极端情况下甚至可能会导致数据不一致或丢失。由于您所设置的RedoLog、ArchiveLog保存时间低于DTS要求的时间进而导致的问题,不在DTS的SLA保障

65、范围内。源库的操作限制:在库表结构迁移和全量迁移阶段,请勿执行库或表结构变更的DDL操作,否则数据迁移任务失败。如仅执行全量数据迁移,请勿向源实例中写入新的数据,否则会导致源和目标数据不一致。为实时保持数据一致性,建议选择结构迁移、全量数据迁移和增量数据迁移。执行数据迁移前需评估源库和目标库的性能,同时建议业务低峰期执行数据迁移。否则全量数据迁移时DTS占用源和目标库一定读写资源,可能会导致数据库的负载上升。由于全量数据迁移会并发执行INSERT操作,导致目标数据库的表产生碎片,因此全量迁移完成后目标数据库的表存储空间会比源实例的表存储空间大。DTS会尝试恢复七天之内迁移失败任务。因此业务切换

66、至目标实例前,请务必结束或释放该任务,或者将DTS访问目标实例账号的写权限用revoke命令回收掉。避免该任务被自动恢复后,源端数据覆盖目标实例的数据。当目标库为PolarDBMySQL时PolarDBMySQL集群对表名的英文大小写不敏感,如果使用大写英文建表,PolarDBMySQL会先把表名转为小写再执行建表操作。如果源Oracle数据库中存在表名相同仅大小写不同的表,可能会导致迁移对象重名并在结构迁移中提示“对象已经存在”。如果出现这种情况,请在配置迁移对象的时候,使用DTS提供的对象名映射功能对重名的对象进行重命名,将表名转为大写,详情请参见库表列映射。DTS会自动在PolarDBM

67、ySQL中创建数据库,如果待迁移的数据库名称不符合PolarDBMySQL的定义规范,您需要在配置迁移任务之前在PolarDBMySQL中创建数据库。相关操作,请参见管理数据库。特殊情况其他限制快递行业云上技术服务白皮书 344.1.3.3.3.4 支持增量迁移的SQL操作表十二:迁移类型说明表十三:支持增量迁移的SQL操作DTS在全量数据迁移的基础上轮询并捕获自建Oracle数据库产生的redolog,将自建Oracle数据库的增量更新数据迁移到目标库。通过增量数据迁移可以实现在自建应用不停服的情况下,平滑地完成数据迁移。增量数据迁移DTS会将自建Oracle数据库迁移对象的存量数据,全部迁

68、移至目标库。全量数据迁移DTS将迁移对象的结构定义迁移到目标库。目前DTS仅支持结构迁移表和索引,且存在以下限制:表:不支持嵌套表;对于聚簇表和索引组织表,会在目标端转换成普通的表。索引:不支持Function-BasedIndex、DomainIndex、BitmapIndex和ReverseIndex。说明:DTS暂不支持结构迁移视图、同义词、触发器、存储过程、存储函数、包、自定义类型等。暂不兼容触发器。建议您删除源库的触发器,以避免因触发器而导致数据不一致的问题。详情请参见源库存在触发器时如何配置同步作业。警告此场景属于异构数据库间的数据迁移,DTS在执行结构迁移时数据类型无法完全对应,

69、请谨慎评估数据类型的映射关系对业务的影响,详情请参见异构数据库间的数据类型映射关系。结构迁移迁移类型说明CREATETABLE(表内定义不能包含函数。)ALTERTABLE、ADDCOLUMN、DROPCOLUMN、RENAMECOLUMN、ADDINDEXDROPTABLERENAMETABLE、TRUNCATETABLE、CREATEINDEXDDLINSERT、UPDATE、DELETEDML操作类型SQL操作语句35 快递行业云上技术服务白皮书快递行业云上技术服务白皮书4.1.3.3.3.5 数据类型映射关系详情请参见:https:/ 准备工作1)登录待迁移的Oracle数据库,创建用

70、于采集数据的账号并授权。(如您已创建包含下述权限的账号,可跳过本步骤)a)自建Oracle数据库请参见CREATEUSER和GRANT。b)PolarDBMySQL引擎集群请参见创建数据库账号。2)开启归档和补充日志。表十四:归档和补充日志按业务需求,选择开启库级别补充日志或者表级别补充日志:说明开启库级别补充日志,则DTS任务运行更为稳定;开启表级别补充日志,则更节约源Oracle数据库的磁盘空间。开启库级别补充日志打开最小补充日志:alterdatabaseaddsupplementallogdata;开启库级主键、唯一键补充日志:alterdatabaseaddsupplementall

71、ogdata(primarykey,uniqueindex)columns;开启表级补充日志打开最小补充日志:alterdatabaseaddsupplementallogdata;开启表级补充日志(两者选其一):开启表级别主键补充日志altertabletable_nameaddsupplementallogdata(primarykey)columns;补充日志执行如下命令,开启归档日志:shutdownimmediate;startupmount;alterdatabasearchivelog;alterdatabaseopen;archiveloglist;归档日志日志类型开启步骤快递

72、行业云上技术服务白皮书 36为Oracle数据库账号授予更精细化的权限。参考:https:/ 操作步骤1)登录新版DTS迁移任务的列表页面。2)在页面左上角,选择迁移实例所属地域。3)单击创建任务,配置源库及目标库信息。4)如果您的自建数据库具备白名单安全设置,您需要复制弹跳框中的DTS服务器IP地址,并加入自建数据库的白名单安全设置中。然后单击测试连接以进行下一步。5)配置任务对象及高级配置。6)上述配置完成后,单击页面右下角的下一步保存任务并预检查。7)预检查通过率显示为100%时,单击下一步购买。8)配置完成后,阅读并勾选数据传输(按量付费)服务条款。9)单击购买并启动,迁移任务正式开始

73、,您可在数据迁移界面查看具体进度。表十五:数据迁移操作步骤对照说执行如下命令,开启记录日志:alterdatabaseforcelogging;记录日志37 快递行业云上技术服务白皮书快递行业云上技术服务白皮书源库信息目标库信息无任务名称接入方式根据源库的部署位置进行选择,本文以有公网IP的自建数据库为例介绍配置流程。说明当自建数据库为其他实例类型时,您还需要执行相应的准备工作,详情请参见准备工作概览。数据库类型选择Oracle。主机名或IP地址填入自建Oracle数据库的访问地址。端口填入自建Oracle数据库的服务端口,默认为1521。说明本案例中,该服务端口需开放至公网。Oracle类型

74、非RAC实例:选择该项后,您还需要填写SID信息。RAC或PDB实例:选择该项后,您还需要填写ServiceName信息。本案例选择为非RAC实例。数据库密码填入该数据库账号对应的密码。数据库账号填入目标PolarDBMySQL引擎集群的数据库账号,权限要求请参见准备工作。PolarDB实例ID选择目标PolarDBMySQL引擎集群ID。实例地区选择目标PolarDBMySQL引擎集群所属地域。接入方式选择阿里云实例。数据库类型选择PolarDBMySQL。数据库密码填入该数据库账号对应的密码。数据库账号填入源Oracle数据库的账号,权限要求请参见准备工作。实例地区选择源Oracle数据库

75、所属地域。类别配置说明DTS会自动生成一个任务名称,建议配置具有业务意义的名称(无唯一性要求),便于后续识别。快递行业云上技术服务白皮书 384.2 大促保障最佳实践4.2.1 背景介绍国家邮政局公布数据称,2021年“双11”期间(11月1日-16日),全国邮政、快递企业共揽收快递包裹68亿件,同比增长18.2%;共投递快递包裹63亿件,同比增长16.2%。其中,第一个高峰出现在11月1日,当日全国共揽收快递包裹5.69亿件,同比增长28.5%,超过今年前9个月日均业务量1倍以上;第二个高峰是11月11日,当天全国共揽收快递包裹6.96亿件,稳中有升,再创历史新高。“双11”对快递行业来说,

76、无疑是一次重大考验,面对全球持续高涨的消费需求和电商企业迫切的时效需求,快递公司需要坚持防疫生产两不误,以科技赋能不断提升物流效率,为电商企业和消费者提供快捷、贴心的服务,打赢“双11”这场攻坚战。当前大部分快递企业核心系统都已迁移到云上,享受云计算带来的技术红利的同时,也对云上业务的稳定性提出了极高的挑战,云上业务的稳定性基本决定了快递公司整个双十一保障的成败。4.2.2 双十一快递业务峰值晴雨表4.2.2.1 国内快递企业双11峰值分析从2020年开始,“双 十一狂欢节”升级为“双十一狂欢季”,双十一分两个阶段,一方面减缓了商家发货的压力,另一方面在营销上商家有了两波密集营销的机会以带动更

77、多销量,电商快递的高峰时间点也随之变化,订单业务的高峰和电商高峰一致,11月1日和11月10日零点开始持续2-3天时间,实操的高峰比订单延后1天左右,持续的时间较长,一般持续5-10天。图26为某快递公司的真实高峰流量截图。39 快递行业云上技术服务白皮书快递行业云上技术服务白皮书4.2.2.2 跨境快递企业双11峰值分析跨境快递主要是出口业务,其中占比最大的淘系订单主要是来自于上游全球速卖通(AliExpress),双十一活动一般从11月11日开始,订单高峰一般和电商业务高峰保持一致,持续2-3天,由于跨境业务运输链路非常长,实操高峰一般从11月13日开始一直持续到11月底结束。图27是某跨

78、境快递公司的双十一高峰流量截图。图21:国内快递企业双11峰值分析图图22:跨境快递企业双11峰值分析图快递行业云上技术服务白皮书 404.2.3 大促保障的五大技术要素4.2.3.1 技术梳理&准入护航是围绕业务全局架构、高可用(诊断、优化、防护、演练)等技术栈对整体活动进行评测、加固、监控等,了解业务的目标、场景、特征是做好护航保障的第一要素。4.2.3.2 架构梳理&评估根据快递行业主链路及业务特性进行架构梳理,对护航关键业务和核心组件进行重点保障。接下来我们看下某快递公司的技术架构,这里我只画了核心业务系统订单、把枪、分拣主体链路和关联关系。通过梳理业务架构图,我们识别到主体链路为:1

79、)订单渠道订单网关MQ解耦订单入库推送订单信息给到下游业务。2)给到把枪系统生产消息给到MQ生成轨迹数据并回传。3)给到分拣系统MQ进行分拣业务。图23:护航业务技术梳理41 快递行业云上技术服务白皮书快递行业云上技术服务白皮书4.2.3.3 全链路场景压测全链路压测是以全链路业务模型为基础,将前端系统、后端应用、中间适配层、DB等整个系统环境,完整得纳入到压测范围中,以http请求为载体,模拟真实的用户行为,在线上构造出真实的超大规模的访问流量,以全链路压测模型施压,直至达到目标峰值,在压测过程中发现系统瓶颈和验证系统能力。4.2.3.3.1 全链路压测核心流程4.2.3.3.1.1 确定压

80、测目标压测目标主要包括压测范围、策略、目的,往往与业务、技术目标息息相关。例如:图24:护航业务架构梳理示意图异常流量的防护,准备DDOS接入应急预案,接入WAF进行应用安全防护,通过Nginx+LUA限流实现网关层保护,通过开源Sentinel实现微服务层面的接口限流保护不管是订单,把枪还是分拣业务,都使用了MQ实现异步消费,MQ的稳定性至关重要,通过容量评估并识别共享实例风险,扩容到铂金版xxQPS。容器服务+神龙服务器是整个业务底座,进行容量评估扩容15个神龙节点外提前准备神龙服务器资源并准备添加节点预案。订单库是核心中的核心,除容量评估升级规格外,进行RDS底层宿主机打散并升级单可用区

81、到多可用部署。快递行业云上技术服务白皮书 42压测范围:用户注册加登录,为大规模拉新做准备。压测策略:高仿真生产环境压测,提前经历真实的业务高峰。压测目的:探测业务吞吐极限,验证架构能力、探测性能瓶颈。4.2.3.3.1.2 梳理系统架构梳理清楚端到端的请求链路、技术架构、分层结构、模块划分,以及RPC、消息、缓存、数据库等中间件的使用情况,分析潜在的瓶颈点,并针对性的增加监控指标、制定应急预案。4.2.3.3.1.3 梳理业务模型压测的业务模型对压测结果的准确性至关重要。全链路压测的链路代表要压测的业务范围,同一条链路需要构造海量的参数集合代表不同用户的不同行为,系统的基础数据、系统预热情况

82、等代表系统的状态。链路范围、链路的访问量级、链路的参数集合、基础数据、预热情况一起构成了压测的业务模型。通常从以下维度梳理业务模型:1.用户行为维度1)确定业务接口的范围、接口的目标量级、接口的参数集合、压力曲线等。2)根据业务特性确定压测数据的分布。例如用户的规模和地域、商品的种类和数量、是否制造热点商家和商品等。1.系统状态维度1)根据业务和场景的特性,确定各组件(例如缓存)的状态。例如拉新场景,缓存命中率非常低,而日常高峰场景,缓存命中率非常高,需要根据不同的场景来准备不同的缓存预热策略。2)根据业务和场景的特性,确定基础数据的量级和范围。例如拉新场景,需要考虑老用户召回的情况,而日常高

83、峰场景,一般准备与活跃用户相当量级的基础数据。总之,业务模型与业务强相关,压测的业务模型对压测结果的准确性至关重要。43 快递行业云上技术服务白皮书快递行业云上技术服务白皮书4.2.3.3.1.4 准备压测脚本根据业务场景编写压测脚本,也可以直接复用已有脚本,建议将脚本录入PTS场景,便于做场景调试。4.2.3.3.1.5 改造升级环境在生产环境进行全链路压测,最核心的是线上写操作不能污染正常的业务数据。因此,需要针对存储做影子库表,即正常业务库表的镜像,让压测流量的数据流转到影子库表,正常业务流量流转到正常业务库表,在逻辑上隔离两种流量,使之互不影响。4.2.3.3.1.6 正常流量联调常通

84、过执行功能回归用例完成联调,是需要将正常回归流量打上流量标(例如在请求中添加Headerx-pts-test=2),这样在查找调用链路时可以精准定位。该环节主要关注点如下:验证探针对正常业务逻辑无影响,用例的测试结果均符合预期。验证探针对依赖组件的适配情况,无遗漏的RPC调用、采集的数据准确无误;调用链完整性是全链路压测数据安全的核心。4.2.3.3.1.7 准备压测数据1.确认影子库表范围影子库表的范围就是压测链路涉及到的应用使用到的库表。在梳理过程中,需要包括库名、表名、数据量级、核心业务字段(例如商品ID、用户ID等),表与表之间字段的关联性(外键、JSON字段中的引用等均包括在内)。2

85、.确认偏移字段、脱敏字段偏移字段:字段偏移可以极大的保证业务数据的安全。偏移字段一般选择用户ID、商品ID等关联字段,如果有用到Sequence类的分布式ID组件,也需要进行偏快递行业云上技术服务白皮书 44移。根据业务的实际增长选择不同的偏移量,一般会选择10年以上都不会用到的值作为偏移量。4.2.3.3.1.8 联调压测流量根据步骤七:准备压测数据中梳理的库表情况,在控制台填写影子规则,不同规则需要填写的字段不尽相同。根据步骤六:正常流量联调中梳理的第三方服务依赖情况在控制台配置Mock规则。如果需要使用复杂的动态响应结果,需要申请部署MockServer。与正常流量联调的方式基本一致,联

86、调过程中需要将压测流量打上流量标(例如在请求中添加Header1x-pts-test=1),在查找调用链时可以精准定位。该环节主要关注点如下:1)验证业务逻辑是否正常,用例的测试结果均需符合预期。此环节受基础数据影响比较大,容易出现某个字段不符合某些校验逻辑而导致业务进行不下去。2)验证压测流量产生的调用链是否与正常流量一致,如果不一致需要相关人员介入排查原因。验证影子隔离和Mock规则是否有效,如果有正式表存在测试数据写入或者影子表有正常数据写入,则需要相关人员介入排查原因。4.2.3.3.1.9 单链路小流量试压不同的业务、压测目标往往对应不同的压测节奏和方法,不可一概而论。除了注意以下要

87、点之外,还需根据业务、架构、人员等自身情况,制定不同的压测计划,在尽量避免线上故障的前提下,发现更多的线上问题。1.制定明确的压测计划、压测通过标准,相关人员必须现场支持,分工明确,统一指挥。2.线上压测应在业务低峰时段进行,并制定应急预案。3.应当具备监控大盘,密切关注相关监控指标。45 快递行业云上技术服务白皮书快递行业云上技术服务白皮书4.遵循循序渐进的原则,单链路压测小流量验收全链路验收。4.2.3.3.1.10 单链路压测验证所有接口在无干扰、无竞争的情况下的性能基线数据,确定所有接口的性能SLA。4.2.3.3.1.11 全链路小流量试压对生产环境进行小流量试压,暴露最表层的问题,

88、保证流程的正确性。4.2.3.3.1.12 全链路压测并验收按生产环境流量配比进行复合场景全链路压测。探测相互干扰、竞争情况下的资源消耗水位和瓶颈。大致上分为以下5个阶段:1.阶梯加压与容量规划。定位性能瓶颈;拿到各应用的性能基线数据与容量,获取限流阈值。2.瞬时加压。验证系统预热是否合理,比如数据库连接、RPC连接、业务缓存、JIT预编译等。3.稳定性测试。验证系统资源使用是否合理,是否存在内存泄漏等情况。4.故障演练。通过人工注入故障,暴露架构的稳定性问题,提升系统的健壮性。5.验证限流、降级、预案的有效性,产出最终的交付物。快递行业云上技术服务白皮书 46如下是在某头部快递企业中的全链路

89、压测真实截图:4.2.3.4 容量规划,资源健康度检查4.2.3.4.1 全链路评估风险巡检基于护航业务视角,全方位地为客户整体资源使用情况,包含水位、安全风险、性能瓶颈、规格限制等,最大程度保障资源配置合理性。在某头部公司双十一保障中,针对核心业务域共完成三轮全链路评估和风险巡检截图如下:图25:全链路压测核心流程图图26:某头部快递企业全链路压测真实截图47 快递行业云上技术服务白皮书快递行业云上技术服务白皮书4.2.3.4.2核心资源深度巡检在某头部快递公司的双十一保障中,针对核心polardb和redis实例进行两轮深度巡检,共巡检风险项40项,优化&确认慢查询23条,并提前配置pol

90、ardb强制走只读库,redis带宽弹性扩容,自动查杀慢查询脚本等预案8条。图28:某头部快递公司的双十一保障深度巡检截图图27:某头部公司双十一保障全链路评估和风险巡检截图快递行业云上技术服务白皮书 484.2.3.5 流量防护异常流量的防护,接入DDOS防护或者准备DDOS接入应急预案,接入应用防护产品WAF或准备WAF接入预案手册。对正常业务峰值流量的限流保护,通过Nginx+LUA网关限流实现网关层保护,通过Sentinel(AHAS)实现微服务层面的接口限流保护。以下是某快递公司双十一保障限流配置图:4.2.4 大促保障故障&预案演练确认流量防护方案,制定流量防护、弹性扩容、ECS异

91、常迁移、数据库(RDS、Redis)切换、MQ重启等10+产品预案。提前配置PolarDB强制走只读库,Redis带宽弹性扩容,自动查杀慢查询脚本等数据库预案9条。图29:某快递公司双十一保障限流配置图49 快递行业云上技术服务白皮书快递行业云上技术服务白皮书表十六:确认流量防护方案对照4.2.5 大促保障全链路监控通过云监控(CMS),日志服务SLS,Prometheus,DataV打造从资源到应用到业务的全链路端到端监控。4.3 技术服务展望随着行业的高速发展,业务场景愈发复杂,在核心业务上云的同时安全性、可用性、风险优化、资源预备等方面都面临非常大的挑战。未来如何充分利用云厂商的基础设施

92、,建设安全、高可用、敏捷的技术架构是技术服务升级的重要方向。我们建议图30:大促保障全链路监控端到端快递行业云上技术服务白皮书 50在安全、高可用架构、稳定性建设等几方面重点发力,构建一个安全高可用的业务平台。4.3.1 高可用架构建立云上容灾能力,当灾难发生时,在保证生产环境的数据尽力少丢失的情况下,保证生产系统的业务不间断运行;促进故障逃逸能力的提升。同城容灾:利用SLB、RDS多可用区版本特性,实现同城容灾。异地容灾:利用DTS、OSS的数据复制特性,实现异地容灾。异地多活:利用DTS双向数据复制,以及DNS智能解析特性,实现异地容灾自动切换。图31:高可用架构示意图51 快递行业云上技

93、术服务白皮书快递行业云上技术服务白皮书4.3.2 DevOps版本管理:构建以质量为中心的研发规范,拉通开发、运维、QA,通过工具+流程的方式,提升产品质量。智能化运维:通过平台化方式,提供实时数据采集&传输、故障自动预警、问题快速定位等核心能力,逐步从人工运维转向智能化运维。4.3.3 云上容量规划根据客户业务需求,通过容量评估探测云上系统的最佳压力点、极限压力点和破坏压力点,并进行降级、限流保护,帮助业务达到系统容量和云上资源成本的最佳平衡点。规范评估现有系统资源合理性,预测未来资源的增长性。图32:云效DevOps运维图图33:云上容量规划图全链路压测限流保护成本优化可验性验快递行业云上

94、技术服务白皮书 524.3.4 应用架构优化目前业务快速发展,线上系统的性能、容量、可用性等方面遇到挑战;而目前各业务模块的详细架构尚没有清晰的梳理,带来如下问题:1.线上问题排查周期长2.可能存在不合理调用3.业务架构改造困难4.资源及业务模块拆分困难5.高度集中一个地域的安全、可用性、资源供应风险基于这些问题需要深入应用场景进行应用架构层面优化,风险治理等稳定性建设工作,从云资产和应用架构的角度进行资源深度巡检。探知云上架构,主动识别风险,并进行优化,提升稳定性质量,合理规划弹性策略,具备纵横扩容能力,安全可靠,抵御流量攻击,恶意请求等,确保线上环境无“污染”。图34:应用架构优化结果高并

95、发高可用高安全可弹性53 快递行业云上技术服务白皮书快递行业云上技术服务白皮书5.总结2021年成为快递行业发展历史上标志性的一年,拉锯近两年的价格战终于转向,年度件量突破千亿件,行业迈入发展新阶段。对于当下的快递企业来说,想要在激烈的竞争中站稳脚跟并脱颖而出,则需要通过一系列的模式创新以及科技赋能,在数字化背景下,逐渐提升企业管理和末端网点的运营能力。只有将消费者的体验放在首位,才能够真正具备与其他快递巨头竞争的资本。本书着重细致分享快递行业客户上云的实践案例,将具体技术方法和解决方案编写成册,为构建安全、可靠的快递行业云上业务系统提供有价值的技术参考,以期行业共同进步。快递行业云上技术服务

96、白皮书 541.表16:确认流量防护方案对照附录:序号产品预案分类预案描述触发业务场景操作内容业务影响操作人异常ECS节点上业务请求会可能会出现少量超时情况应用重试即可,pod会在其他节点及时拉起,整体负载会上升,需要提前配置节点弹性伸缩。异常ECS上请求可能出现少量超时,SLB健康检查会自动剔除异常实例,应用集群负载会整体有上升,需要提前配置弹性伸缩策略。ECS上业务不可用容器服务节点客户侧客户侧客户/阿里云VM所在物理机意外宕机ECS 所在物理机意外宕机ECS 1SLB后端RS节点无负载均衡1)提前通过ack容器服务配置节点自动伸缩功能,当节点异常后会按需新增节点(提前预案)。https:

97、/ 快递行业云上技术服务白皮书快递行业云上技术服务白皮书异常ECS节点上业务请求会可能会出现少量超时情况应用重试即可容器服务节点异常ECS节点上业务请求会可能会出现少量超时情况应用重试即可ECS上业务出现大量异常SLB后端RS节点无负载均衡客户客户客户单 ECS 出现 CPU/网络/IO 负载异常单 ECS 出现 负载异常21)首先,通过容器服务控制台移除节点,避免流量分发到该异常节点。https:/ 56业务整体不可用可能会发生阻塞,影响服务性能。大规模ECS出现CPU负载异常可能会发生阻塞,影响服务性能。业务不可用IOPS打满IOPS打满连接数打满客户客户/阿里云客户/阿里云大规模ECS出

98、现CPU负载异常连接数打满连接数打满大规模ECS出现CPU负载异常规格超限RDS45673-提前预案1、根据阿里云提供全链路评估报告梳理ECS安全组规则,收敛存在安全风险的策略,如收敛0.0.0.0/0规则2、核心业务服务器请安装安骑士,及时修补服务器安全风险及漏洞。-恢复预案。1、登陆异常ECS通过TOP命令查看是否存在陌生进程占用大量CPU,判断有可能被暴力破解并部署挖矿程序,需要及时切彻底删除木马程序。2、如业务进程占用CPU最高,可尝试重启应用优先恢复业务。1)登录DMS控制台KILL长时间处于Sleep状态的数据库连接。2)立即通知阿里云技术服务同学,临时提高RDS连接数。3)升级R

99、DS实例规格。4)恢复后,需恢复RDS实例的连接数设置。1)立即通知阿里云技术服务同学,临时提高RDS IOPS规格。2)升级RDS实例规格。3)优化RDS慢查询。RDS实例锁定,只读不可写。磁盘空间满(只读不可写)磁盘空间满(只读不可写)DNS解析异常可用性问题客户/阿里云客户/阿里云1)通知阿里云技术服务同学,关闭实例磁盘空间检查,立即恢复业务2)清理RDS日志文件或扩容RDS磁盘空间或者升级磁盘空间。1)临时将RDS连接地址从DNS切换为VIP。2)同时通知阿里云技术服务解决问题。3)阿里云确认故障恢复后,客户需将应用程序立即切换为DNS访问方式。57 快递行业云上技术服务白皮书快递行业

100、云上技术服务白皮书业务可能出现30s内闪断业务不可用RDS实例出现HA切换读请求异常业务不可用只读实例Dbnode宕机只读实例Dbnode宕机应用到数据库间内网异常客户/阿里云客户/阿里云客户/阿里云RDS实例出现HA切换Dbnode故障,HA切换失败RDS HA失败91011128-提前预案1、需要应用端具备自动重连机制。-恢复预案。1、正常不用人为干预,RDS切换后会有30s内的闪断,应用自动重连即可。2、如切换后业务出现大量异常日志告警,大概率是应用重连机制不够友好,需要滚动重启应用优先恢复业务。依赖于RDS产品的快速恢复1)立即通知阿里云技术服务同学,进行手工切换。1)立即检查宕机的只

101、读实例读权重是否设置为0。2)程序如果长连接方式访问只读实例,建议重启应用,重新建立连接。读请求异常只读实例延时过大只读实例延时过大内网网络故障客户/阿里云客户/阿里云1)检查备库是否开启并行复制功能(库级、表级、事务级)。2)立即检查并将延时过大只读实例读权重设置为0。3)升级只读实例规格。1)申请RDS外网地址和ECS外网出口,临时使用外网方式访问RDS数据库。2)立即通知阿里云技术服务人员,确定网络故障影响范围。业务不可用可用区级别RDS故障13可用区故障客户/阿里云1)建议使用跨可用区容灾实例。2)建议不同可用区分别申请一个RDS读写实例,使用DTS进行实时数据同步,故障后应用切换连接

102、地址到备用可用区RDS实例。业务不可用region级别RDS故障14region级故障客户/阿里云建议不同region分别申请一个RDS读写实例,使用DTS进行实时数据同步,故障后应用切换连接地址到备用可用区RDS实例。快递行业云上技术服务白皮书 58可能会发生阻塞,影响服务性能。可能会发生阻塞,影响服务性能。读写实例性能瓶颈(CPU|IO压力过大)客户/阿里云客户/阿里云读写实例性能瓶颈(CPU|IO压力过大)只读实例性能瓶颈(CPU|IO压力过大)只读实例性能瓶颈(CPU|IO压力过大)性能问题redis实例出现HA切换redis实例出现HA切换redis实例出现HA切换Redis1617

103、18151)立即通知阿里云技术服务同学评估临时调整资源。2)升级实例规格。3)优化性能消耗严重的SQL语句。4)未开通读写分离功能的RDS,购买只读实例,申请RDS读写分离连接地址,应用程序配置读写分离。5)已开通读写分离功能的RDS,增加只读实例节点数,进行扩展,通过权重将流量引导到只读实例。1)立即通知阿里云技术服务同学评估临时调整资源。2)升级只读实例规格。3)优化只读实例上对性能消耗严重的SQL语句。4)立即扩展只读实例节点数,已达到5个的产品限制,立即联系阿里云技术服务人员,最多可将只读实例数量扩展至10个。5)调整性能问题严重的RDS只读实例的访问权重。业务可能出现30s内闪断业务

104、可能大规模不可用reids内存被打满reids内存被打满reids内存被打满客户/阿里云客户/阿里云-提前预案1、需要应用端具备自动重连机制。-恢复预案。1、正常不用人为干预,切换会有30s的连接闪断,应用自动重连即可恢复。2、如切换后业务出现大量异常日志告警,大概率是应用断线重连机制不够友好,需要滚动重启应用优先恢复业务。-提前预案1、前期需要对redis大key进行清理,优化内存架构。-恢复预案1、登陆redis控制台升级redis规格。https:/ 快递行业云上技术服务白皮书快递行业云上技术服务白皮书redis节点可能会发生阻塞,影响服务性能。在使用云数据库Redis集群版的过程中,如

105、果某一节点上的热点Key流量过大,可能导致服务器中其它服务无法进行。若热点Key的缓存超过当前的缓存容量,就会产生缓存分片服务负载过高,进而造成缓存雪崩等严重问题。客户/阿里云客户/阿里云reids带宽被打满redis 热点key问题redis 热点key问题redis 热点key问题reids带宽被打满reids带宽被打满核心域名被DDOS攻击核心域名被DDOS攻击核心域名被DDOS攻击安全2021222319-提前预案1、前期需要对redis大key进行清理,优化内存架构。-恢复预案1、登陆redis控制台临时调整带宽:https:/ IP。2.SLB访问控制,白名单调整。设置为无访问控制

106、。快递行业云上技术服务白皮书 60业务无法使用或者部分请求被阻断异常ECS节点上业务请求会可能会出现少量超时情况应用重试即可,pod会在其他节点及时拉起,整体负载会上升,需要提前配置节点弹性伸缩WAF异常拦截&访问异常客户/阿里云客户/阿里云WAF访问异常节点不可用,集群认为节点not ready节点不可调用(非主动设置)和节点不可用,一般是由于节点出现了异常状况,比如磁盘满、机器负载过高(节点上kubelet进程无法和集群通信)、网络不可用、docker进程hung住、PLEG异常等,可以进入运维中心-集群-节点-管理,看到节点状态。WAF访问异常&出现异常拦截节点出现异常事件容器服务252

107、6241.修改域名Cname记录到SLB IP。2.SLB访问控制,白名单调整。设置为无访问控制。1.在容器服务节点维护控制台选择排空节点(同时设置为不可调度),节点状态变为不可调度,同时会将节点上已经存在的Pod进行(排空)驱逐,pod会被调度到其他节点进行重建。注意:节点上由守护进程集DaemonSet控制的Pod不会被排空。2.尝试重启节点kubelet;再尝试重启Docker进程恢复节点状态。3.如果步骤2中重启kubelet没有效果,节点依然不可用,那么需要强制重启ECS节点。通常该操作后可以恢复。不可用的原因包括负载过高等因素。4.节点状态恢复后不可调度的节点重新上线,您可以单击节

108、点上线,在弹出的对话框中,单击确定,此时该节点状态又变成可调度。节点业务无法使用或者部分请求异常NTP ser-vice is not run-ningNTP service是系统时间校准服务,由操作系统systemd管理的服务。可以通过systemctl status chronyd 查看对应服务的状态。客户/阿里云1.使用命令systemctl start chrony-d尝试重新启动。并通过命令 journalctl-u chronyd 查看服务的日志。61 快递行业云上技术服务白皮书快递行业云上技术服务白皮书节点业务无法使用或者部分请求异常客户/阿里云节点PLEG异常PLEG是pod生

109、命周期事件生成器,会记录Pod生命周期中的各种事件,如容器的启动、终止等。一般是由于节点上的daemon进程异常或者节点systemd版本bug导致。出现该问题会导致集群节点不可用。28271.可以尝试重启kubelet;再尝试重启Docker进程。重启这两个进程过程中,不会对已运行容器造成影响/重启kubeletsystemctl restart kubelet/重启dockersystemctl restart docker/查看docker日志journalctl-xeu docker dock-er.log2.如果1无法解决,很有可能是systemd版本问题导致,重启节点可短暂修复,彻

110、底解决的话需要升级节点的systemd。注:为了避免影响本节点上已经部署的容器,重启前一定对ECS进行排空操作,排空的话,需要保证其他ECS节点上有富余资源,否则排空后容器也无法调度到其他机器。节点业务无法使用或者部分请求异常节点磁盘资源不足节点磁盘不足,无法分配空间给容器镜像客户/阿里云检查节点的磁盘分配情况,通常有一下一些常见情况导致磁盘占用率过高。1.有大量日志在磁盘上没有清理;请清理日志。2.有进程在宿主机不停的写文件;请控制文件大小,将文件存储至OSS或者NAS。3.下载的或者是其他的静态资源文件占用空间过大;静态资源请存储至OSS或CDN。注:为了避免影响本节点上已经部署的容器,节

111、点升级维护前一定要对ECS进行排空操作,排空的话,需要保证其他ECS节点上有富余资源,否则排空后容器也无法调度到其他机器。快递行业云上技术服务白皮书 62可能会发生阻塞,影响服务性能。可能会发生阻塞,影响服务性能。客户/阿里云客户/阿里云规格超限网络产品NAT网关带宽打满NAT网关带宽打满NAT网关连接数打满reids带宽被打满EIP带宽打满EIP带宽被打满消息队列 Rock-etMQDRDS30313233291.请优先升级规格处理,升级时间较快,不影响线上业务。2.如果升级异常,请立即联系阿里云技术服务同学。1.请优先升级带宽,升级时间较快,不影响线上业务。2.如果升级异常,请立即联系阿里

112、云技术服务同学。可能会发生限速,影响服务性能。可能导致业务处理延后业务不可用消息积压DRDS连接异常1.请参考帮助文档查看常见错误码及解决方法https:/help.ali- RocketMQ消息积压告警消息队列 RocketMQ消息积压告警客户/阿里云客户/阿里云1.请优先升级带宽处理,升级时间较快,不影响线上业务。2.如果是按量实例需要升级到200M或者固定带宽500M以上,请立即联系阿里云技术服务工程师处理。1.登录消息队列 RocketMQ 版控制台,导航栏中选择资源报表,选择消息消费,输入对应信息,查询历史消费记录。如果消息写入速度大于消息消费速度,则调整业务代码或者对消费者进行扩容

113、。2.登录代码所在服务器,如果存在消息阻塞现象,则多次执行下列命令,连续打印Jstack信息,确认消费线程位置,解决后可尝试重启代码应用,观察消息消费是否恢复正常。jstack-l$PID|grep Consume-MessageThread说明:$PID为运行代码产生的进程ID。3.如果消息堆积量较小,检查阈值是否设置过小导致消息堆积。单击监控报警,单击目标监控项右侧编辑,增加消息堆积的报警阈值。请按照下列步骤确认问题得到解决:登录代码所在服务器,执行下列命令,确认无消费线程阻塞现象。jstack-l$PID|grep Consume-MessageThread登录消息队列 RocketMQ 版控制台,导航栏中选择Group 管理,单击目标Group右侧的消费者状态。在连接信息下方发现堆积量栏的值下降到正常值。63 快递行业云上技术服务白皮书快递行业云上技术服务白皮书

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里云:2022快递行业云上技术服务白皮书(67页).pdf)为本站 (好好学习) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部