上海品茶

【快猫星云秦晓辉】面向故障处理的可观测性体系建设.pdf

编号:157149 PDF 27页 2.58MB 下载积分:VIP专享
下载报告请您先登录!

【快猫星云秦晓辉】面向故障处理的可观测性体系建设.pdf

1、建设面向故障处理的可观测性体系秦晓辉 快猫星云联合创始人秦晓辉(vx:picobyte)Open-Falcon、Nightingale、Categraf 等开源项目发起人,极客时间专栏运维监控实战笔记作者,公众号 SRETalk 主理人,快猫星云(flashcat.cloud)联合创始人。丰富的监控、可观测性构建经验。更多类似今天的观点,关注这里今天和大家一起探讨 可观测性在整个商业体系中的位置和价值 如何快速发现故障,使用哪类指标告警 SRE 在谈论故障定位的时候,谈的是什么 如何找到故障直接原因,找到止损依据 如何让可观测性系统呈现观点,辅助洞察,定位故障客户/用户需要:好的产品体验 产品

2、体验包括功能体验和可靠性体验,可靠性体验核心追求是高可用、低延迟 功能体验依赖产品设计和迭代速度,跟今天的话题关系不大按下不表。如何才能具有好的可靠性体验?产品体验功能体验可靠性体验高可用低延迟在线类产品的商业发端如何才能有好的产品可靠性体验?产品体验功能体验可靠性体验高可用低延迟 可靠性出问题,比如不可用了,或者延迟过高,也就是发生了故障 技术团队要做的,除了持续优化架构和性能,还要和故障斗争:故障降发生、降影响故障如何降发生、降影响?故障开始故障发现故障定位止损动作故障恢复常态预防排查根因复盘改进优化故障生命周期各个环节事前:及时发现风险,做好架构、预案、演练事中:及时发现故障,及时定位,

3、及时止损事后:排查根因,落实复盘改进项可观测性在整个过程中的职能是什么?在哪个环节发挥价值?可观测性在哪个环节发挥价值?故障开始故障发现故障定位止损动作故障恢复常态预防排查根因复盘改进可观测性核心价值:快速发现故障,快速定位故障小结:可观测性的位置和价值产品体验产品可靠性体验包含故障降发生、降影响可观测性依赖可观测性最终服务于产品体验/商业成功,可观测性核心价值:快速发现故障、快速定位故障如何快速发现故障?使用哪类指标告警?什么是故障?产品体验受损,就是故障!电商产品存储系统流媒体产品用户无法下单、无法支付、无法查看商品、无法查看历史订单用户无法读、无法写、或者读写延迟过高无法开启播放、无法拉

4、流、无法浏览视频信息如何快速发现故障?对哪类指标告警?电商产品存储系统流媒体产品用户无法下单、无法支付、无法查看商品、无法查看历史订单用户无法读、无法写、或者读写延迟过高无法开启播放、无法拉流、无法浏览视频信息订单量、支付量、商品/订单访问成功率/延迟读/写成功率、读/写延迟播放量和成功率、拉流延迟、视频浏览成功率/延迟等这些指标有何特点?如何分类?电商产品存储系统流媒体产品订单量、支付量、商品/订单浏览量和访问成功率/延迟读/写成功率、读/写延迟播放量和成功率、拉流延迟、视频浏览量/成功率/延迟等这些指标都是客户体验类(结果类)指标,可观测性体系,首先要建立完备的指标体系,和告警系统配合,即

5、可快速发现故障!结果类指标分两类:业务指标、SLO指标。注意:SLO指标正常时,业务指标未必正常!(想想为啥?)所以,都要监控,甚至业务指标监控应该放在第一位(想想和BI数据的异同?老板关注的)结果类指标 vs 原因类指标除了结果类指标,还有原因类指标。因为产品的核心业务功能是可枚举的,每个功能对应的结果类指标是可枚举的,做好结果类指标的告警,就可以保证告警是全的,做到有故障必有告警!举个例子:实时交易类系统,交易量突然下跌。结果类指标:交易量原因类指标:机器宕机无法 ping 通原因类指标:数据库写操作失败率原因类指标:错误日志行数原因类指标:CPU 满载面向原因类指标配置告警,永远无法配全

6、,无法做到有故障必有告警!实际上,原因类指标不必一定要配置告警,出故障的时候可观测,即可!可观测性首先要建立完备的结果类指标!配合告警系统可以发现故障!下一步呢?下一步显然是故障定位!下面我们来聊一个话题:当我们在谈论故障定位的时候,我们谈论的是什么?故障定位首先需要完备的数据数据特征观点洞察综合所有观点,得出故障定位结论,得知具体是哪个模块导致的本次故障,即是最终洞察零散结论,比如根据特征数据分析之后发现,数据库没有问题、依赖的第三方服务没问题特征就比如:最大值、最小值,同环比等,比如5个服务实例,延迟最大的是哪个底层杂乱无章的数据,海量的指标、日志、链路追踪的数据信息层级要想得到最终的洞察

7、(定位到故障),首先要依赖底层的数据完备性,否则就是巧妇难为无米之炊!但是故障原因五花八门,数据能全么?数据是否完备,取决于你的定位目标 定位底层根因 某个异常逻辑到底是哪行代码的问题?边界有埋点,但是不可能每行代码都有埋点!丢包是因为 arp mac 地址冲突了?还是光模块有问题?还是机柜压住光纤网线了?定位直接原因 不需要知道是哪行代码的问题,刚才这个模块做了变更,就是导致故障的直接原因 多活的服务,有时仅知道是A机房有问题就可以了,切流到B机房即可解决仅仅通过可观测性数据定位到底层根因,几无可能!根因需要代码 review、不断做实验,可能耗费数周才能抓出根因。当我们谈论故障定位的时候,

8、实际我们谈的是定位到直接原因,找到止损依据(这就是那个洞察)。怎么找?枚举故障直接原因,建立相关数据服务基础设施其他服务访问依赖变更依赖的基础设施故障了变更(程序、配置)引入了异常触发了一个罕见的分支异常逻辑依赖的其他服务故障了访问方式发生变化,比如流量突增日志,基础设施的告警、指标近期变更事件日志,链路追踪,自身指标日志,链路追踪,依赖的服务的告警、指标自身指标,日志出现上述问题之后,应该去哪里找线索咦?说来说去,还是要建立 metrics、logs、traces、events?是的,但不仅是,只有数据,还远远不够数据特征观点洞察信息层级仅仅依靠零散的数据是不够的!我们需要通过平台工具,帮助

9、用户找到数据特征,建立初步观点,形成最终洞察定位直接原因网上有人批评可观测性三支柱的说法,核心要点是:不能只关注 raw data,就像一道菜,只有原料还不能称之为一道菜,没有炊具、菜谱、厨师,无法最终产出那道菜(客人要的是那道菜,那道菜才是结果)他山之石,类似观点分享上图引用自:https:/thenewstack.io/beyond-the-3-pillars-of-observability/观点:只关注三支柱raw data,认为有了三支柱数据就建立了可观测性,是不对的,我们更应该面向结果来思考如何构建整个体系,Martin Mao 认为,所谓的结果,就是 Remediate,就是止损

10、!最终就是为了止损,止损需要:故障直接原因、止损依据(洞察),下面我们来看可观测性体系可以提供哪些数据特征和观点,来帮助我们得到这个洞察可观测性体系要告诉我故障模块1、某个系统出问题,BubbleUp,上层卡片飘红,点击详情可下钻到子系统视图2、子系统可继续下钻,找到出问题的模块或功能3、最终可以揪出问题模块,甚至可以揪出重要功能接口,即 SLI 颗粒度思路示例:需要一个层级关系视图,一目了然地呈现健康状况每个系统通常有多个子系统,子系统又有多个模块,每个模块又有多个 SLI,任何一个 SLI 有问题,上层 卡 片 都 要 有 所 体 现,问 题 BubbleUp 上浮到顶层卡片,一目了然知道

11、故障边界故障定位时,平台通过颜色引导,用户层层下钻,即可无脑抓出故障模块可观测性体系要告诉我模块的依赖是否健康1,可以方便跳转到基础设施那里,查看是否是基础设施的问题2,可以方便查看依赖的其他服务的健康状况依赖的基础设施(机器、基础网络等)是否健康?依赖的第三方服务是否健康?等等信息也是需要平台输出的观点可观测性体系要告诉我是否是变更导致的事件源接入层变更升降配服务变更配置变更运营事件网络割接数据库变更变更是万恶之源,近期是否有服务发布,是否有配置变更等,也是平台应该提供的一类观点,辅助洞察可观测性体系要呈现数据体征当场景化观点无法输出的时候,只能退而求其次,下钻到最底层的日志、链路、指标数据,做多维分析,发现数据特征,进而推导出观点,辅助最终洞察日志里有 traceid,则可以串联 tracing 数据,从链路追踪系统继续找线索从故障模块,通过数据串联,找到相关日志,分析日志特征可观测性体系不能仅仅只有散乱的数据,而应让数据呈现特征,让特征呈现观点,让特征和观点辅助洞察。最终形成的那个洞见就是止损依据!更多类似今天的观点,关注这里谢谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(【快猫星云秦晓辉】面向故障处理的可观测性体系建设.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

 137**18... 升级为至尊VIP  wei**n_...  升级为至尊VIP

 wei**n_... 升级为标准VIP 139**24...  升级为标准VIP 

158**25...  升级为标准VIP wei**n_...  升级为高级VIP

 188**60...  升级为高级VIP Fly**g ...   升级为至尊VIP

wei**n_...  升级为标准VIP  186**52... 升级为至尊VIP

布**  升级为至尊VIP 186**69... 升级为高级VIP

wei**n_... 升级为标准VIP  139**98...  升级为至尊VIP

152**90... 升级为标准VIP    138**98... 升级为标准VIP

181**96... 升级为标准VIP 185**10...   升级为标准VIP

wei**n_... 升级为至尊VIP  高兴 升级为至尊VIP 

wei**n_...  升级为高级VIP wei**n_...  升级为高级VIP

 阿**...  升级为标准VIP wei**n_...   升级为高级VIP

lin**fe... 升级为高级VIP  wei**n_... 升级为标准VIP 

wei**n_...  升级为高级VIP  wei**n_... 升级为标准VIP

 wei**n_... 升级为高级VIP wei**n_... 升级为高级VIP 

wei**n_... 升级为至尊VIP  wei**n_... 升级为高级VIP 

wei**n_... 升级为高级VIP 180**21... 升级为标准VIP

183**36... 升级为标准VIP   wei**n_... 升级为标准VIP

 wei**n_... 升级为标准VIP xie**.g... 升级为至尊VIP

 王** 升级为标准VIP 172**75... 升级为标准VIP 

 wei**n_... 升级为标准VIP   wei**n_... 升级为标准VIP 

wei**n_... 升级为高级VIP 135**82...  升级为至尊VIP

130**18...  升级为至尊VIP wei**n_... 升级为标准VIP 

 wei**n_... 升级为至尊VIP wei**n_... 升级为高级VIP 

130**88... 升级为标准VIP  张川 升级为标准VIP 

  wei**n_... 升级为高级VIP  叶** 升级为标准VIP

 wei**n_... 升级为高级VIP   138**78... 升级为标准VIP 

 wu**i 升级为高级VIP wei**n_... 升级为高级VIP

 wei**n_...  升级为标准VIP wei**n_...  升级为高级VIP 

185**35... 升级为至尊VIP  wei**n_... 升级为标准VIP 

186**30...  升级为至尊VIP 156**61...  升级为高级VIP

 130**32...  升级为高级VIP 136**02...  升级为标准VIP

 wei**n_...  升级为标准VIP  133**46... 升级为至尊VIP

wei**n_...  升级为高级VIP  180**01... 升级为高级VIP 

130**31...  升级为至尊VIP  wei**n_... 升级为至尊VIP

微**... 升级为至尊VIP  wei**n_... 升级为高级VIP

 wei**n_... 升级为标准VIP  刘磊 升级为至尊VIP

wei**n_...  升级为高级VIP 班长  升级为至尊VIP

wei**n_... 升级为标准VIP   176**40... 升级为高级VIP 

136**01... 升级为高级VIP  159**10... 升级为高级VIP

  君君**i... 升级为至尊VIP  wei**n_... 升级为高级VIP

wei**n_... 升级为标准VIP 158**78...  升级为至尊VIP 

 微**... 升级为至尊VIP 185**94... 升级为至尊VIP 

 wei**n_... 升级为高级VIP  139**90... 升级为标准VIP 

131**37...  升级为标准VIP 钟**  升级为至尊VIP

 wei**n_...  升级为至尊VIP 139**46... 升级为标准VIP

wei**n_... 升级为标准VIP  wei**n_...  升级为高级VIP

 150**80... 升级为标准VIP   wei**n_... 升级为标准VIP

GT  升级为至尊VIP  186**25... 升级为标准VIP  

wei**n_...  升级为至尊VIP 150**68...  升级为至尊VIP