上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

云服务器可观测能力的探索与实践-云上运维最佳实践论坛(19页).pdf

编号:84519 PDF 19页 16.83MB 下载积分:VIP专享
下载报告请您先登录!

云服务器可观测能力的探索与实践-云上运维最佳实践论坛(19页).pdf

1、云服务器可观测能力的探索与实践姜文锋阿里巴巴高级技术专家Contents目录01可观测的价值02云服务器可观测解决方案03总结可观测的价值01云服务器可观测的价值云服务器可观测的价值提升确定性简化运维提升信息透明性通过工具让人清晰地看见实例运行的健康状态、帮助发现问题,从而降低经验门槛和不确定性、简化运维确定性地运行,提升用户的信心及时掌握云服务器客户OS内部以及底层的状态,避免黑盒方便掌握云服务器的运行细节,简化运维可观测性主要是指了解内部运行情况的能力阿里云的解决方案云服务器可观测整体解决方案宿主机Host OS应用进程客户 OS虚拟硬件阿里云平台实例计算虚拟化存储虚拟化网络虚拟化物理硬件

2、控制系统计算存储网络ECS实例&控制系统数据中台可观测相关产品数据清洗关联分析特征计算用户侧产品云监控系统事件健康诊断健康状态2800+2800+网络和CDN节点6 6大洲7878可用区(AZ)2424数据中心区域(Region)丰富的数据采集100,000,000采集单元100TB/D内部运维保障平台云监控-观测客户OS&应用指标云监控针对阿里云资源和互联网应用的监控报警服务产品优势天然集成天然集成云监控服务无需您购买和开通云监控服务无需您购买和开通数据可视化Dashboard提供丰富图表展现形式灵活报警灵活报警报警规则灵活可配,通知方式灵活多报警规则灵活可配,通知方式灵活多样样监控数据处理

3、对监控数据进行时间/空间维度聚合处理丰富的主机监控项CPU空闲率占用率iowait等内存总量使用率空闲率等LOAD 1-5-15磁盘剩余空间IOPS等单位时间收发包数量TCP各种状态占比等进程是否存活进程资源消耗ECS系统事件-主动上报底层运维事件ECS系统事件阿里云主动上报云服务器状态变化或底层异常,并给出运维建议简化运维简化运维EventEvent-DrivenDriven 提升系统效率提升系统效率提升确定性提升确定性ECS系统事件的价值宿主机硬件+HostOS计算存储网络计算/存储/网络虚拟化ECSECSECSECS事件服务调度计算节点控制系统计费系统异常收集特征分析预测/决策事件上报/

4、数据采集控制流运维平台实例运行时事件上报运维事件(预期/非预期)/安全事件上报云监控OpenAPI控制台事件中心事件推送事件查询短信/邮件/站内信钉钉运维编排(OOS)消息服务日志服务函数计算事件查询消息通知消息通知事件通知自动运维逻辑数据采集自动处理ECS系统事件对严重事件配置事件通知事件触发自定义函数实现自动化处理管控API或执行Shell脚本调用ECS管控API或执行Shell脚本对运维事件编排运维模版ECS系统事件自动化运维最佳实践系统事件云监控运维编排函数计算方案一方案二ECS系统事件运维事件非预期运维事件(Exception)计划内运维事件(Maintenance)实例或其设备因底

5、层错误造成功能/性能受损实例或其设备底层计划内/提前预测到的运维动作实例运行事件安全事件实例或其设备符合产品规则的状态变化提醒实例受到网络攻击如DDosECS系统事件分类诊断实例健康诊断实例健康状态网络连通诊断对实例的软硬件问题全面分析并给出针对性建议主动监测影响实例运行的关键指标网络通信异常快速定界ECS系统事件无法覆盖诸如客户OS内各种异常以及云平台更细粒度的问题实例健康诊断-从底层到客户OS全面体检实例健康诊断项客户OS资源使用率网络配置磁盘设置阿里云平台计算服务(虚拟化)存储服务网络服务系统文件内存设置重要服务/进程远程登录/防火墙费用相关安全控制实例健康诊断针对云服务器客户OS和阿里

6、云平台软硬件问题全面检测的服务宿主机硬件+HostOS计算存储网络计算/存储/网络虚拟化健康诊断服务调度计算节点ECS控制系统计费系统数据清洗关联分析特征计算数据采集控制流运维平台安全控制相关诊断阿里云平台相关诊断OpenAPI控制台诊断服务发起诊断发起诊断云助手ECSECSECS云助手云助手数据采集客户O S诊断需用户授权数据采集经用户授权在客户OS内运行诊断脚本共7大类40余项云平台共5大类30余项实例健康诊断典型用法使用定时运维功能,周期调用健康诊断服务建议通过Tag管理资源ECS 健康诊断报告人工处理自动化处理云监控+健康诊断 定位实例异常原因运维编排+健康诊断 对实例定期健康体检云监

7、控健康诊断健康诊断运维编排覆盖客户OS和云平台共70余个诊断项云监控发现load飙高健康诊断定位问题进程ID实例健康状态-黑盒轻量感知运行状态实例健康状态主动监测影响实例健康运行的、最基本的计算、网络、存储诊断项,及时反馈实例运行状态实例健康状态覆盖的诊断项基础网络设施是否正常操作系统是否异常磁盘是否发生IO hang实例/实例组件是否欠费通过ARP Ping验证实例基础网络配置是否发生kernel panic,内核错误云助手心跳是否正常出现IO hang,云盘无法进行读写操作欠费将导致实例停机/释放探活的综合指标实例健康状态与实例健康诊断对比健康诊断健康状态诊断项更精炼,性能更好诊断项更全面

8、,耗时更高阿里云发起,周期巡检用户主动发起只反馈实例是否健康,没有问题原因呈现问题细节以及问题解决建议实例健康状态典型用法状态1:有实例健康状态异常状态2:汰换异常实例后集群恢复正常检查集群内实例健康状态监测实例健康状态释放问题实例,创建并自动拉起新实例保证集群恢复健康状态弹性伸缩自动汰换异常实例控制台查看健康状态弹性伸缩健康状态少量实例场景控制台查看健康状态集群规模较大且可用性要求很高场景自动汰换不健康实例网络连通诊断(公测中)中间网络Host OS应用进程GuestOS虚拟交换机安全组iptablesnet service网络不通的原因可能很复杂网络连通诊断192.168.0.1172.1

9、6.3.20(192.168.0.1,Source_Port,172.16.3.20,22,TCP)根据输入的源、目标端的实例、网卡或IP地址、协议信息,校验VPC内ECS实例间网络配置、网卡配置、安全组配置,分析ECS实例间的网络可达性。网络连通诊断工具可快速定界通信异常问题检测项目 客户OS内:防火墙/路由表设置 安全组设置(出方向)实例网络功能 网络ACL设置(出方向)检测项目 目的端口是否在监听 客户OS内:防火墙/路由表设置 安全组设置(入方向)实例网络功能 网络ACL设置(入方向)进程监听问题防火墙设置实例网络设置高频问题高频问题总结03各产品能力对比产品云监控系统事件健康诊断健康状态主要覆盖的问题领域物理机硬件物理机软件计算虚拟化存储虚拟化网络虚拟化客户OS客户进程建议基础设施适合客户OS和应用层指标监控及时处理系统事件自动化处理系统事件健康诊断覆盖指标更全面自动化定期健康巡检与事件有互补性比健康诊断更轻量发现不健康及时切流配合事件和健康诊断定位原因各产品适用场景总结典型场景典型场景优先选择的产品优先选择的产品/工具工具业务/云服务器指标度量/监控/警报云监控云服务器异常问题排查分析系统事件健康诊断云服务器(集群)高可用弹性伸缩健康状态常见网络问题排查分析网络连通诊断THANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(云服务器可观测能力的探索与实践-云上运维最佳实践论坛(19页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部