上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2019年千亿级全球监控体系构建和智能监控探索.pdf

编号:97820 PDF 41页 3.63MB 下载积分:VIP专享
下载报告请您先登录!

2019年千亿级全球监控体系构建和智能监控探索.pdf

1、GOP S 全 球 运 维 大 会 2019上 海 站GOP S 全 球 运 维 大 会 2019上 海 站千亿级游戏监控体系和智能监控GOP S 全 球 运 维 大 会 2019上 海 站目录来自全球布局的游戏的监控挑战1海量时间序列数据处理2数据可视化和报警3智能监控实践4GOP S 全 球 运 维 大 会 2019上 海 站传统游戏架构对监控的要求1.单体架构2.基础设施单一3.深耕国内市场4.监控层次简单GOP S 全 球 运 维 大 会 2019上 海 站新时代的挑战1.游戏架构多样化2.混合基础设施3.拓展海外市场4.从传统监控到可观察性GOP S 全 球 运 维 大 会 2019

2、上 海 站游戏架构多样化1.单体架构2.分布式架构3.微服务GOP S 全 球 运 维 大 会 2019上 海 站混合基础设施物理机私有云公有云容器云云原生混合云GOP S 全 球 运 维 大 会 2019上 海 站拓展海外市场1.业务覆盖全球数十个国家2.二十多个region3.多个云服务商GOP S 全 球 运 维 大 会 2019上 海 站从传统监控到可观察性报警可视化面板DebuggingProfiling依赖分析传统监控可观察性GOP S 全 球 运 维 大 会 2019上 海 站从传统监控到可观察性GOP S 全 球 运 维 大 会 2019上 海 站网易游戏监控架构GOP S 全

3、 球 运 维 大 会 2019上 海 站目录来自全球布局的游戏的监控挑战1海量时间序列数据处理2数据可视化和报警3智能监控实践4GOP S 全 球 运 维 大 会 2019上 海 站海量时间序列数据的采集和存储方案监控对象抽象 适应任意业务架构 灵活的数据描述全球就近接入 低延迟 高准确性 高可用性最小化管理成本 CMDB集成-变更事件驱动数据采集中心 多种采集方式 混合云适配统一数据总线 多采集入口 统一输出 数据对齐 实时聚合海量时间序列存储 索引分离 冷热数据 水平扩展能力GOP S 全 球 运 维 大 会 2019上 海 站监控对象抽象机器 物理机 虚拟机 容器硬件 CPU 网卡 GP

4、U业务 Redis Cluster Kafka Topic 游戏场景 战斗 NPCGOP S 全 球 运 维 大 会 2019上 海 站监控对象抽象100+EntityTypes500万 Entities 4亿 TimeseriesGOP S 全 球 运 维 大 会 2019上 海 站全球就近接入-基础架构GOP S 全 球 运 维 大 会 2019上 海 站全球就近接入-高可用ArbiterRegionNodeAgentAgentNodeAgentRegionNodeAgentAgentArbiters Active-StandbyNode心跳保持Region内多Nodes一致性哈希分配Ag

5、entsRegion间互备集群配置管理和数据流分离GOP S 全 球 运 维 大 会 2019上 海 站全球就近接入-Region管理GOP S 全 球 运 维 大 会 2019上 海 站最小管理成本-与CMDB集成GOP S 全 球 运 维 大 会 2019上 海 站数据采集中心GOP S 全 球 运 维 大 会 2019上 海 站数据采集中心-混合云兼容物理机Agent插件Pusher虚拟机Agent插件Pusher容器Agent插件-从宿主采集Pusher日志指标云原生KubernetesCadvisorPrometheusExporter日志指标GOP S 全 球 运 维 大 会 20

6、19上 海 站数据采集中心-插件化Agent核心调度消息插件系统插件自定义插件Agent800+个Python插件按机器服务自动分发版本更新自动分发插件热更新插件仓库ArbiterCMDBGOP S 全 球 运 维 大 会 2019上 海 站统一数据总线?GOP S 全 球 运 维 大 会 2019上 海 站海量时间序列存储水平扩展能力线上百万QPS,4亿Series秒级写延迟平均读延迟148ms读接口时间粒度自动稀释GOP S 全 球 运 维 大 会 2019上 海 站目录来自全球布局的游戏的监控挑战1海量时间序列数据处理2数据可视化和报警3智能监控实践4GOP S 全 球 运 维 大 会

7、2019上 海 站数据可视化-视图组装EntityType=serviceEntityType=groupEntityType=projectProject1Group1Service1Service2Group2Service3TagsEntitiesEntityTypes100+EntityTypes500万 Entities 200+自定义视图GOP S 全 球 运 维 大 会 2019上 海 站数据可视化-机器视图项目-群组-机器GOP S 全 球 运 维 大 会 2019上 海 站数据可视化-容器视图K8S-Pod-ContainerGOP S 全 球 运 维 大 会 2019上 海

8、 站数据可视化-业务视图Arbiter-Region-NodeGOP S 全 球 运 维 大 会 2019上 海 站数据报警-所见即所得GOP S 全 球 运 维 大 会 2019上 海 站数据报警-策略指标阈值指标变化率异常消息异常检测组合报警策略模版分享&订阅GOP S 全 球 运 维 大 会 2019上 海 站数据报警-报警收敛规则引擎问题合并模块通知GOP S 全 球 运 维 大 会 2019上 海 站数据报警-问题生命周期GOP S 全 球 运 维 大 会 2019上 海 站目录来自全球布局的游戏的监控挑战1海量时间序列数据处理2数据可视化和报警3智能监控实践4GOP S 全 球 运

9、 维 大 会 2019上 海 站智能监控实践-异常检测GOP S 全 球 运 维 大 会 2019上 海 站智能监控实践-异常检测GOP S 全 球 运 维 大 会 2019上 海 站智能监控实践-异常检测模型统计学/距离/密度/聚类模型 使用简单、无监督 效果随缘IsolationForest 无监督、Baseline不错 效果上限一般有监督集成模型效果上限好标注成本高分类泛化模型曲线/异常分类预训练模型适配同类曲线样本、特征筛选难度大GOP S 全 球 运 维 大 会 2019上 海 站智能监控实践-异常检测模型Precision 0.85 recall 0.75f1 score 0.8on 100,000+seriesGOP S 全 球 运 维 大 会 2019上 海 站智能监控实践-关联分析从几百条曲线中定位故障根因?确定故障影响范围?下钻影响整体的局部指标?GOP S 全 球 运 维 大 会 2019上 海 站智能监控实践-关联流程触发报警确定搜索范围计算相关性随报警推送按反馈优化模型GOP S 全 球 运 维 大 会 2019上 海 站智能监控实践-关联分析模型

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2019年千亿级全球监控体系构建和智能监控探索.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部