《王斯丙-云闪付微服务监控体系落地实践.pdf》由会员分享,可在线阅读,更多相关《王斯丙-云闪付微服务监控体系落地实践.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、云闪付微服务监控体系落地实践主讲人:王斯丙领域驱动设计启发下的AI视觉分析引擎构建主讲人:戴 昊演讲嘉宾介绍王斯丙 中国银联高级软件开发工程师云闪付团队组件研发负责人统筹管理云闪付组件研发、引入、维护等工作,在组件研发管理上有丰富的经验从0-1建立了云闪付的微服务监控体系目录CONTENTS云闪付的微服务架构演进1234基于Prometheus的指标监控基于ELK的日志监控基于图的调用全景图展示5未来展望云闪付微服务架构演进1云闪付APP简介 云闪付APP于2017年12月发布,经过近五年的发展,已经形成了丰富的产品体系和可观的业务规模。云闪付APP云闪付网络支付平台支付便利类:主扫支付、被扫
2、支付、收款码、转账生活服务类:还款、充值、公缴账户管理类:卡管理、余额查询权益与营销:会员、优惠券、立减公共服务类:乘车码、健康码、消费券、一键拉卡平台开放类:商城、理财、申卡支付:主扫、被扫、控件支付、收付款卡:卡管理、支付顺序、交易记录内容:内容输出、内容汇聚营销:优惠展示、营销承兑云闪付APP简介活跃度日活2000万+月活6000万+性能数据部署规模百万级的混合QPS最大单接口性能100w+支持千万级用户同时在线上海/北京两地三中心多活数万台机器用户注册用户数量4.6亿+云闪付APP业务/技术规模部署架构支付业务服务申码服务优惠业务服务支付服务卡基础服务用户服务风控基础服务商城业务服务接
3、入层业务服务层基础服务层代理接入服务负载均衡服务器商城订单服务WEB层负载均衡服务器代理接入服务负载均衡服务器代理接入服务负载均衡服务器代理接入服务客户端服务密钥服务服务缓存及数据层缓存集群文件服务数据库集群微服务生态现状微服务演进历程200212022未来1、分布式作业调度2、调用链跟踪3、全程交易串联1、微服务监控2、通用网关3、统一加解密1、容器化2、基础平台建设阶段一1、异步化改造2、最佳实践体系3、统一技术栈阶段二1、自动化安装2、统一配置中心3、日志规范化改造阶段三1、微服务网关2、服务网格落地阶段一:性能和稳定性提升阶段二:服务拆分与治理阶段三:公共服务与平
4、台建设基于Prometheus的指标监控2云闪付指标监控的发展历程l解析nginx日志,统计接口TPS统计脚本l查询监控库,统计资金核销情况数据不准确资源要求高l应用埋点,支持自定义UPMetricsl监控数据系统内集中存储数据准确资源要求低黑盒监控白盒监控过渡基于Prometheus基于Prometheus的指标监控基于Prometheus的指标监控1234业务类监控1、业务开展情况数据,如:查卡报告数2、不同接入方接入情况,如:银行接入成功率技术类监控组件监控组件访问监控1、接口监控,如:http接口、rpc接口的成功率、响应时间、tps2、JVM监控1、引入定制类组件监控,如:kafka
5、、flink2、自研类组件监控,:如:moray1、从应用侧监控组件访问情况,如:SQL执行耗时2、监控内部函数执行情况n划定监控范围问题一:监控什么数据应用监控组件监控基于Prometheus的指标监控static final Counter requests=Counter.build().name(requests_total).labelNames(activityId).help(Total requests.).register();requests.labels(MarketActivity).inc();prometheus:http_monitor:on prometheus
6、_metrics_prefix:rn 无代码修改接入支持多种监控维度自动服务注册发现落地云闪付服务监控指标规范*支持C、Java、Go等主流语言问题二:如何应用落地n官方SDK埋点n云闪付快速落地:自研SDK,配置化接入n部署情况n存储扩展n支持服务化部署基于Prometheus的指标监控*展示和告警组件中心内复用,PS Server按照系统维度使用问题三:如何生产落地n小试牛刀n初出茅庐基于Prometheus的指标监控*时序预测开发框架 提供智能预测能力 减少专家经验干扰 减少运维配置工作问题四:如何减少运维工作基于Prometheus的指标监控版本变更导致统计数据为负值使用increas
7、e/rate解决避坑查询涉及指标点多,查询失败调整-query.max-samples大小限制访问/metrics接口不限制会造成监控数据泄露高基数设计避免CDN接口要屏蔽昨日总结业务开展情况基于Prometheus的指标监控n技术类日报:包含接口成功率、响应时间和昨日最大TPS等n业务类日报:收集业务数据产生的日报n重大活动日报:重大活动期间产生的日报,如:跨年营销等系统重大活动运行情况基于Prometheus的指标监控系统日常运行情况n监控大盘基于Prometheus的指标监控系统活动期间情况n消费券监控面板基于Prometheus的指标监控基于ELK的日志监控3标准化日志头日志异步打印日
8、志体格式化单独打印错误日志日志规范化改造logTime|thread|logLvl|requestId|LogID#msg集成LogID提升应用性能避免阻塞应用msg以key=value格式记录,并以|分隔方便问题查找基于ELK的日志监控基于ELK的日志监控ULSP:基于ELK的企业级业务日志支撑平台功能:1、全文检索2、准实时告警3、业务报表分析4、定期巡检报告基于ELK的日志监控基于LogID串联交易基于ELK的日志监控l全文索引,查询能力强基于ULSPl支持负责查询,适合生成各类报表分析能力强资源成本极高l仅索引Metadata,存储要求极低基于Lokil查 询 速 度 快,分 布 式g
9、rep仅用于查询资源成本极低VS基于图的调用全景图展示4基于图的调用全景图展示n现状与痛点调用全貌复杂在微服务架构下,服务、接口体量巨大,调用依赖关系呈复杂的网状结构评估视野狭窄服务资产平台只能维护单层的调用关系,各系统/服务只能看到自己的直接上游和直接下游维护成本高服务资产平台上的服务订阅关系只能手工录入和变更,工作量较大,不够自动化基于图的调用全景图展示n为什么要用图由点(实体)和边(关系)构成,表示实体和实体间的关系,一般称为拓扑图、网络图。在此基础上进行扩展,可为点和边设置属性,成为属性图。callhavehavetransfer基于图的调用全景图展示n实现与目标PS指标中增加标签记录上下游调用关系,完成实时、自动化的数据采集(应用无侵入),通过图数据库存储和维护复杂的调用关系和服务数据,最终形成服务调用全景图。使用场景举例:指标下推基于图的调用全景图展示n效果图未来展望5未来展望SDK埋点java agent对应用无侵入需要随应用启动eBPF010203无感落地对应用有侵入对应用无侵入系统内核级别监控n应用无感接入n日志、调用链、指标联动分析未来展望监控的核心目标还是护航业务稳定,保障业务的快速迭代,永远不要忘记因何而来。THANKSK+峰会北京站官网AiDD峰会北京站官网