《刘桂海-特来电云平台智能运维应用实践.pdf》由会员分享,可在线阅读,更多相关《刘桂海-特来电云平台智能运维应用实践.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、刘桂海/架构师特来电云平台智能运维应用实践特来电云平台智能运维应用实践特来电云平台简介1234Flink在特来电云平台智能运维的未来计划特来电云平台智能运维简介Flink在特来电云平台智能运维的应用场景#1#1特来电云平台简介特来电云平台简介要加强新型基础设施建设(即新基建新基建),发展新一代信息网络,拓展5G应用,建设充电桩充电桩,推广新能源汽车,激发新消费需求、助力产业升级。-2020年政府工作报告充电是关系国计民生的新基建特来电日充电量达到15001500万度,充电的稳定性对云平台提出了非常严苛的要求,需要保证7*24不间断稳定运行,否则会带来严重的舆情问题舆情问题。从无到五,特来电云平
2、台一路V5前行#2 2特来电云平台智能运维简介特来电云平台智能运维简介基于AIOps的智能运维理念智控监析1.监:犹如人的眼睛,全面收集,发现问题2.析:犹如人的大脑,快速分析,分析问题3.控:犹如人的双手,精准执行,解决问题4.智:犹如人的心脏,稳定运行,预测问题“监控”不应是一个词,而应是拆开来看的几个字:NoSQL数据库时序数据库(InfluxDB)智能监控平台智能运维中台主动监控被动监控技术全链路业务全链路系统日志行为日志调试日志异常日志预警分析预警收敛异常检测根因分析异常聚类自动运维看板运维手动运维本地运维变更中控智能监控AgentCMDB智能运维Agent智能分析平台智能控制平台深
3、度学习(TF)高性能消息队列(Kafka)流计算(Flink)机器学习(Python)监控数据服务监控数据可视化文本聚类趋势检测规范支撑流程支撑组织保障系统健康大盘平台支撑智能支撑数据支撑技术支撑发布评估系统监控面板分析数据库(ClickHouse)因果分析App监控全链路压测舆情分析故障预测ChatOps弹性伸缩智能决策系统变更大盘时序数据库(TDEngine)高性能消息队列(Pulsar)图数据库(Nebula)容量评估自然语言处理(HanLP)监控数据挖掘监控数据治理相关性容器监控技术风控预警降噪知识图谱中间件拓扑大盘机器画像微服务画像时序数据库(Prometheus)机器学习(Alin
4、k)基于AIOps的智能运维中台#3 3FlinkFlink在特来电云在特来电云平台智能平台智能运维的应用场景运维的应用场景监控数据:指标、链路与日志MetricsAggregatableTracingRequestscopedLoggingEventsRequest-scoped metricsAggregatable eventse.g.rollupsRequest-scoped,aggregatable eventsRequest-scoped eventsHighvolumeLowvolumePeter Bourgon特来电监控数据处理:指标、链路与日志InfluxDBKafkaAge
5、nt监控指标分析引擎服务链路分析引擎异常日志分析引擎KafkaNebulaElasticsearchGrafanaNebulaStudioKibanaMetricsTraceLogFlume链路关系数据指标聚合数据异常聚类分析异常聚类数据链路关系分析指标聚合分析指标分析链路分析日志分析为什么要进行监控指标分析?特来电云平台,每天收集的监控数据在10T规模,如果这些数据完全落盘,并且在查看监控图表时再进行聚类分析,对数据存储以及查询性能都是极大的压力考验时序数据库KafkaAgentGrafanaFlume如何利用Flink进行监控指标分析?特来电云平台,基于Flink打造的监控数据实时分析引擎
6、,对收集上来的监控数据,基于事件时间,按照数据中心、服务单元、应用集群、应用节点、自定义维度等进行实时聚合分析,建立监控原始数据与聚合数据的关联关系,计算后的聚合数据落盘到时序数据库,便于在Grafana中进行快速展现,部分监控原始数据落盘到HBase,便于通过聚类数据联查到原始数据。InfluxDBKafkaAgent监控指标分析引擎KafkaGrafanaFlume指标聚合数据HBase指标原始数据快速展现通过关联关系,钻取联查详细数据通过拆分聚合数据与原始数据,极大提升了监控数据的分析、展现及联查能力指标分析链路分析日志分析为什么要进行监控链路分析?特来电云平台,每天微服务调用在几十亿次
7、,微服务间的调用关系错综复杂,剪不断,理还乱的微服务之殇,是每个企业需要面对的痛点问题,如果对业务间的调用关系梳理不清,将会严重影响线上故障定位如何利用Flink进行监控链路分析?特来电云平台,在框架层面对微服务调用进行透明埋点,通过在上下文中透传链路请求ID,解决分布式场景下,错综复杂的微服务链路调用之殇问题,基于Flink打造的服务链路实时分析引擎,结合国内图数据库黑马Nebula,对服务链进行实时分析,并将单链路数据存储到HBase,多链路数据存储到Nebula,为服务治理、补丁发布评估提供了强有力的数据支撑KafkaAgent服务链路分析引擎KafkaNebulaNebulaStudi
8、oFlume链路关系分析HBase单链路关系多链路关系自研展现指标分析链路分析日志分析为什么异常日志分析很难?码农撸代码时,非常喜欢抛出异常现代开发框架都是分层的,并且都是通过微服务进行调用的异常被层层抛出,层层封装,犹如一个裹得严严实实的洋葱记录后的异常日志上报到监控系统后,面对洋葱一样包裹的异常,分析引擎无法快速分析到洋葱最里层的异常,而这才是我们要重点关注的根因异常(码农)系铃容易(分析引擎)解铃难如何利用Flink进行异常日志分析?特来电云平台,通过在服务框架、中间件SDK层面对捕获的异常进行层层解包,将内部异常上报到监控系统,基于Flink打造的异常日志实时分析引擎,结合服务链路调用关系,对异常信息进行分词及聚类分析,并与故障特征库进行特征匹配,从而识别出异常发生的底层根因及可能的故障,为线上运维排障提供了全局层面的上帝视角,让运维人员具备了快速决策能力KafkaAgent服务链路关系数据异常日志分析引擎KafkaElasticsearchKibanaFlume内部异常异常聚类数据故障特征库数据InfluxDBGrafana快速展现通过关联关系钻取联查详细数据异常详细数据#4 4FlinkFlink在特来电云在特来电云平台智能平台智能运维的未来计划运维的未来计划Flink on k8sAI on Alink