《专家智慧一触即达:DBbrain在TDSQL运维管理中的应用.pdf》由会员分享,可在线阅读,更多相关《专家智慧一触即达:DBbrain在TDSQL运维管理中的应用.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、何威 腾讯云主讲人:全链路分析助力业务改造总结分布式数据库运维挑战DBbrain是什么DBbrain全链路分析市场竞争加剧,客户习惯变化,移动互联网5G带来应用新变革,需要快速响应数据是经营的核心资产,“数据二十条”催生新的机遇国家监管要求,要加快金融市场基础设施建设,稳步推进金融业关键信息基础设施国产化硬件:小机、大机软件:自主研发,国外厂商技术支持/咨询技术:技术架构与硬件耦合性强硬件:云化/虚拟化/国产化软件:开源软件,自主研发,聚焦金融技术:自主可控,微服务架构,国产数据库大客户或金融场景客户数据库中,通常数据体量巨大,加大了数据分析、实时性、数据库运维的难度。在分布式集群中,SQL经
2、过Proxy后可能会转义,根因分析、关联分析难度很大。金融客户数据库,事务较多,尤其在分布式数据库集群中,事务的状态、性能等通常会加大运维的难点。1:摘自信通院报告7*24小时智能监测数据库,无需人工值守。实时智能异常检测优化,增加自愈能力。自动健康巡检排查隐患沉淀专家建议,提供多重优化措施自动出具SQL优化建议SQL重写Schema优化建议精准耗时分析,掌握数据库运行各个角度的性能。全链路分析,分步耗时性能统计问题根因深度分析数据加密、等保合规性防护确保数据库安全运行。标准化、规范化的操作减少了登入服务器的次数,降低误操作概率。所有操作保留审计记录用于审查。支持公有云数据库支持云主机自建数据
3、库支持混合云模式支持私有云模式一键式运维管理操作和性能优化,大幅减少了运维的成本。故障主动定位和智能优化,大幅降低了数据库运维管理的门槛。MySQL运维场景诊断优化健康报告性能监控、健康巡检死锁可视化事务分析SQL限流热点数据保护Kill会话/持续KILL数据库自治运维场景诊断优化性能监控健康报告高精度审计日志P99/P95分析事务分析锁分析Kill会话持续KILL健康报告大KEY分析、即时大KEY分析热KEY分析访问延迟分析命令字分析健康报告慢日志分析实时日志分析持续KILL会话多维度实时、历史监控运维场景化诊断优化性能监控健康报告多维度性能监控10-100毫秒区域阶梯延迟分布KILL会话、
4、持续KILL索引推荐SQL限流系统与数据库指标监控告警7*24实时诊断与问题分析热点保护,SQL限流,持续Kill自动升配/修复 健康巡检:健康摘要/明细实时预警:用量、规则、潜在问题历史分析:事后分析复盘,支撑改进数据库备份与恢复,安全防护,变更管理 根因分析:SQL分析,空间分析,安全分析参数调优:系统的、数据库的参数优化使用优化:模型优化、数据分布优化、SQL优化 分布式数据库可观测性大幅提高。SQL语句明细:执行时间、性能数据、会话ID 事务明细:事务起止、明细语句、统计信息 活跃会话:每个时刻数据库负载 聚合分析:多种聚合维度,下钻/上卷分析 点面结合:摘要精准,细节明确备注:数据库
5、审计日志是一种记录数据库活动和事件的机制,用于监控和审查数据库的使用情况。审计日志通常包括对数据库的访问、更改、查询和其他操作的详细信息,以及执行这些操作的用户、时间戳和其他相关上下文信息。New重要 SQL被发往了哪个Proxy?Proxy又将SQL发往了哪个DB分片?是如何执行的?Proxy与DB节点间的网络情况对SQL执行的影响。汇聚Proxy与DB日志 支持Proxy/DB双向关系查询 秒级检索TB级审计日志 PB级历史数据检索 丰富的日志明细 日志压缩存储,压缩率5-10倍 支持的存储方式多样,包含对象存储本地盘NAS 模板化统计SQL,有聚类,也有语句具体的执行明细 分析Top 性
6、能消耗,找出高耗时SQL,高频率SQL。SQL来源分布分析,来自哪些Host、User,访问哪些Database?SQL执行统计分析,发往哪些DB分片,辅助是否有倾斜?SQL执行历史对比,核对调优效果或是发现隐患 支持Proxy 和 DB双向分析 将相似事务进行了模板化聚合分析,亦能洞察到具体执行的事务,事务中每一条SQL 分析Top 事务来源分析 事务执行分析 与SQL统计分析交互关联 增强了实时诊断中的事务明细 支持Proxy 和 DB双向分析连接性检查DDL 语句等待 Metadata Lock慢 SQLselect 语句等待 Metadata Lock慢 查询死锁等待行锁只读锁事务未提
7、交SQL 语句等待 Metadata Lock长事务Waiting for flush tablesSQL执行间隔过大事务磁盘空间利用率存在报错SQL事务内存利用率复制延迟CPU 利用率事务导致复制延迟活跃会话高报错执行时间过长的事务单条SQL响应时间长SQL执行间隔过大事务长时间未提交非预期结束未恢复自动提交影响行数过多的事务综合信息感知限流规则执行黑白名单批量Kill持续Kill触发规则自动匹配自动探测热点更新降低大并发损耗优化热点数据性能自动参数调优自动升配自动扩容并不慢的语句变慢执行计划发生变化合理的表结构设计此时不再合理够用的磁盘空间不够了超过主机承载能力引擎配置不再合理系统与数据库
8、指标周期快照各种日志 实时预警预测报告众多实例如何一览全局?分布式节点信息如何更好呈现?信息要尽可能的丰富形式灵活,可二次开发是问题交流的基础有根因分析与建议 已知某次业务响应时间,需要知道该次业务访问的哪一个数据库节点,哪些SQL语句,耗时情况。需要一个根据业务日志号,知道访问了哪些数据库实例,哪些库表,其中的SQL性能数据。需要支持业务维度的统计和分析,能深入到业务中。能区分不同业务,不同服务,不同用户性能差异等特征。重要全链路SQL分析全链路事务分析全链路跨实例分析全链路跨机房分析整体排障时间缩短至少3倍以上,清晰知道SQL流转异常定位时间从小时级,降低到分钟级清晰知道SQL与业务关联,
9、有效推动业务优化。风险左移:开发工程师可随时优化低效SQL优化,通过DBbrain的Top排序,开发资源用在刀刃上。出现全表查询删除更新带where避免多表join大事务长事务字段类型字段长度溢出字符集分区键选择索引优化拆表建议避免函数计算过大blob显式的加锁广播表系统与数据库参数指标监控告警7*24实时数据库诊断与分析慢查询分析,空间分析健康巡检,健康报表SQL限流,持续Kill数据库调优建议,参数修改自动伸缩,自动调优,自动修复数据粒度更细执行信息更丰富多维分析事务洞察分析关联业务信息业务流水洞察精准度更高高实时分布式节点洞察历史趋势分析更精准的自优化全链路业务可观测监督业务使用问题解决在上线前更精准的问题预警测开环节检查评估DB问题预警:用量预警、规则预警研发处理:指导开发工程师在研发阶段发现数据库使用问题,完成问题处理。业务改造:修正对数据库的不合理使用。