《专场2.4-科技有国界数据库自主可控迁移改造实践-孔再华.pdf》由会员分享,可在线阅读,更多相关《专场2.4-科技有国界数据库自主可控迁移改造实践-孔再华.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、科技有国界如何做好大规模数据库自主可控改造孔再华 民生银行科技有国界目前,不仅互联网巨头互联网巨头谷歌、亚马逊、微软、Meta,流媒体巨头网飞(Netflix)、Roku、Tiktok切断了俄罗斯的传播口径,手机巨头手机巨头苹果,PC巨头惠普、戴尔、联想,汽车巨头宝马、通用、沃尔沃等等都向俄罗斯断供;向俄罗斯断供;更深入的层面,包括Oracle、SAP这样的企业云企业云服务商服务商,以及一切电子信息设备服务底层电子信息设备服务底层的芯片厂英特尔、AMD、台积电等公司,都对都对俄罗斯采取限制行动。俄罗斯采取限制行动。科技公司纷纷卷入斗争,虽然矛头对准的不是中国,却让很多国人感到一种紧迫和危科技公
2、司纷纷卷入斗争,虽然矛头对准的不是中国,却让很多国人感到一种紧迫和危机感机感科技公司原来是有国界的,当这一天发生在我们身上时,我们可否承受?科技公司原来是有国界的,当这一天发生在我们身上时,我们可否承受?25家科技巨头“制裁”俄罗斯家科技巨头“制裁”俄罗斯自主可控数据库应用改造应用改造二二选型评估选型评估一一迁移上线迁移上线三三持续运维持续运维四四评估因素基本SQL语法兼容,ACID、备份恢复PITR,主从同步,JDBC、ODBC等开发支持满足自身性能场景需求满足自身性能场景需求,例如TP,AP,HTAP等性能场景。基础功能产品性能结合自身架构建设需求结合自身架构建设需求,评估产品架构方案。分
3、布分布式、集中式、云服务式、集中式、云服务等。高可用容灾高可用容灾能力;高可用方案,容灾方案(成熟的方案、多活、主备、资源利用率问题);云原生支持(租户隔离能力、风险隔离、资源利用效率提升)等。架构方案高可用方案代码自主可控代码自主可控,兼容支持国产软硬件,操作系统等基础设施。产品许可费用产品许可费用,IT硬件资源投入,技术人员投入等。产品应用透明度或改造难度等,对源数据库的SQL兼容性(例如oracle兼容性),异构数据迁移等工具支持。信创支持迁移成本对于主流编程语言、开发框架、数据库开发工具、运维工具的兼容兼容支持能力。在线维护在线维护类,如DDL,在线扩容(线性扩展的性能和便捷性),计算
4、节点均衡能力、数据按需均衡能力、集群在线扩容(缩容)能力等。生态兼容性可维护性周边工具周边工具等(用户管理的便捷性,通过在线集中的线上管理能力;应用开发测试调试的工具,监控工具,问题溯源等),例如支持数据同步,兼容主流开发套件,迁移工具支持数据同步,兼容主流开发套件,迁移工具等。重要客户,核心系统案例等,数据输出的能力,时效性、稳定支持流式大数据分析。可运维性用户案例论坛,用户,热度,成体系的培训认证体系培训认证体系,高校的合作,丰富的人才培养计划和投入人才培养计划和投入。厂商规模,研发团队规模,研发投入,产品支持模式,成熟的支持体系,24*7全天后支持能力支持能力等。产品生态售后支持评估流程
5、制作评分表制作评分表设置评估项设置分值、权重设置否决条件测试调研测试调研基本功能、性能测试(POC)其他维度调研架构方案分析选型确认选型确认依据评分表评比过评审和招标等样例:部分测试场景 性能WLM测试测试并发数并发数表数表数插入插入查询查询xxxxxxx10044万5/25%(带备机强同步)8万5/40%(不带备机)38万/70%(sys 20%)热点数据场景热点数据场景并发数并发数TPSxxxxx646万转账转账场景场景并发数并发数TPSxxxxx647万12810万TPCH测试测试容量容量导入时间导入时间模式模式CPU测试结果测试结果xxxxxxx10G13分钟串行5%行存:18分钟(无
6、主键索引:21分钟)列存:4分钟并行行存:50%列存:20%行存:5分钟(Q1占时最长)列存:47秒(Q1占时最长)100G130分钟串行5%行存:4.5小时列存:1小时样例:部分测试场景 在线维护测试场景测试场景插入插入查询查询时长时长重组堵塞(150秒)堵塞(90秒)150秒统计分析不影响不影响几秒增加索引堵塞不影响整个建索引过程,当前表30秒删除索引不影响不影响瞬间增加列不影响连接断开,10秒后恢复瞬间删除列不影响连接断开,10秒后恢复瞬间varchar字段缩短堵塞堵塞,连接断开2分钟varchar字段扩长不影响连接断开,10秒后恢复瞬间char字段缩短堵塞堵塞3分钟char字段扩长堵塞
7、堵塞3分钟样例:部分测试场景 功能测试场景测试场景测试结果测试结果主从切换主从数据同步,提供正常切换和异常切换方法。日志归档归档功能可用。支持PITR分区表支持分区表使用,操作维护方式和其他数据库类似,没有明显差距。列存和压缩行表压缩,列存压缩。列存并发插入和查询不如行存。备份恢复支持PITR和增量备份。其他逻辑备份和物理备份以及恢复都没有问题。支持远程备份。WDR报告可以生产性能报告,内容有待丰富。监控具有丰富的性能视图,基本与xxx原生监控相当。空间回收测试可以通过vacuum实现空间的回收。临时表测试支持临时表。应用改造应用改造二二选型评估选型评估一一迁移上线迁移上线三三持续运维持续运维
8、四四应用改造工作量应用代码量应用代码量除了连接方式的变化,如何获取全量需要改写的sql代码应用代码应用代码sql兼容性兼容性存储过程存储过程sql兼容性兼容性需要评估待迁移的sql在目标库的兼容率.存储过程存储过程使用存储过程的迁移会非常困难获取全量sql的方法 sql代码扫描工具 sql审核平台记录 sql全日志、JDBC全日志 网络包解析 数据库sql视图抓取评估sql转换量 sql转换工具:连接数据库验证语法,部分sql自动转换。获取全量sql兼容率 使用函数不兼容:参考函数转换列表 语法不兼容 参考转换案例样例:迁移转换平台评估评估SQL来源来源 评估方式多样:应用后台获取去重、文本评
9、估、自定义语句评估 自动化配置SQL探针 未来将对接监控系统,丰富迁移评估数据源SQL转换对比转换对比转换评估能力转换评估能力整理迁移规则实时语法转换,直接获取转换后SQL不合规SQL审核评估报告详尽:可辅助评估迁移改造工作量数据对象迁移 对象迁移 列类型转换 表、索引、视图、序列、约束 触发器、函数 存储过程 数据迁移 类型转换 MTK迁移工具迁移指导文档 异构数据库兼容列表 测试官方文档全量类型、函数、sql语法等兼容性 相关规则持续改进sql转换工具和mtk迁移工具 异构数据库迁移指导 连接新数据库 典型应用场景迁移 注意事项 新数据库开发规范应用改造应用改造二二选型评估选型评估一一迁移
10、上线迁移上线三三持续运维持续运维四四迁移上线迁移方案迁移方案离线迁移、增量迁移、数据同步迁移方案迁移方案运行方案运行方案回退方案回退方案运行方案运行方案独立运行、并行运行、主备运行回退方案回退方案应用回退、全量回退、增量回迁迁移方案 预迁移 在线迁移,不关注一致性,关注 业务测试验证 正式迁移 离线迁移 全量迁移 增量迁移 基于时间、业务分片等 在线迁移 基于数据同步 数据比对 比对工具:全量、抽样等运行方案 单独运行 应用和数据库回退比较麻烦 并行运行 分片迁移 共同运行,承载不同业务 回退方案涉及数据反写 数据双写 承载全部任务,回退简单 主备运行 数据反向同步 CDC 回退方案简单回退方
11、案 应用回退方案 全量回退 单独业务功能回退 数据库回退方案 方案一:离线迁移全量数据 方案二:离线迁移增量数据 需要定义好增量规则,例如时间、业务分片等查询过滤出增量数据 方案三:反向数据库同步方案 需要CDC类工具支持应用改造应用改造二二选型评估选型评估一一迁移上线迁移上线三三持续运维持续运维四四持续运维自动化是对标准化的进一步提升,通过自动化脚本和程序,进一步控制标准化的执行,对安装部署、监控预警、变更管理、上线审核和问题处理等标准流程全部实现自动化处理。自动化自动化数据库产品逐渐收敛;流程固定;规范固定。标准化标准化集中化将各种自动化工具集中起来,通过统一的界面、接口、流程暴露给用户。
12、集中化集中化智能化是未来数据库运维的重要方向,需要借助人工智能来应对海量的数据库和海量的运维指标,提高问题定位的准确性和预测能力,加快解决问题的速度。智能化智能化标准化 标准化运行环境 国产化硬件、虚拟机、容器云 标准化架构方案 高可用方案、逃生库方案 标准化设置参数 系统参数、数据库参数 标准化运维脚本 监控脚本、应急脚本自动化 部署 基于ansible的全自动部署框架。与工单系统联动,实现了端到端的自动化全流程。自动判断系统架构,全面支持新数据库架构。自动部署高可用软件,安装后可自动进行高可用验证。根据工单自动化建库、建用户、赋权,可生成高强度密码直接发送给申请人,避免了DBA密码泄露的风
13、险。自动化 运维自动化安装自动化安装虚拟机主从自动化安装部署自启动脚本虚拟机重启验证物理机主从自动化安装自动化灾备演练自动化灾备演练物理机灾备演练虚拟机灾备演练升级:可升级到任意版本升级同时更新系统参数支持多套双机集群并发升级HA高可用工具升级:参数更新:所有已上线的集群统一更新参数设置自动化升级、更新自动化升级、更新集中化 dbpaas集中化 dbpaasSEQUENCE的cache过小SEQUENCE即将到达上限SQL存在表扫SQL开销比过大SQL语句没有参数化SQL运行时间较长大表没有索引表空间启用文件系统缓存表没有索引表容量过大表溢出率较高等待时间占比过高访问的数据量过大分区表表分区一
14、个月内到达上限隔离级别过高活动日志使用量大禁止使用外键排序溢出率过高平均CPU消耗过多平均逻辑读过大平均物理读过大失效索引索引超过一年未使用有效读比例低生产生产生产生产生产生产生产生产生产生产生产生产生产生产生产生产生产生产生产生产分布式监控引擎分布式监控引擎数据库运行指标数据库数据库运行指标数据库性能容量分析平台性能容量分析平台问题规则引擎问题规则引擎问题管理系统问题管理系统分析问题的工具发现和管理问题的工具100多个问题项覆盖数据库资源、性能、容量和安全性各个方面智能化 aiops实时计算引擎智能算法库智能运维服务运维数据中台集中监控AIOPS监控PAAS监控天眼日志元数据CMDBAIOP
15、S发现天旦系统应用调用链知识库产品文档AIOPS问题产品缺陷库智能场景流计算数据采集异常检测实时告警图计算告警聚类根因分析大数据分析模型训练相关性分析智能算法指标异常检测关系异常检测智能场景聚类容量预测日志异常检测故障预测告警收敛根因定位系统画像监控数据集中监控AIOPS监控PAAS监控天眼日志CMDBAIOPS发现天旦系统应用调用链产品文档AIOPS问题产品缺陷库智能场景实时告警基础软件深度运维DB2OracleKAFKAWeblogic自助服务定义指标定义关系定义服务自助推送MysqlRedisJVMTomcatOS 智能调度智能化监控告警优化监控告警优化使用动态阈值,提高告警准确性和相关意义产品深度智能运维产品深度智能运维异常检测,根因分析,智能场景,故障预测,系统画像,容量预测日志异常检测日志异常检测通过比对日志和知识库来报告问题和分析解决问题智能告警分析智能告警分析实时分析相关告警,定位核心问题