《自治在线优化新模式——腾讯大数据平台大脑 AI探索与实践.pdf》由会员分享,可在线阅读,更多相关《自治在线优化新模式——腾讯大数据平台大脑 AI探索与实践.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、2023 DataFunCon大数据平台自治在线优化AI 探索与实践演讲人:黄丹青腾讯大数据大数据平台大脑项目负责人目录趋势与挑战自治方案自治实践总结展望Contents01 趋势与挑战挑战数万计服务器千万级任务复杂系统多技术栈Continually Online Optimization趋势自治系统(Autonomic Systems)超级自动化(Hyperautomation)决策智能(Decision Intelligence,DI)02 自治方案可观测数据底座可插拔决策引擎可泛化决策智能对大数据平台自身全方位观测与画像的数据底座,刻画了 任务、数据、服务三大主题特征领域决策引擎设计上是
2、插件化的,期望其能灵活应对大数据技术栈上任意组件变更带来的诊断场景变更,能快速适配内网、云上等等复杂环境下的业务方在大数据栈上的技术选型,也能够让“专业领域”的人员能方便地进行自定义的能力建设决策算法的实现方案多种多样,我们尽量去探索一些可重用的方法,保障扩展到大数据场景的新领域时也能适关键能力应用架构03 自治实践决策智能的一些应用场景AI决策OptimizationSupervisedLearningPlanningReinforcement LearningExplicitProgramming决策智能有着最大的业务附加值最小的使用障碍决策智能的一些应用场景以慢任务诊断为例强化学习规划方
3、法优化方法监督学习规则编程辅助编程物化视图参数优化引擎选择规则引擎慢任务治理横向事前:sql检查辅助编程物化视图事中:全链路诊断链路发现错误码匹配规则判定参数推荐事后:健康评分自愈:在线调优纵向望远镜:集群巡检慢节点发现容量预警指南针:异常发现/引擎选择sql引擎选择实时异常发现放大镜:下钻根因根因分析profiler工具决策智能的一些应用场景spark参数调优基于规则方法分析优势:专家经验与先验=前期收敛快与安全性劣势:不能找到最/次优解,最终效果无法保证,不能对执行时间进行保证,需要大量的人力开发来验证规则(即开发和运维成本),可泛化性不强黑盒优化方法分析优势:1)人力资源投入少,2)中后
4、期收敛调优效果更好,有理论保证,3)能够自动支持多种优化场景(通用性与可拓展性)劣势:黑盒优化的冷启动问题,初始收敛慢,初始结果效果不稳定,安全性与有效性这方面不一定强满足,计算代价需要权衡投入产出比决策智能的一些应用场景JVM参数调优技术方案Spark参数调优基础上的泛化增加GC相关的参数尽可能降低搜索的维度调优结果存在gc问题的绝大部分任务:执行时间缩减初始GC占比就比较低的任务:自动化的方法调优GC参数也不会使得任务变得更糟糕Spark参数调优过程中,调整的只是Spark资源相关的参数,而实际上Spark任务也可以调整JAVA虚拟机参数。我们主要关注的是垃圾回收(GC)相关的参数。相较于
5、资源相关的参数,GC参数更为复杂。不同的垃圾回收器之间,既有着共同的参数,也会有着各自特有的参数。所以调优GC参数往往需要强大的专家经验,而使用自动调参则不需要这些先验知识决策智能的一些应用场景SQL引擎选择在数据分析任务中,用户向平台提交SQL任务时,平台需决策使用presto或spark引擎执行查询。使用presto速度更快,但部分任务不适合,若执行失败则浪费资源,因此需要方法进行自动化引擎选择。基于HBO强化CBO/RBO的模式,选择成功率达到瓶颈,通过黑盒优化增强决策能有效提升成功率。场景落地的一些关键卡点卡点本质AI数据算力算法场景落地的一些关键卡点全链路诊断场景数据覆盖度不足导致诊
6、断未命中(数据)时效性不足导致诊断时间过长体验下降(算力)诊断准确性和能力覆盖度不足影响准确性(算法)场景落地的一些关键卡点健康分场景数据覆盖度不足导致健康分打分未覆盖(数据)诊断准确性和能力覆盖度不足影响准确性(算法)实时离线场景维护两套逻辑影响易维护性(算力)场景落地的一些关键卡点大规模在线自动调优场景更好优化结果与模型消耗计算资源之间的权衡(算力)降级容错性的充分保障与迭代收敛的权衡(算法)数据及时性对决策的影响(数据)研发中的场景巡检根因分析自动物化视图AI辅助开发04 总结展望总结展望总结展望展望决策智能将逐步成为新一代数据产品的“标配”,并催生全新研发运营模式;未来大数据自治演进出来的大数据平台大脑是“专家”、“助手”、“管家”三位一体的角色,智能化地服务与用户提效、组件赋能、平台运营的方方面面2023 DataFunCon演讲人:黄丹青腾讯感谢您的观看 THANKS