上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

罗来锋-字节跳动云原生大数据运维管理实践.pdf

编号:122017 PDF 33页 11.86MB 下载积分:VIP专享
下载报告请您先登录!

罗来锋-字节跳动云原生大数据运维管理实践.pdf

1、字 节 跳 动罗来锋 字节跳动资深研发研发工程师多年大数据及应用研发经验,主导建设过数据中台、数据仓库等大数据产品的商业化落地。现负责火山引擎云原生大数据架构和研发工作,打造支撑公有云、混合云、私有云一体化的云原生大数据运维管理平台,目前已集成多款serverless产品,如 Flink、Spark、mq、OpenSearch、CloudFS 等,提供一站式的大数据产品体验。云原生运维管理实践业务现状与背景介绍架构简介环境管理与组件服务统一的日志监控告警业务现状与背景介绍背景介绍组件繁多大数据领域很多工作都需要众多组件配合完成部署复杂部署一套完整的生产环境需要管理复杂的依赖条件和配置输入环境耦

2、合组件与所在环境耦合严重,移植困难云原生演进极致的弹性伸缩快速的故障转移无服务状态感知云原生演进架构微服务化基础设施不可变应用容器化声明式 API服务架构按功能划分成多个小组件,功能上更加高内聚、低耦合,降低变更的复杂度不可变基础设施的主要好处是部署的简单性、可靠性和一致性,这些特性会减少或消除许多常见的痛点和故障点容器提供了可移植性,可保证环境间的一致性。通过将所有内容封装到单个镜像中,可将微服务及其依赖项与底层基础结构隔离云原生演进通过声明式API,可以把功能实现细节对用户隐藏,用户无法直接操作影响环境,整体环境更加稳定,功能变更与演进也更加方便架构简介云原生上的运维实践运维组件本身的资源

3、占用相对集群总体规模要足够足够小,在一些小型项目上要求占用资源可以忽略。资源占用低所有运维相关的功能必须能够跟随集群规模进行伸缩,不能的单点瓶颈。伸缩性好遇到故障能快速恢复,优先保证可用性,并对上层业务进行故障管理。稳定性高所有运维相关功能要求进行可插拔式设计,能快速对接用户自有组件,适应各种复杂环境。移植性强上层业务在使用运维相关的功能时不需要关心具体的环境信息,支持快速构建与交付。环境感知弱云原生大数据功能架构图(三大平台一大支撑体系)公有云 容器服务私有云 容器底座资源调度层多云部署和调度统一资源池云原生 operator核心引擎层云原生 Flink云原生 Spark云原生消息引擎实时分

4、析引擎云原生日志搜索统一数据存储(兼容 HDFS 语义)兼容 HDFS 语义对接标准 S3平台服务层元数据管理任务开发与调度用户与权限管理生态整合服务运维管理平台集群管理组件管理日志管理监控报警容灾管理环境管理演进方向环境管理抽象出一套统一的环境模型,适应各种部署模式组件服务提供灵活便捷的组件管理服务,统一管理组件的元数据、依赖与配置功能抽象对常用的运维功能,如日志、监控、告警进行统一的抽象,向上层业务屏蔽环境细节环境管理与组件服务环境管理按功能职责将整个环境分成逻辑的三块:控制面、系统面、数据面控 制 面系 统 面系 统 面数 据 面数 据 面数 据 面数 据 面控制面:弱业务承载,主要负责

5、环境管控、成本结算、服务网关等支撑性工作系统面:强业务承载,负责主体业务的运行数据面:提供引擎层的运行资源,支持多个集群的联邦组件服务:组件分类按组件部署区域分为四类:系统级、集群集、租户级、项目级系 统 级集 群 级租 户 级系统级:部署在控制面与系统面,承载着主要的业务管控逻辑集群级:部署在各个物理集群内,主要是各类 Agent以及自定义的调度器和 Operator,Agent 主要是负责采集支撑业务的相关数据(日志、监控、磁盘等)租户级:一些租户独占的业务支撑组件项目级:项目相关的一些业务组件,如作业及一些三方工具项目级元数据管理依赖管理配置管理组件服务组件服务:HelmChartCha

6、rtChartClusterClusterClusterClusterClusterCluster组件服务:定制化改进1.支持快速部署调试与验证 服务化定制 可视化界面 深度的仿真部署2.屏蔽环境差异 提供配置模板 支持配置分层 资源动态修改磁盘管理:问题分析在 K8s 上使用磁盘需要提前 感知磁盘信息(挂载点、类型、大小等等),在使用上与具体环境耦合度太高环境耦合磁盘的使用没有一个全局调度的视角,无法统筹全局的磁盘信息进行组件混部,导致磁盘利用率低利用率低组件对磁盘的使用要么只能以整盘使用达到隔离效果,否则缺乏必要的容量限制与Quota 分配隔离性低组件对磁盘的需求是动态的,在运行期间需要调

7、整,缺乏一个统一和管理调度,在调整时时间跨度大,链路长,维护难度大维护难度大磁盘管理:统一调度统一的磁盘调度管理 统一磁盘信息(挂载点、类型、大小),统一管理调度 提供共享容量卷功能,满足大数据作业的临时数据存储 提供共享磁盘卷,不需要 IO 隔离的数据持久化需求 提供独占磁盘卷能力,满足高 IO 组件的需求,保证 IO 隔离磁盘管理概览计算计算计算存储存储存储Emptydir VolumesPV1/PV2/local pathsPV3PV4PV5PV6LV1LV2Volume Grouplocalpathlocalpathimagefsnodefsdevice1data1data2devic

8、e2device3device4data3data4data5data6data7device5device6device7共享存储空间的共享容量卷(基于本地路径的共享磁盘)独占存储空间的共享磁盘卷(基于 LVM 的共享磁盘)独占磁盘卷(独占磁盘)统一 CSI每个节点上所有允许使用的磁盘根据实际情况可分为多个部分Imagefs/Nodefs剩余磁盘由统一 CSI 托管部分磁盘基于本地路径构建共享盘,支撑共享存储空间的共享存储卷,适配于大数据计算作业部分磁盘基于 Linux LVM 机制构建共享盘,支撑独占存储空间的共享磁盘卷,适用于普通存储服务部分磁盘基于本地路径构建独占盘,支撑独占磁盘卷,适

9、用需要强 IO 隔离的存储服务统一的日志监控告警日志演进方向业务隔离租户与租户,组件与组件之间的采集进行隔离,避免单个租户或组件打爆整个服务高效采集降低采集的 Agent 的资源占比,以尽可能小的资源满足日志采集需求公平分配日志采集在组件与业务之间公平分配,避免因为日志量压力不同导致采集饥饿安全可靠尽可能保证日志不丢失,在各种异常情况下,保证日志采集的连续性日志数据链路CollectorFilebeatLogProxyCollectorFilebeatLogProxyElasticSearch云日志服务消息中间件Database日志搜索日志:概览LogRuleChartLogRuleFileb

10、eatDaemonsetSidecarReloadLogRuleChartLogRuleDiscovery告警:开源方案MySQLWebApiServerPrometheusRedisAgentsExplortersWrite rulesSync rulesHeartbeatRemote WriteQuery SeriesQuery SeriesPersist JWT TokenPush MetricsScrape Metrics告警:流程概览WebapiRuleuser groupRuleuser grouploop filterrulesqueueloop consumemetrics q

11、ueryNotify1.创建 Rule2.写入数据库3.定期同步到Server 内存4.加载所有告警规则5.查询 promQL 是否成立6.将告警事件写入队列7.消费事件队列8.将事件写回数据库9.告警通知10.查询告警事件11.查询告警事件current eventhistory eventMySQL动态消息模板动态通知动态消息模板增加通知消息的动态模板,可以灵活引用告警事件的各种信息,丰富通知信息,提升告警消息的灵活性。通知方式插件化将各种通知方式插件化,根据环境需求开发对应通知插件,核心流程可以保持不变告警:通知模块NotifyServerQueuerender templatework

12、erworkerworker定时巡检异常消息重发失败消息生成告警。Ref_key幂等去重Email senderSMS senderLark senderPhone senderDingding senderWechat sendernotify pluginddl 动态链接实现告警:动态阈值01事件发生告警引擎按规则扫描监控指标,计算生成告警事件02触发告警告警事件产生,渲染模板,生成并发出告警信息03人工反馈人工判断是否误报,反馈至告警引擎04训练分析告警引擎根据人工反馈训练模型,生成动态阈值规则监控:痛点分析单点应用,无法水平伸缩,支撑采集规模有限,不具备高可用可用性低受限于本地磁盘的容

13、量,空间有限,无法水平扩容和数据多副本,不具备高可用数据存储整体的监控与日志、告警、看板整合度低,使用体验比较割裂整合度低面对大跨度时间查询,响应时间长,也不具备预聚合、降采样等能力性能不足监控:架构概览集群组件租户组件项目组件PrometheuspushgatewayPrometheusPrometheus数据面StorageQueryGrafana前端展示系统面集群1集群2集群3云监控云监控S3 StorageCloudFS自定义存储监控水平拆分进行大跨度时间范围的指标查询时,拆分为多个小跨度时间范围的子查询,并发执行,加快查询速度查询优化引入缓存引入缓存,对固化的时间范围的指标进行缓存,回忆响应速度监控一键采集常用监控指标对接大数据存储性能优化产品整合定制开发各种采集组件,丰富指标采集体系,在各种环境下支持一键采集常用指标指标存储对接 S3 对象存储以及 CloudFS,在指标存储上具备水平伸缩和高可用支持预聚合、降采样等能力,提升系统QPS,优化 query 的查询效率与日志、告警、链路追踪等功能深度整合,优化使用体验功能优势Thanks扫码参与技术交流

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(罗来锋-字节跳动云原生大数据运维管理实践.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部