《孙钊-平安银行大数据云原生实践(云数仓StarRocks).pdf》由会员分享,可在线阅读,更多相关《孙钊-平安银行大数据云原生实践(云数仓StarRocks).pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、平安银行大数据云原生实践(云数仓StarRocks)孙 钊 平安银行 大数据运维架构师目前负责平安银行大规模的大数据集群、消息中间件、搜索引擎和相关生态系统的技术运营管理工作,负责大数据信创体系建设,推动平安银行大数据云原生转型、降本增效等方向的工作。GOPS 全球运维大会 2024 深圳站目 录contents01大数据现有架构02挑战及创新03业务赋能04未来展望GOPS 全球运维大会 2024 深圳站PART 01大数据现有架构GOPS 全球运维大会 2024 深圳站大数据现有架构GOPS 全球运维大会 2024 深圳站大数据现有架构GOPS 全球运维大会 2024 深圳站PART 02
2、挑战及创新GOPS 全球运维大会 2024 深圳站选型维度可替换扩展性强架构简洁查询效率支持离线和实时数据源为了简化技术栈,提升效能,从以下维度开展技术选型GOPS 全球运维大会 2024 深圳站选择StarRocks的原因结合行内现状,针对主流OLAP引擎,调研了ClickHouse、Apache Kylin、Presto/Trino、StarRocks,优劣势如下:GOPS 全球运维大会 2024 深圳站StarRocks&ClickhouseStarRocks1.x与Clickhouse差异不大StarRocks2.x的是Clickhouse的1.71倍服务器物理机配置24C128G,S
3、SD磁盘版本StarRocks 2.4ClickHouse 21.9磁盘SSD数据集SSB 100GGOPS 全球运维大会 2024 深圳站StarRocks&Presto/Trino服务器物理机配置24C128G,SSD磁盘版本StarRocks 2.4Trino 403磁盘SSD数据集TPC-H 100GTPC-DS 500GTPC-H 100GStarRocks2.x的基于Hive外表查询总耗时为92.6s,Trino总耗时为298.9s,查询提升约3倍。TPC-DS 500GStarRocks 2.x 在1/3的计算资源情况下,查询性能已经超过Trino。Worker 数相同的情况下,
4、和TPC-H的查询提升结果相近,都有约3倍的提升。GOPS 全球运维大会 2024 深圳站StarRocks&Kylin 基于不同维度及分区数的关联查询测试,在忽略Kylin构建时间成本情况下:StarRocks在无预热的情况下,部分查询kylin会有较大优势;查询预热后,StarRocks查询命中Cache,对查询加速有非常大提升。GOPS 全球运维大会 2024 深圳站StarRocks存算一体架构FE(Frontend)负责元数据管理、客户端连接,查询规划、查询调度工作BE(Backend)负责数据存储,SQL执行等工作数据存储:完全对等,负责导入数据并生成相关的索引SQL执行:SQL的
5、物理执行单元会就近分派给数据存储节点,提供查询性能2022年引入基于StarRocks 2.x版本GOPS 全球运维大会 2024 深圳站成本弹性升级资源隔离 存算一体扩容节点,存储计算资源绑定 数据副本可能带来的浪费 计算资源无法灵活扩展 集群资源无法灵活调度 升级运维成本比较高 需要额外的工具进行滚动操作 租户计算资源无法保证,容易抢占 同一份数据不可以在多workflow中共享GOPS 全球运维大会 2024 深圳站StarRocks存算分离架构FE(Frontend)将woker及shard调度工作移交到了StarManagerFE只负责库表元数据及查询规划CN(ComputeNode
6、)无状态,只负责Query的计算执行通过本地SSD提供缓存加速BE的所有数据存储都交给下层存储2023年引入基于StarRocks 3.x版本GOPS 全球运维大会 2024 深圳站采用Kubernetes 作为 StarRocks 底座。Operator 负责监控 k8s 集群内的自定义资源的创建、改动、销毁等事件,并触发相应的逻辑。CRD 用来定义CN的资源类型,通过声明式进行节点部署与管理。Controller 会根据声明的信息创建 Deployment,帮助我们管理集群的状态。利用 Kubernetes HPA资源对象,使 CN pod 可以根据资源指标实现流量变化的自适应,自动弹性地
7、扩充新节点或者销毁不需要的节点。2023年配合全行云原生转型,采用StarRocks OperatorGOPS 全球运维大会 2024 深圳站StarRocks计算弹性扩缩容实践 在创建Starrocks Cluster的时候,指定了HPA规则,基于CPU的使用率进行弹性的扩容,在查询高峰期CN节点自动弹性伸缩容。策略:最小15个副本,最大25个副本 CN 会在容器启动的时候,自动在FE中注册,容器销毁前,会主动在FE中删除GOPS 全球运维大会 2024 深圳站镜像文件调整:部署Kerberos客户端、通过configmap将依赖配置文件(Hadoop、KDC)集成修改FE和CN的entry
8、point.sh脚本,启动crond进程,定时通过Kinit生成和更新krb5 cache由于需要访问Hive外表,访问开启Kerberos Hadoop集群,对镜像进行以下改造GOPS 全球运维大会 2024 深圳站StarRocks监控、自动化部署多维度集群监控快速申请集群元数据查看集群扩容缩容GOPS 全球运维大会 2024 深圳站PART 03业务赋能GOPS 全球运维大会 2024 深圳站业务赋能-指标平台 构建指标“一处定义、多处使用”,数据团队一次定义指标口径,指标应用用户基于指标场景来使用指标,平台通过应用场景进行物化调度,来达到指标应用服务SLA指标需求GOPS 全球运维大会 2024 深圳站业务赋能-CDP 基于Starrocks的一站式湖仓融合的架构方案,实现准实时的秒级OLAP分析场景,为策略投放提供灵活、便捷的客群圈选、画像分析等能力,支持营销精准投放GOPS 全球运维大会 2024 深圳站PART 04未来展望GOPS 全球运维大会 2024 深圳站未来展望混部调度引擎通过Koordinator实现精细化调度,提升K8s资源利用率。Presto/Trino全面替换全面替换Presto/Trino,提升效率。GOPS 全球运维大会 2024 深圳站Thanks高效运维社区DevOps 时代荣誉出品感谢大家观看THANKS