《【2023数栖大会】连林江—构建现代分析应用的实时数据仓库.pdf》由会员分享,可在线阅读,更多相关《【2023数栖大会】连林江—构建现代分析应用的实时数据仓库.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、让 数 据 用 起 来构建现代分析应用构建现代分析应用的 实 时 数 据 仓 库的 实 时 数 据 仓 库演 讲 者:连 林 江SelectDB 联合创始人兼COO让数据用起来01实时分析即未来实时分析即未来让 数 据 用 起 来现代化分析应用 实时即未来DataData losesloses valuevalue overover timetime让 数 据 用 起 来 广告营销报表 保险客户分析 物流实时看板 交易明细查询Online reporting and dashboard应用场景 在线在线报表与决策高并发高并发 (1K1K QPSQPS),),低延迟低延迟(毫秒级毫秒级),),高
2、可用高可用 路线优化 广告服务 风险控制 实时个性化让 数 据 用 起 来1 1Online decisioning2 2应用场景 交互式交互式数据探索分析让 数 据 用 起 来Ad-hoc reportingUser profile and behavior analysisLog storage and search analysis中等并发中等并发 (100100 QPSQPS),),中等延迟中等延迟(秒级秒级),),自助查询自助查询应用场景 增量增量 ELT ELT 数据处理让 数 据 用 起 来低并发低并发 (1010 QPSQPS),),高延迟高延迟(分钟级分钟级),),定期调度定
3、期调度实时分析的核心挑战让 数 据 用 起 来让数据用起来02新一代实时数据仓库新一代实时数据仓库让 数 据 用 起 来现代分析应用的坚实底座-新一代实时数据仓库新一代实时数据仓库让 数 据 用 起 来一体机一体机传统数仓时代实时数仓离线数据湖新一代实时数据仓库2005200520152015分布式分布式云原生云原生新一代实时数据仓库的三大特征让 数 据 用 起 来开源开放开源开放实时统一实时统一多云原生多云原生 Open Source Open License Real-Time Data&Query Single Unified-Any type of workloads-Struct/S
4、emi-struct/Text-Lakehouse Cloud-Native Multi-CloudSelectDB-Apache Doris 背后的商业化公司让 数 据 用 起 来开源开源+商业商业 服务开发者、用户和客户致力于 技术普惠技术普惠 和 业务赋能业务赋能致 力 于 打 造 新 一 代 实 时 数 据 仓 库致 力 于 打 造 新 一 代 实 时 数 据 仓 库开源项目 Apache Doris让 数 据 用 起 来ApacheApache 第第 200200 个顶级项目个顶级项目 全球最活跃的开源大数据项目 新一代实时数仓技术 项目项目StarStar 83008300社区开发
5、者社区开发者 500500全球企业用户全球企业用户 15001500商业化产品 SelectDB让 数 据 用 起 来两种交付形态两种交付形态Apache DorisSelectDBSelectDB EnterpriseEnterpriseSelectDBSelectDB CloudCloud自管理、私有化部署全托管的公有云服务 专业技术服务 消除风险 解决问题 优化系统企业级特性 长周期支持的稳定内核 可视化管控工具 跨集群复制和备份恢复云原生特性 存算分离 多计算集群 弹性伸缩全球性能第一全球性能第一的实时数仓让 数 据 用 起 来20222022年年1010月登顶全球分析型数据库评测榜单
6、月登顶全球分析型数据库评测榜单ClickbenchClickbench,性能全球第一性能全球第一,证明了出色的查询性能证明了出色的查询性能业界最为通用的 c6a.4xlarge,500gb gp2 机型查询性能 Hot Run、Cold Run 分别领先第二位 35%、25%性能排行全球第一性能排行全球第一不同机型和系统的总榜(包含 Snowflake、Redshift 等)Cold Run Cold Run 查询性能第一查询性能第一Hot Run Hot Run 查询性能第二查询性能第二国内首家国内首家多云中立的SaaS化云原生实时数仓让 数 据 用 起 来Recommended Use C
7、aseRealtime DatabaseData DashboardPersonaObservabilityCluster ACluster AComputeNodeCacheComputeNodeCacheComputeNodeCacheComputeNodeCacheauto scalingCluster BCluster BComputeNodeCacheComputeNodeCacheComputeNodeCacheComputeNodeCacheauto scalingData Warehouse 1Data Warehouse 1Cluster ACluster AComputeN
8、odeCacheComputeNodeCacheComputeNodeCacheComputeNodeCacheauto scalingCluster BCluster BComputeNodeCacheComputeNodeCacheComputeNodeCacheComputeNodeCacheauto scalingData Warehouse 2Data Warehouse 2Object Storage ServiceDatabaseData StreamData LakeData ApplicationTransform ToolBI ToolData ScienceData Ap
9、plicationObject Storage ServiceServerless ConsoleMetadataManagement APISecurityCloud Service完善的云上生态完善的云上生态 秉持云中立理念,支持国内外多家云 基于对象存储的存算分离架构 弹性扩缩容、弹性计费高度兼容大数据生态高度兼容大数据生态 支持 MySQL 协议 支持 S3、Kafka、Flink 等多种数据源导入 支持 Hive、Iceberg、Hudi 湖仓一体架构多种业务场景适配多种业务场景适配 实时报表与多维分析 数据联邦与查询加速 用户画像与行为分析 日志存储与分析完全自主可控完全自主可控的
10、国产数据库让 数 据 用 起 来技术领先技术领先20222022信创产业实干者年度评选信创产业实干者年度评选 实干企业实干企业十多项国产化兼容信创认证十多项国产化兼容信创认证中国信通院中国信通院“可信数据库可信数据库”认证认证20222022大数据星河奖大数据星河奖 优秀数据库案例优秀数据库案例公安部公安部 等保三级等保三级ISOISO 6 6项项 安全管理体系认证安全管理体系认证安全可靠安全可靠自主可控自主可控产品特色让 数 据 用 起 来让实时分析快速简单让实时分析快速简单数据库数据库数据湖数据湖数据流数据流实时数据服务实时数据服务交互数据分析交互数据分析增量数据处理增量数据处理数据低延迟
11、数据低延迟查询低延迟查询低延迟从从 T+1T+1 -T+0-T+0 的数据集成的数据集成高效的实时存储模型高效的实时存储模型支持多种负载的查询能力支持多种负载的查询能力简单易用的使用接口简单易用的使用接口从 T+1-T+0 的数据集成让 数 据 用 起 来MySQL协议HTTP协议应用实时写入实时写入Realtime insert 长连接:MySQL协议 短连接:HTTP协议流式同步流式同步Streaming CDC数据联邦数据联邦Data federation 同步事务数据库 同步Kafka 集成存储系统(S3,HDFS)集成数据湖(Iceberg,Hudi,Hive)集成数据库(MySQL
12、,Oracle,ES等)高效的实时存储模型让 数 据 用 起 来实时更新的存储模型实时更新的存储模型 实时追加(明细表),实时插入、更新和删除(主键表)半结构化数据类型:Array、Map 和 JSON(行、列)Scheme evolution强一致的强一致的(单表单表)物化视图物化视图 支持预聚合视图 支持行列混存(coming soon)支持Projection丰富的索引丰富的索引 跳数索引:Bloomfilter Index,Min/Max Index 点查索引:Prefix Index,Inverted Index支持多种负载的查询能力让 数 据 用 起 来高并发高并发、低延迟低延迟
13、高并发:1000 10w QPS 低延迟:毫秒/秒级高性能高性能,大查询大查询 高性能:秒/分钟级 大查询:通过中间结果落盘工作负载管理工作负载管理 多计算队列:对负载进行隔离(coming soon)异常查询Kill:使用memtracker等机制kill异常查询简单易用的使用接口让 数 据 用 起 来兼容兼容 MySQLMySQL 连接协议连接协议 (APIAPI)原生的开发原生的开发 WebWeb UIUI丰富的生态工具丰富的生态工具四大应用场景解决方案让 数 据 用 起 来实时报表与多维分析实时报表与多维分析将业务数据库或者应用日志的变更数据近实时导入进来,然后为大规模业务客户提供高并
14、发、实时的在线报表与多维分析。替代替代 MySQLMySQL、HBaseHBase、ClickhouseClickhouse、类类 HTAPHTAP系系统等统等。用户画像与行为分析用户画像与行为分析收集用户相关的属性与行为数据,构建用户数据平台,进行用户参与、留存和转化等行为分析,以及人群洞察和人群圈选等画像分析。替代替代 ElasticsearchElasticsearch、SparkSpark等等。数据联邦与查询加速数据联邦与查询加速通过Multi-Catalog机制,对外部存储、开放数据湖格式和常用数据库直接进行数据集成。无需移动数据,利用SelectDB/Doris进行极速数据查询。替代替代 SparkSpark、HiveHive、PrestoPresto、Greenplum Greenplum 等等。日志存储与分析日志存储与分析将业务、系统或者物联网等相关的日志数据,存储为结构化、半结构化或原始文本,构建统一的日志存储与分析平台。在极低成本的基础上提供高性能的日志检索与分析。替代替代 ElasticsearchElasticsearch、LokiLoki等等。让 数 据 用 起 来THANKS演 讲 者:连 林 江 S e l e c t D B C O O