《InfoQ:2022年开源大数据热力报告(12页).pdf》由会员分享,可在线阅读,更多相关《InfoQ:2022年开源大数据热力报告(12页).pdf(12页珍藏版)》请在三个皮匠报告上搜索。
1、开源大数据热力报告2022热力“摩尔定律”和热力图谱热力趋势:多元化、一体化、云原生研究目标和研究模型热力值TOP30和热力跃迁逻辑研究致谢报告目录研究目标Hadoop 作为开源大数据技术的起源,兴起于2006年。我们收集从Hadoop 发展第10年,即2015年至今的相关公开数据进行关联分析,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。使用热力值进行定量分析开源项目热力值,使用量化指标,刻画开源项目的开发迭代活跃度和受开发者欢迎程度。具体来讲,主要来自于几个方面:(1)开发者对开源项目的关注度,以及应用场景的广度和深度(2)开发者参与项目开发的贡献活跃度
2、(3)开发者在开发过程中展现出的协作关联度(4)项目和社区的可持续发展的健康度这些和大数据技术发展趋势、开源项目的技术吸引力、开源社区治理水平以及项目传播力强相关。本报告所呈现的开源大数据热力从全景、技术栈分类以及单项目角度对入围项目的热力表现进行可视化的多维度洞察,并将项目进程中的关键事件与热力表现进行关联分析,并引入开源基金会、知名开源项目等领域专家进行访谈,尝试找到项目健康发展一般规律,并对有效提升项目影响力的方法论进行了归纳总结。数据来源采集时间为2022年10月1日。通过 GitHub log 获取2015年1月至2022年9月的公开数据(包括项目Id、Star、Issue、Open
3、 PR,Review Comment,Merge PR等)。通过Jira api 获取2015年1月至2022年9月的公开数据(包括项目Id、Issue数量)。如何定量分析“后Hadoop时代”开源项目和技术趋势热力值计算公式把2015年作为基期,2015年所有开源项目平均热力值作为基数,赋值为100。将三个关键指标做归一化处理,赋予对应权重比例,并由此确立了三个关键指标的归一化系数。详见下表:某项目某年热力值=年度新增 Star 原始值*归一化系数+年度新增 Issue 原始值*归一化系数+年度 OpenRank 原始值*归一化系数#说明:所有大数据项目数据合计来看,新增 Star 数8年增
4、长倍数为3,Issue 数8年增长倍数为1.8,OpenRank 值8年增长倍数为8。因此将基期中三个核心指标的权重比例设置为:25%:35%:40%。第8期的权重比例将变化为:15%:15%:70%。表征开发协作的比重大幅提升,这也与开源项目的生命源动力来自于更广泛的社区开发协作保持一致性。热力值计算详见:https:/ Issue)-参与开发协作(提交 PR 和 Review、活跃 Contributor 等)。因此,热力值由该规律中的3个关键指标加权而来。项目关注:每年新增 Star 数量,来自于 GitHub 公开数据社区反馈:每年新增 Issue 数量,来自于 GitHub 与 Ji
5、ra 公开数据开发协作:每年 OpenRank 值,OpenRank 由 GitHub 公开数据(Open PR,Review Comment,Merge PR)计算所得,算法来自X-Lab开放实验室#说明:因开源大数据项目中有超过40%的项目,使用Jira进行Issue提交和反馈,因此将 X-Lab 原有的 OpenRank 算法进行了修正,将Issue剔除出来,不参与 OpenRank 计算。而将 GitHub 与 Jira 公开数据中的Issue 数单独列出作为社区反馈维度进行计算。2015年所有项目原始值归一化系数归一化后的值归一化后的权重平均新增Star数772.480.032525
6、%平均新增Issue数1137.800.033535%平均OpenRank值14.372.784040%热力值100100%热力值研究模型每隔40个月,热力值提升1倍我们按照数据处理的生命周期,对开源大数据项目进行了技术分类,包括数据集成、数据存储、批处理、流处理、数据查询与分析、数据可视化、数据调度与编排、数据开发与管理8个类别。2022年开源大数据总热力值,增长到2015年的4倍。每隔40个月,热力值提升1倍。热力变迁反映技术趋势 开发者对数据查询与分析保持了长期的开发热情,连续8年位于热力值榜首。2017年流处理热力值超过批处理,大数据处理进入实时阶段。数据规模越来越大,数据结构更多样化
7、,数据集成从2020年开始爆发式增长。近2年来,活跃的新兴项目为数据调度与编排、数据开发与管理注入新的活力。2025年总热力值将突破3万按照目前热力增长趋势预测,到2025年,总热力值将突破3万,数据集成、数据调度与编排、数据开发与管理将成为强劲的热力增长点。2015年4,620 2016年7,148 2017年8,359 2018年9,029 2019年11,778 2020年12,914 2021年14,801 2022年17,103 热力值2022年热力全景图数据可视化数据查询与分析批处理流处理数据存储数据集成数据调度与编排数据开发与管理2018年热力全景图数据可视化数据查询与分析批处理
8、流处理数据存储数据集成数据调度与编排数据开发与管理2015年热力全景图数据开发与管理数据集成数据存储批处理流处理数据查询与分析数据可视化数据调度与编排x2x2汇总计算每个技术类别的开源项目热力值,用区域面积表征技术类别热力值大小,得到了基于数据生命周期的热力全景图。我们抽取了2015年、2018年和2022年三个时间截面的热力全景图,如下所示:60%30%22%16%15%12%-3%-9%数据集成数据调度与编排数据存储数据开发与管理流处理数据查询与分析数据可视化批处理2022年热力值年同比增速开源大数据热力的“摩尔定律”开源大数据热力图谱一套复杂体系分化为六大热点技术经过10年发展,以Had
9、oop为核心的开源大数据体系,从2015年开始,转变为多元化技术并行发展,开发者的热情分别涌向搜索与分析、流处理、数据可视化、交互式分析、DataOps、数据湖六大技术热点领域,每个热点领域集中解决某个特定场景问题。其中,数据湖以34%的热力值年均复合增长率高居第一位,交互式分析、DataOps紧随其后,分列第二、三位。而原有Hadoop体系的产品迭代则趋于稳定,热力值年均复合增长率为1%。部分Hadoop生态项目(如HDFS)成为其他新兴技术的基础依赖,另一部分项目(如Sqoop)则逐渐退出舞台。热力跃迁更加频繁,彼此交替推动与大数据应用场景和规模变化趋势相呼应,热点领域的热力跃迁(热力值大
10、幅度跳变)遵循了从上层数据可视化应用普及,到数据处理技术升级,再到数据存储和管理的结构性演变,最终,数据基础设施能力的提升又反过来推动上层应用的技术革新。具体表现为,数据可视化在2016和2021年经历了两次热力跃迁,搜索与分析和流处理 在2019年热力跃迁,交互式分析和 DataOps从2018年和2021年经历了两次热力跃迁,数据湖在2020年热力跃迁。热点领域热力值年均复合增长率代表项目Hadoop体系1%Hadoop、Spark、Hive、HBase搜索与分析14%Elasticsearch、Lucene、Solr、Opensearch流处理19%Flink、Beam、Kafka、Pu
11、lsar数据可视化24%Superset、Kibana、Grafana、Metabase交互式分析25%ClickHouse、Presto、StarRocks、DorisDataOps27%Airbyte、Airflow、Dolphinscheduler、Atlas数据湖34%Iceberg、Hudi、Delta Lake、Alluxio020004000Hadoop体系搜索与分析流处理数据可视化交互式分析DataOps数据湖热点技术领域的热力值趋势2015年2016年2017年2018年2019年2020年2021年2022年热力值热力跃迁热点技术领域的热力跃迁历程2016上层应用的普及数据
12、可视化第一次热力跃迁2018需要更灵活的数据查询和数据调度技术交互式分析、DataOps第一次热力跃迁2019需要更快速的处理数据流处理、搜索与分析热力跃迁2020需要更低成本的管理、存储、分析数据数据湖热力跃迁2021底层技术演进,推动上层技术更新数据可视化、交互式分析、DataOps热力跃迁热力趋势一:用户需求多样化推动技术多元化从计算一体化到存储一体化在对热力变迁数据的观察中,我们发现,从2015年开始,计算部分率先进入一体化演进历程,其中的典型代表流批一体在2019年出现第一个热力峰值。以数据湖存储为代表的存储一体化从2019年起进入了一个新的发展阶段,并在2021年前后进入了开发迭代
13、的热力高速增长期,在此期间,涌现了Delta Lake、Iceberg和Hudi等热点项目。流批一体数据湖存储2019基于Apache Flink 流批一体技术架构在阿里巴巴双11项目大规模应用落地2017Apache Beam捐献给Apache基金会,统一批处理和流处理编程范式2015Apache Spark提出流批一体2022Apache FlinkTable Store 流式数仓发布2020Hudi、Iceberg从Apache孵化器毕业2022Delta Lake全部开源2019Delta Lake成为Linux基金会项目热力变迁背后是用户使用痛点的转移多元化技术的蓬勃发展,在一定程度
14、上增加了开源生态体系的复杂性,系统架构也存在性能瓶颈,且扩展能力有限。业界需要统一、融合的大数据系统,能够将多种计算模式有机地融合在一起,易于扩展,能够支持新的模式,降低开源软件的开发、运维复杂度。以流批一体为例,这种计算融合技术最早提出于 2015 年,它的初衷是让开发人员能够使用同一套接口实现大数据的流计算和批计算,进而保证处理过程与结果的一致性。使用统一的计算框架,用户可以不用区分实时和离线计算的场景,减少用户的学习成本,减少开发和维护两套框架的运维成本。流批一体技术演进过程中的几个关键时间节点,2015年Spark提出流批一体,到2019年基于Apache Flink在阿里巴巴双11项
15、目中大规模落地流批一体应用,再到2022年Flink Table Store 流式数仓发布,每一次重大技术更迭,都会牵引大量开发者关注和参与,促使流处理领域热力值显著提升。开发者在初尝了计算一体化带来的技术红利之后,开始在其他技术领域进行一体化的尝试。而另一方面,为多种不同的计算模型管理多套不同的存储已经成为了一个新的痛点。开发者深刻体会到传统数仓的难以逾越的缺陷,比如数据更新较为昂贵,缺乏跨数据源的高效联邦查询等。从2019年开始,数据湖存储解决方案 Delta Lake出现,以及后续的 Iceberg 和 Hudi等,都致力于解决存储一体化问题。一体化1.0一体化2.0热力趋势二:一体化演
16、进迈入2.0时代发轫于云端的技术重构过去几年,数据源和数据存储正逐步迁移到云端,更多元化的计算负载也运行到了云端,计算与存储分离已成为大数据平台的标准架构。越来越多的开发者在云端开发中,对开源大数据项目进行云原生改造适配。云原生作为技术创新的实验场,改变了大量开源大数据技术的走向。2015年后出现的新项目,无一例外地在云原生方向进行了积极的技术布局。Pulsar、DolphinScheduler、JuiceFS、Celeborn、Arctic等诞生于云原生时代的开源项目如雨后春笋般破土成长。这些新项目在2022年的热力值占比已经达到51%,其中,数据集成、数据存储、数据开发与管理等领域都发生了
17、非常大的项目更迭,新项目热力值占比已经超过了80%。从2020年开始,Spark、Kafka、Flink等主流项目陆续正式支持 Kubernetes。云原生推动的开源技术栈大重构正在进行时。2000212022云原生数据集成传统数据集成0%8%48%55%56%80%82%92%批处理数据可视化数据调度与编排流处理数据查询与分析数据开发与管理数据存储数据集成2015年后出现的新项目在2022年的热力值占比数据集成率先完成重构随着云端多样化数据收集需求的爆发,以及下游数据分析逻辑的变化,数据集成从“劳动密集型”ETL工具演进到灵活高效易用的“数据加工流
18、水线”。传统数据集成工具Flume、Camel处于平稳维护状态,Sqoop已于2021年从Apache软件基金会退役。与云原生结合更紧密的Airbyte、Flink CDC、SeaTunnel等项目飞速发展。在热力趋势中可以看到,云原生数据集成在2018年超越了传统数据集成,从2019年开始,这一演进历程加速,热力值逐年翻倍。不少新孵化的项目热力值年均复合增长率超过100%,增长势头强劲。项目名称热力值年均复合增长率热力图谱(20162022)项目生命周期Airbyte325%3年Flink-CDC159%3年SeaTunnel119%6年InLong111%3年ChunJun72%5年Dbt
19、-core56%7年Debezium52%7年DataX12%5年热力趋势三:云原生大规模重构开源技术栈排序项目名称技术领域2022年热力值热力图谱(20152022)1Kibana数据可视化989.40 2Grafana数据可视化793.55 3ClickHouse数据查询与分析707.42 4Airflow数据调度与编排653.00 5Spark批处理/流处理627.24 6Elasticsearch数据查询与分析624.52 7Flink流处理606.42 8Airbyte数据集成604.81 9Beam流处理517.67 10Superset数据可视化513.44 11Arrow数据开
20、发与管理491.36 12Trino数据查询与分析439.23 13Pulsar流处理360.69 14Kafka流处理353.56 15Doris数据查询与分析344.59 16Metabase数据可视化318.99 17StarRocks数据查询与分析315.08 18DolphinScheduler数据调度与编排309.15 19Iceberg数据存储297.29 20RocketMQ流处理246.88 21Hudi数据存储243.76 22Datahub数据开发与管理240.37 23Hadoop批处理205.62 24Debezium数据集成189.15 25Duckdb数据查询与分
21、析184.43 26SeaTunnel数据集成183.40 27Pinot数据查询与分析183.38 28Dagster数据调度与编排179.98 29Prefect数据调度与编排178.47 30OpenSearch数据查询与分析178.40 开源大数据项目热力TOP30解决用户痛点是核心竞争力每个项目都需要解决用户在某个细分场景的痛点,反过来,每个细分场景的用户问题都会有少数几个项目解决得最好。入围本次报告的102个项目,在细分领域分布上并不均衡。但TOP30项目的细分领域却均匀分布,每个领域35个项目。用户痛点并非一成不变,在前面章节,我们已经描述过技术趋势演变带来的项目热力变迁。我们观
22、察到了无数新老交替,也观察到了一批优秀开源项目的与时俱进,成为热力趋势中的“常青树”。如Spark在2014年以Spark SQL代替Shark,2016年发布Structured Streaming,推动着大数据技术向前发展。又如,Flink围绕实时处理的核心需求,陆续延展出数据集成(FlinkCDC)、数据分析(Flink SQL)、机器学习(Flink ML)、规则引擎(Flink CEP)、动态表存储(Flink Table Store)等多种场景能力。掌握开源社区运作的方法论对于新开源项目,进入基金会孵化器能够帮助项目快速成长,Airflow、Pulsar等项目进入孵化器后的热力趋势
23、验证了这一点。欧美开源运作发展较为成熟,除了加入基金会,也有不少独立存在的优秀开源项目,如Elasticsearch、ClickHouse等。这是开源发展到一定阶段的产物,背后有一批开源经验丰富的人才在不同项目间流动。无论是哪一种方式,这些TOP项目背后的开源社区运作模式都能够通过基金会、人才流动或者文化传播沉淀为方法论,传承到下一个有潜力的项目。持续关注开发者体验在社区起步阶段,找到种子用户非常关键,这一阶段项目需要快速迭代满足他们的需求。而在社区发展趋于成熟时,则更需要关注大众开发者的产品体验。无论处于什么阶段,都需要保持良好的开发者体验,如Issue、邮件咨询等社区互动行为,保证及时反馈
24、SLA。对于诞生于国内的开源项目,拥有良好体验的英文项目文档,是做好国际化的先决条件。接受本地开发者的文化和沟通习惯,用他们喜欢的方式发展社区。2年前1年前第1年第2年第3年第4年第5年第6年AirflowPulsarDorisHudiIcebergDolphinScheduler开源项目进入基金会孵化器前后的热力趋势商业化对于开源社区发展是双刃剑热力TOP30中有超过9成的项目背后存在商业化公司运作。开源与商业化可以并存,并且能够相互促进,这已经成为业界共识。但我们也在研究中发现,当前能够做到商业化与开源社区平衡发展的项目并不多。这里存在几种不同类型:第一类,在长期经营的开源生态上已经建立起
25、强大“护城河”,商业化相对克制和保持节奏。另一类,因为不得已的原因而更改开源策略,开源社区发展受到一定影响,以此换取商业回报。第三类,也是最多的一类,商业化已经启动,同时开源社区也处于快速发展阶段,商业化软件开发模式在一定程度上改变了“集市”类型的开源软件开发模式,开源的“速度”变得更快。我们认为,开源背后的商业化更多体现为良性的促进作用。在某个时间段出现商业化和开源之间的排异现象,市场和社区都会自动消化和调整,最终回归到稳定状态。TOP项目热力跃迁逻辑研究联合发起战略合作专家顾问(按照姓氏拼音为序)代立冬Apache Member、Apache DolphinScheduler PMC Ch
26、air金耀辉白玉兰开源开放研究院执行院长、上海交通大学教授李钰Apache Member、Apache Flink&Apache HBase PMC Member刘京娟开放原子开源基金会副秘书长王峰阿里巴巴开源委员会大数据AI领域主席、Apache Flink 中文社区发起人王青兰开放群岛开源社区委员会法律合规组组长王一鹏InfoQ 总编翟佳Apache Pulsar&Apache BookKeeper PMC Member郭炜Apache Member、Apache SeaTunnel(incubating)导师、ClickHouse中文社区发起人李潇Apache Spark PMC Mem
27、ber刘冬开源中国创始人,Gitee(码云)创始人&CTO秦江杰Apache Flink&Kafka PMC Member王晶昱阿里巴巴开源办公室秘书长王伟X-lab开放实验室负责人、华东师范大学研究员、博士生导师于邦旭CSDN高级副总裁周晓阿里云智能大数据AI运营总经理报告贡献者(按照姓氏拼音为序)蔡芳芳InfoQ 主编郭雪雯开放原子开源基金会专家李萌开源中国社区负责人林日华开源中国主编聂励峰Apache SeaTunnel PPMC、Apache DolphinScheduler Committer涂南阿里巴巴开源办公室运营专家王荷舒开放原子开源基金会专家郭晧开放原子开源基金会专家李博开放原子开源基金会专家李雪开放原子开源基金会专家刘晓清阿里云开发者社区专家是溪阿里云开源大数据运营专家王殿进StreamNative社区运营负责人赵生宇X-lab实验室核心成员、同济大学计算机在读博士报告合作与反馈致谢社区合作