《InfoQ研究中心:中国开源生态图谱2022-数据库领域(24页).pdf》由会员分享,可在线阅读,更多相关《InfoQ研究中心:中国开源生态图谱2022-数据库领域(24页).pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、目目录录生态图谱解读01生态图谱企业洞察02生态图谱解读开源数据库4图数据库时序数据库空间数据库&向量数据库开源产业联盟代码托管平台开发者社区开源基金会键值数据库关系型数据库关系型数据库5定义&分类:中国数据库在2000年开始发展,虽然起步时间相较国外偏晚,但近几年增长态势旺盛,同时开源比例逐年上升。我国开源数据库产品主要集中在关系型阶段和后关系型阶段,并且以关系型数据库为主,占比约60%左右。数据统计结果显示,2021上半年中国关系型数据库软件市场规模为11.9亿美元,整体市场同比增长37.2%。发展特征:关系型开源数据库分为OLAP(分析型数据库)、OLTP(交易型数据库)和HTAP(混合
2、型关系数据库)三种。OLAP和OLTP数据库出现较早,HTAP数据库是混合OLTP和OLAP的应用体系结构,具有强一致性保证,并且融合了分布式能力,具备高扩展性。它在历史数据的集成和商业分析的实时性方面有很大的优势。HTAP也被认为是目前数据库发展的主流方向。在关系型开源数据库中,实现HTAP的开源数据库数量相对较少,大约占比20%。主要数据库产品包括PingCAP孵化的TiDB,百度孵化的BaikalDB、蚂蚁集团孵化的OceanBase、石原子孵化的StoneDB等。关系型数据库关系型数据库6应用场景:关系型开源数据库是占比最多的,并且应用场景非常广泛。价值追求:行业飞速发展下,企业在开源
3、数据库项目上,主要看中高扩展,高可用,强一致,高兼容,高性价比,容灾架构等技术特征。1电商新零售的HTAP解决方案2金融支付的索引方案3游戏行业的在线支持方案4线上教育的扩容方案5物联网提升运营效率和服务水平6软件服务的稳定性提升等领域关系型数据库非关系型数据库7图数据库时序数据库空间数据库&向量数据库键值数据库定义&分类:非关系型开源数据库主要分为图数据库、时序数据库、空间数据库、向量数据库、键值数据库。发展特征:如图数据库可以存储数据间的关系,形成由点到线的数据类型变化;空间数据库可以存储矢量数据,能够更好的支撑AI等研发场景的需求。01起步晚我国非关系数据库发展的历程更短但也更新颖,发展
4、的成熟度和应用范围远低于关系型数据库。02上云率非关系型数据库的上云率更高,甚至很多数据库是云原生数据库。03能力强更高的读写能力,更多样的格式,同时也更容易拓展,也就更适合处理一些非结构化数据、数据预测度较低的场景。非关系型数据库8应用场景:图数据库应用领域集中在平台、机器人等智能问答,知识领域的检索升级等情景。时序数据库经常应用于DevOps(包括服务和服务器)监控、物联网设备的监控与实时分析等场景。空间数据库为后起之秀,发展较晚应用前景较广,可以应用于元宇宙、自然资源、国土空间信息、智慧城市、生态气象等场景。键值数据库应用于电商的数据读取、视频直播类业务和游戏支持等数据量大、冷热分明的场
5、景。厂商分布:培育开源非关系型数据库的企业主要分为两类:自身业务有大规模非关系型数据存储和处理需求的头部互联网企业,如阿里、京东、腾讯、饿了么等。创新型软件服务创业型企业,如PingCAP、涛思数据等数据库厂商。图数据库时序数据库空间数据库&向量数据库键值数据库生态图谱企业洞察Gitee平台托管的开源项目10Gitee指数TOP 4Gitee指数68Gitee指数16Gitee指数9Gitee指数5说明1:本数据来自于Gitee官网(2022年10月);其他项目数据尚未更新。InfoQ开源项目指数数据说明11一级指标二级指标权重代码健康(40%)代码复制(Fork)10%已修复代码不足(Clo
6、sed Issue)10%项目更新申请(Pull Request)5%已完成项目更新申请(Closed Pull Request)15%社区活跃(60%)协作影响力10%项目荣誉星(Star)10%社区贡献量20%社区贡献者20%对于开源项目的评价,代码和社区是两项最直接评价指标。代码的健康度体现为社区成员不断地修复和更新代码,形成研发价值的指数级增长;代码健康指标中选取的数据维度来自开源项目在GitHub中的公开数据。社区活跃是保证开源价值最大化的根本,被开源世界公认的社区价值是评价开源项目最主要的要素,本次研究将其权重赋值超过代码健康;InfoQ研究中心认为,社区活跃价值整体评估高于代码健
7、康价值。社区活跃中主要数据也来自于GitHub的公开数据;其中协作影响力数据来自于X-lab研发的openleaderboard中的协作影响力数据。所有数据的采集时间均为2022年10月,在未来,随着时间的推移,数据也会呈现变化。“InfoQ开源项目指数说明GitHub平台托管的开源项目InfoQ开源项目指数TOP 10InfoQ指数51.50 InfoQ指数39.38InfoQ指数35.16InfoQ指数23.03 InfoQ指数21.96 InfoQ指数21.17 InfoQ指数21.00 InfoQ指数20.93 InfoQ指数20.86 InfoQ指数18.31 12 数据来源:Git
8、hub与openleaderboard各项目10月数据。openGauss:成熟项目治理下,生态驱动的开源数据库根社区社区治理与生态发展活跃社区2020.06代码正式开源1.0版本发布2020.07技术委员会成立2020.121.1版本发布2021.032.0版本发布2021.09社区理事会成立2022.033.0版本发布2022.06品牌委员会成立用户委员会成立2022.093.1版本发布成熟的项目组织架构是生态繁荣的保障理事会秘书处品牌委员会技术委员会用户委员会SIGSIGSIG由全产业链20家单位组成数据库厂商、企业用户、高校、科研院所10+商业发行版200+企业加入社区10+关键基础设
9、施行业108万+社区版下载量5.4万+社区用户14个用户组24个SIG组4200+社区贡献者2.8万套+累积商用166所高校第一阵营国内数据库流行度openGauss开源社区立足伙伴、高校、开发者生态发展技术&商业峰会线下Meetup暑期202x开源实习高校课程&活动伙伴生态高校生态开发者生态SIG用户组ISV生态商业发行版技术培训营销活动鲲鹏&欧拉生态openGauss伙伴生态聚集商业发行版厂商、ISV,华为为伙伴生态提供技术培训和各类营销活动,借助华为自身生态以及openGauss企业级数据库的创新能力完善生态发展。openGauss借助伙伴、高校以及开发者生态,提升开源社区活跃度,提高技
10、术碰撞与创新力。智能基座 育人基地openGauss:聚焦内核关键竞争力构筑和四大架构创新,赋能行业核心应用高智能AI4DB:智能索引推荐、慢SQL诊断,效率提升10倍DB4AI:20+原生AI库内算子,覆盖主流场景,会SQL就能用AI高安全全密态机制|数据防篡改自主访问控制|强制访问控制动态脱敏|数据加密|安全审计高性能双路鲲鹏性能 150万 tpmC四路鲲鹏性能 230万 tpmC开源分布式方案16节点1000万tpmC高可用RPO=0,RTO10sPaxos自治共识高可用架构CM故障自动切换,全域高可用内核关键竞争力构筑2020.06代码正式开源1.0版本发布2020.07技术委员会成立
11、2020.121.1版本发布2021.032.0版本发布2021.09社区理事会成立2022.033.0版本发布2022.06品牌委员会成立用户委员会成立2022.093.1版本发布插件化架构uMySQL生态兼容插件u全量迁移实现单节点1h在线迁移1TB数据u增量迁移实现每秒钟30000TPS的多线程日志回放可观测内核架构u可观测u可跟踪:基于eBPF全流程跟踪u可诊断:基于AI算法的故障诊断资源池化架构u计算池化:OLTP组件和OLAP组件形成的HTAP架构u内存池化:多节点下的多版本一致性读(MVCC)能力u存储池化:多节点共用数据数据安全架构u基于同态加密的全密态数据库u基于Tee的密态
12、计算u0切换内存交换协议数据实时交易分析混合处理可扩展性提升多模多态需求满足四大架构创新TiDB:多样社区运营下的开源分布式数据库社区社区数据3.2万个+Star1900个+贡献者1.8万+主题9.6万+PR17.1万+讨论帖16万+地区用户组内容运营活动运营用户运营DevCon年度技术峰会线上/线下 Infra Meetup能量钛:行业话题闭源活动TUG企业行Hackathon比赛与Hacking CampTiDB产品文档:包括项目概况、整体架构、发行说明、快速上手等相关说明文件,内容由工程师和文档团队、产品经理共同完成视频类内容:PingCAP University,教育潜在用户,同时推出
13、认证活动论坛Ask TUG:问题解决&技术讨论平台培训体系社区治理社区技术委员会(TOC)社区用户委员会(TUG-MC)SIGTalent Plan地区用户组MOAMVA贡献者Maintainer2015.9TiDB开源2016.12TiDB RC1发布2017.10TiDB 1.0 GA发布2018.4TiDB 2.0 GA发布2019.6TiDB 3.0 GA发布TiDB User Group 正式成立2020.5TiDB 4.0 GA发布2021.4TiDB 5.0 GA发布2022.4TiDB 6.0发布多元化的社区运营方式TiDB:立足金融级数据库特性,聚焦金融行业关键业务场景水平弹
14、性扩展得益于TiDB存储计算分离的架构的设计,可按需对计算、存储分别进行在线扩容或者缩容,扩容或者缩容过程中对应用运维人员透明,应对高并发、海量数据场景。金融级高可用数据采用多副本存储,数据副本通过Multi-Raft协议同步事务日志,多数派写入成功事务才能提交,确保数据强一致性且少数副本发生故障时不影响数据可用性。可按需配置副本地理位置、副本数量等策略满足不同容灾级别要求。实时HTAP提供行存储引擎TiKV、列存储引擎TiFlash两款存储引擎,TiFlash通过Multi-Raft Learner协议实时从TiKV复制数据,确保TiKV和TiFlash之间的数据强一致。两类引擎可按需部署在
15、不同的机器,解决HTAP资源隔离的问题。云原生的分布式数据库TiDB是为云而设计的数据库,同 K8s深度耦合,支持公有云、私有云和混合云,使部署、配置和维护变得十分简单。高度兼容MySQL兼容MySQL 5.7协议、MySQL常用的功能、MySQL生态,应用无需或者修改少量代码即可从MySQL迁移到TiDB。丰富工具链生态具有丰富的工具链生态,覆盖数据迁移、同步、备份等多种场景应用行业应用场景银行保险证券第三方支付金融科技银行核心系统支付实时风控在线理财灾备2015.9TiDB开源2016.12TiDB RC1发布2017.10TiDB 1.0 GA发布2018.4TiDB 2.0 GA发布2
16、019.6TiDB 3.0 GA发布TiDB User Group 正式成立2020.5TiDB 4.0 GA发布2021.4TiDB 5.0 GA发布2022.4TiDB 6.0发布TDengine:日益完善运营机制的开源时序数据库社区2万个+Star140个+贡献者4600+Fork1.5万+PR17.7万+全球安装实例16万+地区用户组Contributor俱乐部TDHero代码杰出贡献者社区意见领袖开源社区布道师新手贡献者挑战赛优胜者周边工具贡献者社区活动内容运营技术文档技术博客视频教程TDengine 开发者大会线上分享活动技术讨论群用户运营社区数据2019.7内核和社区版TDeng
17、ine开源2020.8V2.0发布2021.12V2.4发布2022.8V3.0发布首届TDengine开发者大会举办2022.5V2.6发布日益完善的社区运营TDengine:多样技术特性支撑下,专为物联网、车联网、工业互联网等场景应用时序数据库高性能TDengine Database团队通过设计新颖的存储引擎,支持上亿数据采集点,使得TDengine数据的写入和查询速度获得大幅提升的同时,提高了数据压缩率,降低了存储所占空间。云原生通过分布式设计、分区分片、存储和计算分离,RAFT一致性协议等手段,TDengine具备水平扩展性、弹性与韧性。通过支持容器、K8s部署、全面的指标监测和自动化
18、脚本,TDengine可以方便地运行在私有云、公有云或混合云上,从而充分利用云平台的优势。简单易用对系统管理员来说,TDengine 大幅降低了管理和维护的代价。对开发者来说,TDengine 提供了简单的接口、极简的解决方案和与第三方工具的无缝集成。对数据分析专家来说,TDengine 提供了便捷的数据访问能力。支持SQLTDengine采用SQL作为数据查询语言,减少学习和迁移成本,同时提供SQL扩展来处理时序数据特有的分析,而且支持方便灵活的schemaless数据写入。强大的数据分析能力通过超级表、存储计算分离、分区分片、预计算和其它技术,TDengine能够高效地浏览、格式化和访问数
19、据。数据可在时间轴上或多个设备上进行聚合。即席查询可通过Shell、Python、R、MATLAB随时进行。极简时序数据平台TDengine 内建缓存、流式计算和数据订阅等功能,为时序数据的处理提供了极简的解决方案,从而大幅降低了业务系统的设计复杂度和运维成本。2019.7内核和社区版TDengine开源2020.8V2.0发布2021.12V2.4发布2022.8V3.0发布首届TDengine开发者大会举办2022.5V2.6发布应用场景物联网:智慧城市、智慧农业、智慧交通车联网:自动驾驶、车队管理、智慧物流金融:行情数据能源:能源管理工业互联网:智能制造、数字孪生、生产数字化开源数据库产
20、品发起公司列表19序号企业名称注册地1平凯星辰(北京)科技有限公司北京2蚂蚁科技集团股份有限公司杭州3华为技术有限公司深圳4阿里巴巴集团控股有限公司杭州5广州巨杉数据库软件有限公司广州6北京涛思数据科技有限公司北京7北京偶数科技有限公司北京8北京鼎石纵横科技有限公司北京9上海爱可生技术股份有限公司上海10北京百度网讯科技有限公司北京11北京万里开源软件有限公司北京12北京超图软件股份有限公司北京13第四范式(北京)技术有限公司北京14北京青云科技股份有限公司北京15北京诺司时空科技有限公司北京16抖音有限公司北京17杭州石原子科技有限公司杭州18小米科技有限责任公司北京开源数据库产品发起公司列
21、表20序号企业名称注册地1上海赜睿信息科技有限公司上海2北京拓扑岭科技有限公司北京3腾讯云计算(北京)有限责任公司北京4浪潮集团有限公司济南5矩阵起源(深圳)信息科技有限公司深圳6深圳市腾讯计算机系统有限公司深圳7深圳市奥思网络科技有限公司深圳8北京九章云极科技有限公司北京9悦数科技有限公司贵阳10上海易趣网络技术服务有限公司上海11瀚高基础软件股份有限公司济南12北京致大尽微科技有限公司北京13长沙巨松软件科技有限公司长沙14北京奇虎360科技有限公司北京15上海拉扎斯信息科技有限公司上海16广州海量数据库技术有限公司广州17北京极数云舟科技有限公司北京中国开源生态系列图谱还包括21 中国开
22、源生态系列图谱2023之云原生领域 中国开源生态系列图谱2023之大数据领域 中国开源生态系列图谱2023之架构领域 中国开源生态系列图谱2023之前端领域 中国开源生态系列图谱2023之中间件敬请期待!22InfoQ 研究中心隶属于极客邦科技双数研究院,秉承客观、深度的内容原则,追求研究扎实、观点鲜明、生态互动的目标,聚焦创新技术与科技行业,围绕数字经济观察、数字人才发展进行研究。InfoQ 研究中心主要聚焦在前沿科技领域、数字化产业应用和数字人才三方面,旨在加速创新技术的孵化、落地与传播,服务相关产业与更广阔的市场、投资机构,C-level 人士、架构师/高阶工程师等行业观察者,为全行业架
23、设沟通与理解的桥梁,跨越从认知到决策的信息鸿沟。内容咨询:商务合作:极客邦科技,以“推动数字人才全面发展”为己任,致力于为技术从业者提供全面的、高质量的资讯、课程、会议、培训等服务。极客邦科技的核心是独特的专家网络和优质内容生产体系,为企业、个人提供其成功所必需的技能和思想。极客邦科技自 2007 年开展业务至今,已建设线上全球软件开发知识与创新社区 InfoQ,发起并成立技术领导者社区 TGO 鲲鹏会,连续多年举办业界知名技术峰会(如 QCon、ArchSummit 等),自主研发数字人才在线学习产品极客时间 App,以及企业级一站式数字技术学习 SaaS 平台,在技术人群、科技驱动型企业、数字化产业当中具有广泛的影响力。2022年成立双数研究院,专注于数字经济观察与数字人才发展研究,原创发布了数字人才粮仓模型,以此核心整合极客邦科技专业的优质资源,通过 KaaS模式助力数字人才系统化学习进阶,以及企业数字人才体系搭建。公司业务遍布中国大陆主要城市、港澳台地区,以及美国硅谷等。十余年间已经为全球千万技术人,数万家企业提供服务。洞察技术创新趋势,推动数字化商业升级内容咨询:商务合作:InfoQ 公众号InfoQ 视频号