《计算机行业对于AI产业趋势的思考:生成式AI驱动向量数据库加速发展-231213(72页).pdf》由会员分享,可在线阅读,更多相关《计算机行业对于AI产业趋势的思考:生成式AI驱动向量数据库加速发展-231213(72页).pdf(72页珍藏版)》请在三个皮匠报告上搜索。
1、 弘则弥道(上海)投资咨询有限公司科技科技 智造 消费 医药20232023年年1212月月弘则计算机弘则计算机生成式生成式AIAI驱动向量数据库驱动向量数据库加速发展加速发展对于AI产业趋势的思考弘则研究科技组弘则研究科技组电话:电话:021--6194-6708心在远方,路在脚下核心观点提示核心观点提示 toBtoB生成式生成式AIAI应用均需外挂知识库以提升大模型精度,将驱动向量数据库的爆发应用均需外挂知识库以提升大模型精度,将驱动向量数据库的爆发。向量数据库是非结构化数据的特殊形式,它的核心是将各种数据(如文档、音频和视频)转化为空间向量进行相似性搜索以提高不同
2、数据类型的搜索效率和准确性,这使其在AI和深度学习领域中有着广泛的应用。生成式AI出现后,尤其是在toB场景中需要应用到向量数据库在大模型上外挂“企业知识库”,企业内部数据将被存储在向量数据库中,以提升大模型精度。向量数据库潜在市场空间是传统结构化关系型数据库的数倍达到千亿美元。向量数据库潜在市场空间是传统结构化关系型数据库的数倍达到千亿美元。据信通院统计数据,全球数据库市场规模在2020年为671亿美元,到2025年有望达到798亿美元,CAGR 3.5%,估算关系型数据库全球龙头Oracle收入规模小几百亿美元。仅考虑现有非结构化数据的向量化处理,估算需要的存储空间增量为之前的数倍。未来随
3、着生成式AI应用增量数据的爆发,对于向量数据库的需求会更大。产业处在发展早期,尚未形成寡头垄断,厂商具备错位竞争优势。产业处在发展早期,尚未形成寡头垄断,厂商具备错位竞争优势。全球市场不同背景厂商以不同商业模式切入向量数据库赛道。美股上市公司中,MongoDB于今年12月在自身非结构化数据库业务基础上推出向量数据库产品Atlas Vector Search,Elastic于今年5月在自身搜索工具业务基础上推出向量搜索解决方案Elasticsearch Relevance Engine。最新业绩说明会中,两家公司均对向量数据库业务前景非常乐观。A股上市公司中,星环科技于今年5月推出向量数据库Hi
4、ppo,目前已迭代到1.2版本,已有客户开始试用。1oXjXbWuYnYrUdYsUpZlW9P8QaQmOqQsQnOfQqRoMjMpOrN9PmMxOvPoNqOMYmRpR心在远方,路在脚下向量数据库作为向量数据库作为B B端端Gen AIGen AI落地刚需,已经进入到商业化推广和落地刚需,已经进入到商业化推广和落地阶段落地阶段2向量数据库上市公司向量数据库上市公司来源:互联网公开资料、弘则研究整理公司公司产品更新和商业化更新产品更新和商业化更新MongoDBMongoDB23年12月正式发布Atlas Vector Search功能,以向量数据库切入生成式AI产业;FY24Q2业绩
5、会:“向量数据库处于预览阶段,但已经看到大型客户的极大兴趣向量数据库处于预览阶段,但已经看到大型客户的极大兴趣,包括某咨询公司允许顾问在超过150万份专家纪要中进行语义检索。”FY24Q3业绩会:“人工智能几乎存在于与各种规模的客户的每一次对话中。客户对矢量搜索公共预人工智能几乎存在于与各种规模的客户的每一次对话中。客户对矢量搜索公共预览版非常感兴趣览版非常感兴趣。客户正在构建一系列人工智能用例,从语义搜索到检索增强生成。客户正在构建一系列人工智能用例,从语义搜索到检索增强生成。例如,UKG为全球超过 80,000多家客户提供服务,选择使用MongoDB Atlas Vector Search
6、作为人工智能助手,帮助指导客户的员工、职能经理和人力资源主管。”ElasticsearchElasticsearchElastic官方从2018年开始支持向量检索功能,23年5月推出ESRE(Elasticsearch Relevance Engine),目前作为8.8版本的一部分,所有功能会随白金级套餐和企业级套餐一起提供;FY24Q1业绩会:“我们看到围绕生成式AI的大量活动,许多客户选择ESRE作为使用我们的向量搜索和混合搜索功能构建生成式AI应用程序的平台。目前有数百名付费客户使用目前有数百名付费客户使用 ESRE ESRE 进行向量搜索。进行向量搜索。”FY24Q2业绩会:“Elas
7、tic Cloud同比增长31%,这一增长得益于云消费的改善和在生成式这一增长得益于云消费的改善和在生成式AIAI领域的成领域的成功。功。客户越来越多地将多种用例整合到Elastic平台上,取代了原有搜索解决方案。”星环科技星环科技23年5月正式发布行业大模型、向量数据库和大模型开发工具,向量数据库Hippo已迭代到1.2版本。11月,英特尔与星环科技联合发布AIGC向量数据库解决方案。目前已有金融客户采购大模型开发工具,目前已有金融客户采购大模型开发工具,银行和券商等客户正在银行和券商等客户正在POCPOC行业大模型和向量数据库行业大模型和向量数据库市值市值(亿美元,亿元)(亿美元,亿元)过
8、去财年(过去财年(FY23FY23,20222022)当前财年(当前财年(FY24FY24,20232023)下一财年(下一财年(FY25FY25,20242024)收入收入3 3年年CAGRCAGR毛利率毛利率PSPS收入预期收入预期PSPS收入预期收入预期PSPSMongoDBMongoDB26926912.845%73%2126%17-ElasticsearchElasticsearch757510.736%72%717%6-星环科技星环科技88883.729%57%2442%1742%12美股财报指引美股财报指引+wind+wind一致预期下估值水平变化(市值参考日期:一致预期下估值水
9、平变化(市值参考日期:2323年年1111月月1313日)日)弘则弥道(上海)投资咨询有限公司01数据库发展复盘数据库发展复盘心在远方,路在脚下70-8070-80年代:数据库市场开始起步,年代:数据库市场开始起步,OracleOracle、IBMIBM、MicrosoftMicrosoft三巨三巨头并起,切分不同客户群体头并起,切分不同客户群体470-8070-80年代数据库的需求点年代数据库的需求点来源:互联网公开资料、弘则研究整理三巨头错位竞争三巨头错位竞争集中化的数据存储:集中化的数据存储:为了更有效地管理和利用这些数据,企业需要一个集中的地方来存储它们。这导致了关系数据库管理系统的出
10、现,提供了结构化的方式来存储、查询和更新数据数据的可靠性和完整性:数据的可靠性和完整性:企业的数据是其最宝贵的资产之一,因此数据的可靠性和完整性至关重要。这需要数据库管理系统提供事务管理、备份和恢复等功能。高效的数据访问:高效的数据访问:随着数据量的增长,企业需要能够快速访问和查询数据。这要求数据库管理系统提供高效的查询优化和数据访问机制。OracleOracleIBMIBMMicrosoftMicrosoft产品产品功能功能第一个商业关系数据库管理系统。采用关系数据库模型,支持SQL查询,并提供强大的事务管理功能DB2是为大型机设计的关系数据库管理系统,提供了高效的数据访问和强大的事务管理功
11、能SQL Server是一个关系数据库管理系统,支持SQL查询,并提供了一系列的数据管理和分析工具商业商业策略策略是为大型企业提供高性能、可扩展的数据库解决方案。它的客户群主要是大型企业和政府机构利用其在大型机市场的领导地位,为其客户提供一站式的IT解决方案,包括硬件、软件和服务通过与Windows操作系统的紧密集成,为中小企业提供数据库解决方案,SQL Server迅速获得市场份额竞争竞争壁垒壁垒技术领先技术领先大型机市场的领导地位大型机市场的领导地位WindowsWindows操作系统绑定操作系统绑定心在远方,路在脚下70-8070-80年代:年代:OracleOracle最初凭借技术和战
12、略决策领先最初凭借技术和战略决策领先IBMIBM推出产品抢推出产品抢占市场,占市场,微软起步较晚且主要客群集中在中小企业微软起步较晚且主要客群集中在中小企业5OracleOracle与与IBMIBM的发展背景的发展背景来源:互联网公开资料、弘则研究整理Oracle V2Oracle V2与与IBM System RIBM System R的对比的对比19741974年年IBM开始构建System R,历史上第一个使用SQL查询语言的数据库,但仅作为内部研究项目,当时IBM的战略重心仍在硬件业务19771977年年受到System R启发,Software Development Laborat
13、ories公司(Oracle前身)成立,最初想围绕IBM产品做协同工作19791979年年IBM不感兴趣合作后,Oracle开始自主开发产品,并推出Oracle V2,后续拿到CIA价值5万美元的合同OracleOracleIBMIBM产品逻辑产品逻辑SQL查询语言SQL查询语言战略地位战略地位初创公司进攻市场的拳头产品内部研究,验证关系数据库的理论和概念商业模式商业模式开创了软件开创了软件licenselicense的商业模式的商业模式硬件硬件+嵌入软件,认为价值量应该通过硬件体现嵌入软件,认为价值量应该通过硬件体现Oracle V2Oracle V2System RSystem R查询查询
14、场景场景主要关注数据存储和基本的SQL查询功能,索引结构和查询优化策略在当时是比较先进的引入了许多现代关系型数据库的核心概念,如 R树索引、查询优化等性能性能优化优化主要关注于基本的查询功能,性能优化功能相对较少引入了查询重写技术,可以自动将复杂的查询转化为更简单、更高效的形式特性特性功能功能提供了基本的SQL查询功能,没有太多的高级特性引入了许多现代关系型数据库的核心概念和特性,如事务管理、并发控制等 System R在理论和研究上引入了许多先进的概念,但实际应用中需要付出维护复杂、资源消耗、兼容性等代价 Oracle V2推出时的商业化目的极其明确,使其具备兼容性、易用性的优势,在实际应用
15、中更加稳定高效,早期进入市场后获得了先发优势,占领客户后迭代加速心在远方,路在脚下技术发展趋势技术发展趋势影响影响数据库需求数据库需求计算机和计算机和网络技术的普及网络技术的普及随着个人计算机和企业计算机的普及,数据量开始迅速增长。企业开始积累大量的业务数据,如销售数据、库存数据等企业需要更大、更高性能的数据库系统来存储和管理这些数据。数据的备份和恢复、数据的安全性和完整性也成为了关键需求分布式计算和分布式计算和网络技术的发展网络技术的发展随着局域网和广域网技术的发展,企业的数据开始分布在多个地点。企业的业务也开始跨越多个地理位置企业需要分布式数据库技术来管理这些分布在不同地点的数据。数据的同
16、步、数据的远程访问和数据的分布式查询成为了关键需求数据分析和数据分析和商业智能的兴起商业智能的兴起企业开始重视数据分析和商业智能。数据不再仅仅是用来记录业务,而是用来支持决策和提供洞察企业需要数据仓库技术来存储和管理用于分析的数据。数据挖掘、报表生成和数据可视化成为了关键需求软件和软件和应用的发展应用的发展随着软件和应用的发展,企业的业务流程变得更加复杂。企业开始使用ERP、CRM等复杂的业务应用这些应用需要高性能、高可靠性的数据库系统作为后端。数据库的事务处理、并发控制和数据完整性成为了关键需求开放系统和开放系统和标准化的趋势标准化的趋势企业开始追求开放系统和标准化的解决方案。这使得企业可以
17、选择最佳的技术和产品,而不是被锁定在某个厂商的技术生态中SQL成为了标准的查询语言,被广泛应用于各种数据库系统。企业需要支持SQL的数据库系统,以确保与各种应用和工具的兼容性80-9080-90年代:计算机技术和互联网的大规模应用驱动关系型数据年代:计算机技术和互联网的大规模应用驱动关系型数据库继续向高性能、高可靠性方向发展库继续向高性能、高可靠性方向发展680-9080-90年代技术趋势年代技术趋势来源:互联网公开资料、弘则研究整理 个人计算机数据库的兴起:个人计算机数据库的兴起:在IBM PC之前,数据库主要运行在大型机和小型机上。但随着IBM PC的普及,开始出现为个人计算机设计的数据库
18、系统,如dBASE、FoxPro和Paradox。这些数据库系统为个人和小型企业提供数据管理能力 客户端客户端-服务器架构的普及:服务器架构的普及:在这种架构中,客户端(通常是个人计算机)负责用户界面和应用逻辑,而服务器(可能是另一台更强大的计算机)负责数据管理。这种分离使得数据可以集中管理,而应用可以在多个客户端上运行 数据库工具和应用的发展:数据库工具和应用的发展:随着IBM PC的普及,开始出现了大量的数据库工具和应用,如查询工具、报表生成器和数据库开发工具。这些工具使得数据库开发和管理变得更加简单和高效 数据库的标准化:数据库的标准化:IBM PC的普及促进了数据库技术的标准化。SQL
19、成为了标准的查询语言,被广泛应用于各种数据库系统。这使得开发者可以使用统一的语言和工具开发和管理数据库,而不用担心不同数据库系统之间的兼容性问题 数据库市场的竞争加剧:数据库市场的竞争加剧:IBM PC的成功吸引了大量的硬件和软件制造商进入数据库市场。这导致了数据库市场的竞争加剧,促进了技术的发展和价格的下降心在远方,路在脚下80-9080-90年代:有力竞争者增加,但最终输在商业策略退出市场年代:有力竞争者增加,但最终输在商业策略退出市场780-9080-90年代新进入者及退出原因年代新进入者及退出原因来源:互联网公开资料、弘则研究整理厂商厂商产品变化产品变化商业策略商业策略OracleOr
20、acle 成为RDBMS市场的领导者,转型为应用提供商 将业务扩展到中小企业市场,在中端市场寻找增长机会IBMIBM 主要数据库为DB2 产品不仅限于高端市场 支持所有主要的操作平台 在NT-based RDBMS市场与Microsoft竞争MicrosoftMicrosoft SQL Server产品特点是易于管理、实施和成本效益 在中小企业市场与Oracle和IBM竞争,依赖操作系统厂商厂商优势优势退出市场原因退出市场原因结果结果SybaseSybase 客户端/服务器架构 金融行业优化 产品稳定性问题 与Microsoft合作关系破裂 被SAP于2013年收购InformixInform
21、ix 高性能和可靠性 对象关系特性 失败的收购 主要产品稳定性和性能问题 2001年被IBM收购,其技术被整合到DB2IngresIngres 开放源代码 跨平台支持 市场营销和销售策略问题 作为开源项目重新出现,现在由Actian公司维护ParadoxParadox 桌面数据库 集成开发环境 面临Microsoft Access等桌面数据库产品的竞争 被Borland收购,市场地位逐渐下降dBASEdBASE 桌面数据库 集成开发环境 面临Microsoft Access等桌面数据库产品的竞争 Ashton-Tate在1991年被Borland收购FoxProFoxPro 数据访问速度 集成
22、开发工具 面临Microsoft Access等桌面数据库产品的竞争 1992年被微软收购,整合到Microsoft的产品线中,但在2000年代初停止开发0.01 0.55 1.31 2.82 11.79 0 5 10 15 719891992Oracle Revenue心在远方,路在脚下进入到进入到2121世纪之后,分布式、非结构化、开源、转云成为重要趋世纪之后,分布式、非结构化、开源、转云成为重要趋势势8产业发展趋势产业发展趋势来源:互联网公开资料、弘则研究整理趋势趋势原因原因分布式和分布式和非结构化非结构化数据多样性:数据多样性:现代应用产生的数据类型和结构日益多样
23、化,如社交媒体、日志、图片等技术进步:技术进步:存储和处理非结构化数据的技术(如Hadoop、NoSQL数据库)得到了广泛的研究和应用业务需求:业务需求:企业需要对非结构化数据进行深入分析,以获得更多的业务洞察和价值开源开源成本压力:成本压力:企业寻求降低IT成本,而开源软件通常没有许可费用技术创新:技术创新:开源社区鼓励技术创新和共享,加速了技术的发展和迭代透明性和信任:透明性和信任:开源代码的透明性使企业能够更好地理解和信任所使用的技术云数据库云数据库运维简化:运维简化:云服务提供了数据库的自动管理、备份和恢复,降低了运维复杂性全球化需求:全球化需求:随着业务的全球化,企业需要在多个地理位
24、置提供服务,云数据库满足了这一需求资本投资减少:资本投资减少:使用云服务,企业可以按需付费,避免了大量的前期硬件投资 市场更为分散:市场更为分散:关系型数据库时代,三巨头依靠技术或商业策略维持自身极高的护城河。分布式、非结构化、开源和云数据库趋势出现后,在新兴领域出现大量新进入者,比如MongoDB、Redis、Elastic、Pinecone、Milvus等 商业模式出现转型:商业模式出现转型:关系型数据库时代的商业模式多为license收费,随着客户采购更多服务器节点而增长,比如Oracle是按照服务器内存核数收取license费用。开源数据库厂商背后多有开源基金会等产业资金进行支持,因此
25、license免费,主要收取后续技术支持等服务费用。上云趋势出现后,有些数据库厂商商业模式转变为云托管模式,购买数据库厂商的服务包括数据库产品和云上的存储/计算资源,数据库厂商再与云厂商进行成本结算心在远方,路在脚下传统的结构化关系型数据库最重要的传统的结构化关系型数据库最重要的ACIDACID特性使其在特定应用特性使其在特定应用场景中非常重要场景中非常重要9ACIDACID事务特性事务特性来源:互联网公开资料、弘则研究整理原 子 性原 子 性 这意味着事务被视为一个单一的、不可分割的单位,它要么完全执行,要么完全不执行。如果事务的一部分失败,整个事务都会失败,并且数据库状态不会改变 例如,如
26、果在银行转账过程中,从一个账户扣款成功,但向另一个账户存款失败,整个事务都会被回滚,确保资金的完整性A t o m i c i t yA t o m i c i t yD u r a b i l i t yD u r a b i l i t y一 致 性一 致 性C o n s i s t e n c yC o n s i s t e n c y隔 离 性隔 离 性I s o l a t i o nI s o l a t i o n持 久 性持 久 性 一旦事务被确认,它的效果是永久的,即使在系统故障、崩溃或重启后也不会丢失 这通常通过将事务日志持久化到存储介质上来实现 这确保并发事务的执行不
27、会互相干扰。每个事务应该在一个隔离的环境中运行,好像没有其他事务并发执行一样 这可以通过多种隔离级别来实现,例如读未提交、读已提交、可重复读和串行化 事务确保数据库从一个一致的状态转移到另一个一致的状态。在事务开始之前和结束之后,所有的业务规则都必须保持为真 例如,银行转账应确保转账前后的总金额保持不变ACID特性在许多应用场景中非常重要,尤其是在需要确保数据完整性和一致性的金融、医疗和零售等行业心在远方,路在脚下随着大数据、云计算等技术成熟,随着大数据、云计算等技术成熟,关系型数据库最重要的关系型数据库最重要的ACIDACID特性开始制约其发展特性开始制约其发展10新产业趋势新产业趋势来源:
28、互联网公开资料、弘则研究整理趋势趋势/需求需求描述描述数据量的数据量的爆炸性增长爆炸性增长互联网、社交媒体、物联网和移动设备导致数据生成的速度和规模迅速增长。传统的RDBMS在处理PB级别的数据时可能会遇到性能瓶颈高并发和高并发和低延迟需求低延迟需求互联网应用和服务需要能够支持数百万甚至数十亿的用户并发访问,同时要求低延迟的响应。传统的RDBMS可能难以满足这种高并发、低延迟的需求弹性和弹性和可扩展性可扩展性云计算的兴起要求数据库能够轻松地在多个服务器和数据中心之间扩展。传统的RDBMS在水平扩展(横向扩展)上可能存在挑战多样化的多样化的数据模型数据模型不是所有的数据都适合关系模型。例如,社交
29、网络数据、地理位置数据和时间序列数据可能更适合其他数据模型。NoSQL数据库提供了文档、键值、列族和图等多种数据模型,以满足这些特定的需求数据结构数据结构的变化的变化在互联网和移动应用中,数据结构可能经常变化。传统的RDBMS需要固定的表结构,而NoSQL数据库通常更加灵活,允许数据结构的动态变化分布式和分布式和全球化全球化为了提供全球化的服务和减少延迟,数据需要在全球多个地点存储和访问。传统的RDBMS可能不具备这种分布式和全球化的能力成本考虑成本考虑开源和NoSQL数据库通常具有较低的总体拥有成本(TCO),尤其是在硬件、许可和维护方面。这使得它们在初创公司和互联网企业中尤为受欢迎心在远方
30、,路在脚下分布式:分布式:基于基于CAPCAP理论,理论,在一致性、分区容错性和可用性三者之在一致性、分区容错性和可用性三者之间寻找平衡点间寻找平衡点11CAPCAP理论理论来源:互联网公开资料、弘则研究整理 所有节点在同一时刻看到的数据是一致的 一旦数据写入成功,任何后续的读取都会返回该值或更新的值 例如,如果一个系统保证一致性,并且某个数据项在节点A上被修改,那么在所有其他节点上也应立即看到这个修改 系统可以在网络分区(即节点之间的通信中断)的情况下继续运行 即使网络发生故障,导致数据存储的各个部分之间的通信中断,系统仍然可以正常响应用户的请求 每个请求(无论是读还是写)都会在有限的时间内
31、返回一个结果,即使某些节点可能是不可用的 这意味着系统始终是在线的,但返回的数据可能不是最新的或不一致的一致性一致性可用性可用性分区分区容错性容错性CAP理论的核心观点是,分布式系统在面对网络分区时,必须在一致性和可用性之间做出选择。例如,一些系统可能会提供可调整的一致性级别,允许开发者根据需要选择更强的一致性或更高的可用性心在远方,路在脚下分布式:分布式:集中式数据库主数据中心来保证集中式数据库主数据中心来保证ACIDACID特性特性,而分布式,而分布式数据库牺牲掉主数据中心以加速数据流转数据库牺牲掉主数据中心以加速数据流转12集中式和分布式的数据流(以银行汇款业务为例)集中式和分布式的数据
32、流(以银行汇款业务为例)来源:互联网公开资料、弘则研究整理集中式集中式数据库会有主数据中心,所有账户信息存在主数据中心,并在每个异地数据中心进行同步备份。性能上会有瓶颈,Oracle通过RAC技术提升单一数据库中的高可用性,Data Guard技术确保跨地理位置的数据同步A A地数据中心地数据中心B B地主数据中心地主数据中心C C地数据中心地数据中心A A地发出汇款地发出汇款写入A地数据中心,修改对应汇款人和收款人信息将更改同步到主数据库将更改同步到全部异地数据中心以保证数据一致性C C地收到汇款地收到汇款C地数据中心接收到更改后,收款人才能看到账户更新分布式分布式数据库将数据分散在多个物理
33、位置的多个数据库节点上。每个节点可能只存储数据的一部分,并且所有节点共同工作以呈现为一个统一的数据库系统A A地数据中心地数据中心C C地数据中心地数据中心A A地发出汇款地发出汇款写入A地数据中心,仅修改对应汇款人信息通常使用某种形式的数据复制策略(例如,基于quorum的策略)来确保数据的一致性。A地节点会尝试与其他节点(例如C地节点)同步这个更改。这通常涉及到一个“多数同意”的过程,其中多数节点(不仅仅是A和C)必须同意更改才能继续。一旦达到了所需的quorum,C地数据中心的节点会修改对应收款人信息C C地收到汇款地收到汇款C地数据中心接收到更改后,收款人才能看到账户更新心在远方,路在
34、脚下分布式:分布式:相较于集中式数据库,可以提供更强的扩展性、更低的相较于集中式数据库,可以提供更强的扩展性、更低的网络延迟和更强的安全性网络延迟和更强的安全性13集中式数据库瓶颈(以前述场景为例)集中式数据库瓶颈(以前述场景为例)来源:互联网公开资料、弘则研究整理集中式数据库的情况集中式数据库的情况分布式数据库的解决方案分布式数据库的解决方案网络网络延迟延迟A地发起汇款请求,需要首先发送到B地中心数据库,然后再将结果返回到A和C地,这个往返的过程会增加交易的响应时间分布式数据库可以通过数据复制和地理分布来减少网络延迟的影响单点单点故障故障如果集中式数据库的服务器出现故障,整个系统可能会中断通
35、过数据复制和故障转移,分布式数据库可以实现高可用性,即使某些节点出现故障,系统仍然可以运行扩展性扩展性随着交易量的增加,集中式数据库可能会遇到性能瓶颈。垂直扩展(增加单个服务器的资源)有其限制,而水平扩展(增加更多的服务器)在集中式架构中可能更为复杂分布式数据库支持水平扩展,可以通过增加更多的服务器来提高性能和存储容量备份备份和恢复和恢复集中式数据库需要定期备份,以防数据丢失。但随着数据量的增长,备份和恢复的过程可能会变得更加耗时分布式数据库可以并行地在多个节点上进行备份和恢复,从而加速这一过程安全安全风险风险集中存储所有数据可能会增加安全风险。如果攻击者成功入侵了中心数据库,他们可能会获得大
36、量的敏感信息分布式数据库的分散存储可以降低单点攻击的风险,同时可以实现更细粒度的安全控制成本成本集中式数据库的垂直扩展和专有软件许可可能导致高昂的成本分布式数据库通常支持开源和水平扩展,可以提供更低的总体拥有成本心在远方,路在脚下分布式:相比集中式数据库,现阶段分布式受制于数据一致性、分布式:相比集中式数据库,现阶段分布式受制于数据一致性、迁移成本等,迁移成本等,大规模商用仍存在落地难度大规模商用仍存在落地难度14分布式数据库落地难点分布式数据库落地难点来源:互联网公开资料、弘则研究整理描述描述成熟度成熟度许多分布式数据库是相对较新的技术,而传统的关系型数据库(如Oracle、SQL Serv
37、er、DB2等)已经存在了几十年,它们已经在许多关键业务应用中得到了验证复杂性复杂性分布式数据库的设计和管理通常比单一节点的数据库更复杂。这需要数据库管理员和开发人员具有新的技能和知识一致性一致性和可用性和可用性根据CAP理论,分布式系统必须在一致性和可用性之间做出权衡。某些业务场景,如金融交易,可能更倾向于选择保证强一致性的系统迁移成本迁移成本对于已经在使用传统关系型数据库的企业来说,迁移到新的分布式数据库可能涉及高昂的迁移成本,包括数据迁移、应用程序更改和员工培训工具和工具和生态系统生态系统传统的关系型数据库通常有一个成熟的工具和生态系统,包括备份、监控、性能调优等。而新的分布式数据库可能
38、还在这方面迎头赶上特定特定应用场景应用场景虽然分布式数据库非常适合大数据、高并发和全球分布的应用,但并不是所有应用都需要这些特性。许多企业应用可能不会受益于分布式数据库的特点 根据Gartner的报告,尽管分布式数据库的采用率在增加,但传统的关系型数据库(如Oracle、Microsoft SQL Server和IBM DB2)仍然占据了数据库市场的大部分份额 互联网公司如Facebook和Google已经开发了自己的分布式数据库解决方案,例如Bigtable和Cassandra,以满足他们的特定需求 一些新兴的分布式数据库,如CockroachDB和TiDB,正在获得越来越多的关注和采用,这
39、表明分布式数据库在某些场景中的优势 国内受到信创驱动,金融行业头部的银行、资管机构已经开始进行可研分析并逐步开始将集中式数据库替换成分布式数据库心在远方,路在脚下非结构化:互联网催生不同数据类型的数据爆发,传统关系型数非结构化:互联网催生不同数据类型的数据爆发,传统关系型数据库面临困境据库面临困境15非结构化数据库特性非结构化数据库特性来源:互联网公开资料、弘则研究整理描述描述数据模型数据模型 文档型:使用JSON或BSON格式存储数据,每个文档可以有不同的结构 键值型:使用键值对存储数据,适合快速读写 列族型:数据按列存储,适合大量数据的写入 图型:用于存储和查询图结构的数据分布式架构分布式
40、架构 分片:数据被分成多个部分(或“分片”),每个分片存储在不同的服务器上 复制:数据的多个副本存储在不同的服务器上,以提高可用性和容错性 最终一致性:允许短暂的数据不一致灵活的查询方式灵活的查询方式 提供丰富的查询API和语言,如MongoDB的查询语言水平扩展水平扩展 通过增加更多的服务器,可以轻松地扩展其存储和处理能力内存存储和缓存内存存储和缓存 如Redis主要在内存中存储数据,提供超高的读写速度CAPCAP理论理论 在一致性可用性和分区容错性三者之间存在权衡数据压缩和存储优化数据压缩和存储优化 采用特定的数据压缩技术和存储结构事件驱动和实时处理事件驱动和实时处理 支持事件驱动的数据处
41、理和实时查询传统传统RDBMSRDBMS的特点和挑战的特点和挑战NoSQLNoSQL数据库的特点和优势数据库的特点和优势可扩展性可扩展性为了保证ACID特性,采用单一、集中式的架构。虽然可以通过增加硬件资源来提高性能,但成本高且扩展性有限采用分布式架构,更容易实现水平扩展,可以在多个服务器和数据中心之间分散数据和负载灵活性灵活性需要预定义的表结构。在互联网和移动应用中,数据结构可能经常变化,这使得RDBMS在适应这些变化上面临挑战允许动态的、不固定的数据结构,更适合快速变化的环境高并发和高并发和低延迟低延迟为了保证ACID特性,可能需要在事务处理中加锁,这可能会影响并发性能和响应时间放宽了AC
42、ID的一些要求,采用最终一致性模型,以实现更高的并发性和更低的延迟成本成本通常需要昂贵的许可费和硬件资源企业和开发者开始寻找更经济、更灵活的方案心在远方,路在脚下移动互联网和物联网驱使企业加速上云移动互联网和物联网驱使企业加速上云CMOCMO非常喜欢公共云。非常喜欢公共云。毫无疑问,各地的营销部门都在内部IT之外部署Web和移动应用程序来与客户互动。通常,他们会求助于在PaaS(平台即服务)上构建这些应用程序的厂商,也许会在后端进行大数据分析,因为内部IT缺乏时间、意愿或技能来构建此类系统。这在IT参与规划和管理的情况下非常有效物联网是云。物联网是云。2012年4月,VMware分拆公司Piv
43、otal作为下一代PaaS推出,得到了GE 1.05亿美元投资的支持,GE正忙于在广泛的工业产品中嵌入数百万个传感器。该平台的一个关键组件是GemFire事件处理软件,旨在处理来自所有这些传感器的遥测数据。11月,亚马逊添加了Kinesis服务,Salesforce宣布了Salesforce one集成平台,两者都可以用于类似的目的云客户端很快就会占据统治地位。云客户端很快就会占据统治地位。云的最终目标与任何IT基础设施相同:交付应用程序。但在浏览器中运行的应用程序无法达到本机桌面或移动应用的水平。新的JavaScript框架正在缩小这一差距混合云需求开始出现混合云需求开始出现多家厂商开始提供
44、混合云方案。多家厂商开始提供混合云方案。长期以来,云的梦想就是让公共云成为内部基础设施的延伸。在实践中,“爆发”到云端往往是不切实际的。但如果至少能管理一部分本地和公有云资源,就可以减轻IT的负担。2013年的令人惊讶的事情之一是Microsoft在这个方向上采取了积极的行动,Windows Server 2012和System Center为Azure资源提供了更广泛的渠道。VMware虽然没有走得那么远,但计划采取类似的方法。当然,OpenStack的重点之一是为公共云和私有云建立一个框架混合云管理成为关键。混合云管理成为关键。全球云系统管理软件市场增长迅猛,2011年市场规模预计达到7.
45、54亿美元,比2010年增长84.4%。排名前两位的供应商CA Technologies和VMware受益于市场对云系统管理软件的需求云数据库云数据库:20122012年左右年左右移动互联网和物联网发展驱动企业向弹性移动互联网和物联网发展驱动企业向弹性平台转移平台转移16来源:互联网公开资料、弘则研究整理心在远方,路在脚下云数据库:云数据库:超融合技术的成熟超融合技术的成熟极大简化混合云环境的部署和管理极大简化混合云环境的部署和管理17来源:互联网公开资料、弘则研究整理分散式:分散式:服务器主要使用其内部的磁盘或外部的直连存储(DAS)整合式整合式:直连存储集中式共享存储模式存储瓶颈:存储瓶颈
46、:性能、容量等要求的提高计算瓶颈计算瓶颈:服务器增多、资源利用率、管理成本边际效应出现计算计算虚拟化:虚拟化:服务器虚拟化提高资源利用率和运维效率;但服务器与存储之间使用的仍是三层架构存储扩张瓶颈:存储扩张瓶颈:存储设备数量递增,传统架构无法提供灵活的纵向及横向扩展能力物理融合:物理融合:将服务器、存储、存储网络交换机放置在同一个机架中以模块方式销售。超融合:存储虚拟化超融合:存储虚拟化摒弃了三层架构固有的问题,支持以更小的颗粒进行横向扩展,更高的可用性和可扩展性,很快成为新建、更新数据中心时的首选方案。硬件定义硬件定义季报发布会引用季报发布会引用物理整合I/OI/O瓶颈瓶颈:存储未虚拟化,仍
47、遭遇I/O瓶颈软件定义:计算、存储、网络虚拟化,打破瓶颈软件定义:计算、存储、网络虚拟化,打破瓶颈简化管理:简化管理:超融合基础设施(HCI)是一种将计算、存储和网络功能集成在一起的基础设施,可以简化IT管理,使部署和运行应用程序更加容易。这种模式对于混合云环境来说非常重要灵活性和可扩展性:灵活性和可扩展性:HCI通过提供一种可以轻松扩展的基础设施,支持了混合云环境的灵活性和可扩展性。当需要更多的计算或存储资源时,可以简单地添加更多的HCI节点,而不需要进行复杂的硬件升级或配置更改一致的操作体验:一致的操作体验:HCI可以提供一种一致的操作体验,无论应用程序是运行在本地的HCI环境中,还是在云
48、环境中2012-2013年间,AWS OutpostsAWS Outposts,Microsoft Azure StackMicrosoft Azure Stack和和Google AnthosGoogle Anthos的混合云基础设施设计被推出,提供在公共和私有基础设施上一致的云服务、API和管理界面,在某种程度上被视为超融合技术的一种形式。在某种程度上被视为超融合技术的一种形式。心在远方,路在脚下云数据库:早期微软云数据库:早期微软AzureAzure云的成长驱动力即本地云的成长驱动力即本地SQL ServerSQL Server和和AzureAzure云上数据库的混合云解决方案云上数据库
49、的混合云解决方案18来源:互联网公开资料、弘则研究整理发言引用发言引用发言引用发言引用FY10Q4FY10Q4进一步提高本地Windows Server,SQL Server和System Center产品与Azure平台之间的一致性FY15Q2FY15Q2商业云连续第六个季度实现三位数收入增长,高级Azure服务的收入大幅增长FY11Q1FY11Q1 Windows Azure订阅量环比增长40%FY15Q4FY15Q4我们看到SQL的大量采用,所以这就是Azure DB,机器学习即服务。FY11Q4FY11Q4 Windows Azure继续拥有强劲的客户势头,收入增长加速FY16Q1FY
50、16Q1SQL的这一里程碑与我们在Azure中的快速增长及其在云魔力象限中的位置并列FY13Q4FY13Q4 增加25%的企业客户,超过50%的财富500强企业使用AzureFY16Q2FY16Q2我们的服务器不是一个独特的部分,实际上是我们云的边缘,我们正在通过Azure Stack之类的东西来构建FY14Q2FY14Q2Azure客户净席位增长超过100%,70%的财富500强公司使用至少一项云服务FY16Q3FY16Q3我们在Azure中的高价值服务中添加了更多差异化服务,即人工智能、IoT和业务分析FY14Q3FY14Q3 Azure收入增长150%以上,得益于新客户和使用率的增加FY
51、16Q4FY16Q4我们显然支持我们所有的服务器。我们的每个服务器产品都有云注册权限,无论是SQL,还是Windows ServerFY14Q4FY14Q4商业云收入增长147%,Azure大幅增长,今年存储翻了一番,计算量增加了两倍。随着核心服务的使用量增加,超过 50%的 Azure 客户现在也在使用更高价值的服务FY17Q1FY17Q1这就是SQL Server 2016所代表的,因此我们拥有这些独特的功能,例如能够在SQL 2016中将数据库中的单个表一直延伸到云中,以获得无限的表容量,然后让您的应用程序和查询工作FY15Q1FY15Q1Azure实现了强劲增长;初创公司和ISV喜欢开
52、放灵活的方法,并且正在Azure上快速构建,40%的收入来自初创公司和ISV季报发布会引用季报发布会引用AzureAzure云的数据库服务很难单独量化拆分带来的影响,但从微软季报发言中仍能看到数据存储服务带来云的数据库服务很难单独量化拆分带来的影响,但从微软季报发言中仍能看到数据存储服务带来的上云驱动力:的上云驱动力:Azure最初主要针对的是大型企业和政府机构,这些用户通常已经是微软的现有客户,使用微软的其他产品,如Office、Windows Server和SQL Server等微软的Hyper-V虚拟化技术是一个由微软开发的虚拟化平台,可以作为独立产品使用,也可以作为Windows Se
53、rver的一个功能。虚拟化技术和其他迁移工具使得微软整套云端和本地的服务具备高集成性和可迁移性因此,Azure最初主要提供混合云解决方案,使得深度使用微软全产品线的大型企业用户可以在保留现有IT基础设施的同时,逐步迁移到云心在远方,路在脚下19云厂商收入(亿美元)云厂商收入(亿美元)来源:互联网公开资料、弘则研究整理213.580.3-20%0%20%40%60%80%100%120%140%160%180%200%0 50 100 150 200 250 15Q115Q215Q315Q416Q116Q216Q316Q417Q117Q217Q317Q418Q118Q218Q318Q419Q11
54、9Q219Q319Q420Q120Q220Q320Q421Q121Q221Q321Q422Q122Q222Q322Q423Q123Q2AWSGoogle阿里云AWS yoyGoogle yoyAzure yoy阿里云yoy早期数据只能追溯到2015年龙头AWS云业务收入规模千亿美元,微软600亿美元,Google约300亿美元,阿里云约100亿美元云数据库:作为云厂商提供的云上打包服务之一,很难单独量化云数据库:作为云厂商提供的云上打包服务之一,很难单独量化拆分数据库产品带来的影响,但其一定随着云业务同向成长拆分数据库产品带来的影响,但其一定随着云业务同向成长心在远方,路在脚下开源:对于厂商来
55、说,开源更多是战略选择而非被迫转型开源:对于厂商来说,开源更多是战略选择而非被迫转型 来源:艾瑞咨询、互联网公开资料、弘则研究整理开源趋势开源趋势描述描述市场渗透市场渗透通过提供开源版本的产品,厂商可以迅速扩大其市场份额,吸引更多的用户。这为厂商创造了一个广泛的用户基础,从而为其后续的商业化策略提供了基础社区驱动社区驱动开源模式鼓励社区的参与,这意味着厂商可以利用全球范围内的开发者为其产品带来创新。这种模式大大加速了产品的开发和改进且避免“重复造轮子”品牌建设品牌建设成功的开源项目可以为厂商带来良好的声誉和品牌知名度。例如,Red Hat、Canonical和Docker等公司通过其开源项目建
56、立了强大的品牌生态建设生态建设开源有助于建立行业标准,从而吸引更多的合作伙伴和开发者加入到厂商的生态系统中竞争竞争通过开源某些关键技术或平台,厂商可以策略性减少竞争,将竞争对手转化为合作伙伴人才人才开源项目通常吸引了大量的开发者和贡献者。这为厂商提供了一个优质的人才库,从中挑选和招聘人才20心在远方,路在脚下相比国内,海外企业多采用相比国内,海外企业多采用多云策略,因此云厂商战略重心集中多云策略,因此云厂商战略重心集中在在IaaSIaaS层,并不会向上进入细分垂类层,并不会向上进入细分垂类SaaSSaaS场景场景来源:互联网公开资料、弘则研究整理海外企业多云策略(海外企业多云策略(201920
57、19年年FlexeraFlexera调研报告)调研报告)海外企业多云策略(海外企业多云策略(20232023年年FlexeraFlexera调研报告)调研报告)避免供应商锁定:避免供应商锁定:企业不想被单一厂商锁定,可以确保他们有更大的灵活性和谈判能力风险分散:风险分散:使用多云服务分散风险,确保当一个服务出现问题时,业务可以继续运行满足特定需求:满足特定需求:不同的云服务提供商可能在某些特定领域或功能上有优势。企业可能会选择最适合其特定需求的云服务合规性和数据主权:合规性和数据主权:在某些地区或行业,数据可能需要存储在特定的地理位置或满足特定的合规要求。多云策略可以帮助企业满足这些要求因此,
58、海外云厂商的战略重心集中在IaaS层各种技术的突破比如机器学习、AI等,以提供给企业更有吸引力的存储、计算等能力,SaaS场景引入垂直合作伙伴。国内云厂商则会打包提供全部IaaS+SaaS服务。21心在远方,路在脚下商业模式从本地商业模式从本地license+license+技术支持,转向开源、云托管商业模式技术支持,转向开源、云托管商业模式来源:互联网公开资料、弘则研究整理传统:本地传统:本地license+license+技术支持模式(技术支持模式(OracleOracle首创纯软件的商业模式,在此之前所首创纯软件的商业模式,在此之前所有软件都是以嵌入硬件销售的方式体现价值)有软件都是以嵌
59、入硬件销售的方式体现价值)Oracle报价按照服务器硬件性能报价(几核CPU)硬件扩容的时候需要向Oracle增购licenseOracle也提供技术支持和咨询开源:增值功能开源:增值功能+技术支持模式技术支持模式开源license免费,但存在功能限制,比如速度瓶颈、一些高级功能等需要增值功能时才升级付费额外还有服务收费,比如数据维护服务、更新、安全补丁、技术支持等云托管模式(云托管模式(MongoDBMongoDB)云厂商云厂商IaaSIaaS计算、存储计算、存储.用户可以在云上采购数据库厂商服务,或直接采购数据库厂商服务价格包含云基础设施费用,数据库厂商再与云厂商结算22弘则弥道(上海)投
60、资咨询有限公司02生成式生成式AIAI催生向量数催生向量数据库需求据库需求心在远方,路在脚下相比其他类型数据库,向量数据库更擅长进行大数据量和多数据相比其他类型数据库,向量数据库更擅长进行大数据量和多数据类型的快速检索类型的快速检索来源:互联网公开资料、弘则研究整理向量数据库优势向量数据库优势向量数据库向量数据库关系型数据库关系型数据库非结构化数据库非结构化数据库数据存储数据存储专为高维向量数据优化结构化数据存储灵活数据模型,支持非结构化和半结构化数据查询效率查询效率高效的相似性搜索和语义搜索成熟的查询语言(SQL),适合结构化查询通常支持简单的查询,适合大数据分析扩展性扩展性通常支持水平扩展
61、,适合大规模数据有些支持水平扩展,但更多的是垂直扩展高度的水平扩展能力,适合大数据环境数据模型数据模型通常为高维向量严格的模式和完整性约束灵活的数据模型,无需预定义模式事务支持事务支持一般不支持或支持有限完全支持事务通常不支持或支持有限应用场景应用场景推荐系统、图像/声音搜索、语义文本搜索金融系统、企业资源计划、客户关系管理社交媒体平台、大数据分析、物联网数据存储系统成熟度系统成熟度通常较新,但正在迅速发展非常成熟,有多年的发展历史通常较新,但在大数据和云计算领域有快速的发展24心在远方,路在脚下所有数据格式均可以转换成高维向量,通过向量相似性比较进行所有数据格式均可以转换成高维向量,通过向量
62、相似性比较进行快速检索快速检索来源:互联网公开资料、弘则研究整理源数据可以是文本、代码、图片或视频等向量数据是一种数学表达形式,它由一组有序的数值组成,这些数值可以表示空间中的一个点、一个方向或者一个速度等。在向量数据中,每个数值都有其特定的含义,例如在二维空间中,一个向量可以由两个数值表示,分别对应x轴和y轴的坐标;在三维空间中,一个向量可以由三个数值表示,分别对应x轴、y轴和z轴的坐标。比如人脸识别比对,图片要被转化成1000+维向量通过计算两个向量之间的距离或夹角,我们可以得到这两个向量的相似性。这个特性在很多应用中都非常有用,例如在推荐系统中,我们可以通过计算用户的兴趣向量和商品的特征
63、向量之间的相似性,来推荐用户可能感兴趣的商品。越相似的向量在空间中的位置会越相近定性判断向量化数据量大小:视频 音频 文档25心在远方,路在脚下语义搜索不仅是匹配关键字,而是试图理解真正意图,带来更准语义搜索不仅是匹配关键字,而是试图理解真正意图,带来更准确、更有上下文的搜索结果确、更有上下文的搜索结果来源:互联网公开资料、弘则研究整理语义搜索语义搜索vs vs传统分词搜索传统分词搜索语义搜索语义搜索传统分词搜索传统分词搜索核心技术核心技术基于向量搜索,机器学习和人工智能基于文本匹配和查询扩展搜索目的搜索目的理解查询的深层意义和上下文直接匹配关键词或扩展的词汇处理上下文处理上下文能够根据搜索者
64、的地理位置、搜索历史等信息调整结果通常不考虑这些额外的上下文信息搜索结果的相关性搜索结果的相关性根据查询的意图和上下文排名结果主要基于关键词的频率和位置匹配处理同义词和多义词处理同义词和多义词能够理解词语在不同上下文中的意义,并据此返回结果通常使用同义词表或词汇扩展工具,可能不总是理解上下文中的真正意义对查询的理解对查询的理解能够区分如“chocolate milk”和“milk chocolate”这样的查询,即使关键词顺序或形式相同可能只是简单地匹配关键词,而不理解它们的真正意思学习和适应能力学习和适应能力通过机器学习不断改进,根据用户的反馈和行为适应通常基于固定的算法和规则,没有持续学习
65、和适应的能力用户体验用户体验提供更准确和有上下文的结果,从而提高用户满意度依赖于用户精确输入,可能返回与用户实际意图不匹配的结果26心在远方,路在脚下向量数据库厂商主要提供向量化工具、向量和源数据的键值对存向量数据库厂商主要提供向量化工具、向量和源数据的键值对存储和查询储和查询来源:互联网公开资料、弘则研究整理向量数据库功能向量数据库功能向量化工具:将源数据向量化处理键值对存储:同时存储向量和源数据向量比对:向量相似性比对,可以使用不同索引类型提示工程27心在远方,路在脚下向量数据库技术原理开源通用,用户侧对于技术差异的感知并不向量数据库技术原理开源通用,用户侧对于技术差异的感知并不明显,更多
66、比拼生态社区、服务等软性能力明显,更多比拼生态社区、服务等软性能力 来源:产业调研、互联网公开资料、弘则研究整理技术差异点技术差异点用户感知用户感知向量化向量化工具工具 向量化维度:向量化工具能把用户问题向量化到不同的细度,但并不是维度越多就说明向量化的能力越强,很可能会出现维度少的向量化工具更准 召回率:指的是有多少个不同形式、不同提问方法的问题可以返回同一个答案,代表的是语义向量的准度。目前GPT的textada应该是召回率最高的,能做到60%以上,一般开源的word2vector模型只能做到30%-40%向量化工具是可插拔组装的,比如用Milvus的数据库和GPT的textada向量化工
67、具也是可以的 从用户感受上,细化向量化工具的维度在边际上的感受是在递减的,语义理解的准确性做到98%还是99%基本在使用上没什么区别向量向量比对比对 是否支持一些查询的索引类型,比如欧式距离、邻近算法、平铺查询等 查询速度和并发能力 技术原理基本通用,现在门槛没那么高向量数据库竞争点向量数据库竞争点向量数据库所提供的向量化工具、向量比对能力是不具备技术层面硬壁垒的,技术原理基本通用且开源,比如向量化工具基本可以在GitHub上下载源代码国内厂商从团队启动,人员规模不过百,可以平移NoSQL团队过来,基本三个月就可以出产品厂商核心差异在于开源生态社区:厂商核心差异在于开源生态社区:海外开源的起家
68、都在于开源社区绑定了大量的程序员。像MongoDB、MySQL这些厂商,初级开发者、刚毕业的大学生这类群体,基本都比较通用,在大学课程里就包含这些厂商的知识。大量开发者会支持后续的产品迭代。MongoDB在传统NoSQL领域很强,没有人不知道,没有人不会用28心在远方,路在脚下Hugging FaceHugging Face榜单侧重技术指标,但尚未发现某一向量化工具在榜单侧重技术指标,但尚未发现某一向量化工具在所有测试任务中占主导地位;所有测试任务中占主导地位;DB-EngineDB-Engine则侧重品牌认知的排名则侧重品牌认知的排名来源:产业调研、互联网公开资料、弘则研究整理Hugging
69、 FaceHugging Face向量化工具榜单向量化工具榜单DB-EngineDB-Engine向量数据库榜单向量数据库榜单基于康奈尔大学的论文基于康奈尔大学的论文MTEB:Massive Text Embedding MTEB:Massive Text Embedding BenchmarkBenchmark作为评判标准:作为评判标准:文本嵌入通常在来自单个任务的一小组数据集上进行评估,而不涵盖它们在其他任务中的可能应用,这使得该领域的进展难以追踪。为了解决这个问题,我们引入了大规模文本嵌入基准(MTEB)。MTEB 涵盖 8 个嵌入任务,涵盖总共 58 个数据集和 112 种语言。通过对
70、 MTEB 上 33 个模型的基准测试,我们建立了迄今为止最全面的文本嵌入基准。DB-EngineDB-Engine的分数计算方法的分数计算方法 网站上提及的次数:以Google和Bing搜索引擎查询中的结果数来衡量 对系统的兴趣度:Google Trends中的搜索频率 相关技术讨论频率:IT问答网站Stack Overflow和DBA Stack Exchange上的相关问题数量和感兴趣用户数 提及的工作机会数量:职位搜索引擎Indeed和Simply Hired上的职位数量 职业网站上提及的简介经历数量:使用LinkedIn来衡量 社交网络中的相关性:统计了Twitter推文的数量29心
71、在远方,路在脚下生成式生成式AIAI的出现驱动向量数据库发展,软件应用均需要借助向量的出现驱动向量数据库发展,软件应用均需要借助向量数据库进行相似性搜索,进而生成更精准回答数据库进行相似性搜索,进而生成更精准回答30来源:互联网公开资料、弘则研究整理软件应用指令流程软件应用指令流程应用在执行指令时必须调用应用在执行指令时必须调用“软件说明书软件说明书”或企业内部数据,目前有两种技术路径或企业内部数据,目前有两种技术路径 大模型只起到“翻译”的功能,将自然语言翻译成软件应用能听懂的机器语言 第一种方式是“微调微调”(fine-tuningfine-tuning),相当于给大模型准备一本纸质教材,
72、但每次做教材改版的时候都需要重新训练和学习 第二种方式是“嵌入嵌入”(embeddingembedding),相当于把教材做成活页,在客户本地部署一个数据向量库,可以随时对数据进行调整用户自然语言输入指令用户自然语言输入指令用户使用自然语言输入与插件交互的指令,例如“我想预订酒店”插件解析用户指令插件解析用户指令插件接收用户输入并解析其中的指令部分,通常通过字符串匹配、正则表达式等方式来提取指令信息。比如,插件可以解析出指令为“预订酒店”指令转换为代码逻辑指令转换为代码逻辑插件根据解析出的指令,将其映射到对应的代码逻辑或函数。在预订酒店的例子中,插件会调用预订酒店的代码逻辑与服务进行交互与服务
73、进行交互插件通过与外部服务进行交互来执行相应的操作。这可能涉及到与服务的API通信、数据传递、认证等步骤。例如,在预订酒店的例子中,插件可能会调用酒店预订服务的API来发送预订请求处理服务返回结果处理服务返回结果插件接收响应结果并进行处理。可能涉及解析和提取服务返回的数据,处理错误或异常情况。在预订酒店的例子中,插件会处理酒店预订服务的响应,例如确认预订成功或处理预订失败的情况生成自然语言回复生成自然语言回复插件根据处理后的结果,生成自然语言的回复。这可以通过预定义的回复模板、文本生成模型等方式来实现。在预订酒店的例子中,插件可以生成类似于“您已成功预订酒店”的自然语言回复GPTGPT模型能力
74、模型能力软件厂商能力软件厂商能力心在远方,路在脚下大模型的应用场景中,无论大模型的应用场景中,无论C/BC/B端,只要涉及到个性化、专业化端,只要涉及到个性化、专业化场景,均需要应用到向量数据库场景,均需要应用到向量数据库来源:产业调研、互联网公开资料、弘则研究整理训训练练推推理理C C端端B B端端训练不需要对原数据集进行保存,形训练不需要对原数据集进行保存,形成的知识会以参数文件的形式进行存成的知识会以参数文件的形式进行存储,想要调用大模型可通过一段储,想要调用大模型可通过一段PythonPython代码读取参数文件即可代码读取参数文件即可企业内部应用多采用嵌入而非企业内部应用多采用嵌入而
75、非微调的方式以节省成本,内部微调的方式以节省成本,内部知识数据会存储在向量数据库知识数据会存储在向量数据库中,供通用中,供通用/行业大模型进行调行业大模型进行调用以与企业用户交互用以与企业用户交互不管不管C/BC/B端推理场景,多轮对话场景必须要用到向量数据库以保存对话内容,在未来端推理场景,多轮对话场景必须要用到向量数据库以保存对话内容,在未来重新开启对话时才会有重新开启对话时才会有“记忆记忆”。数据库用量会随着对话数据量同向增长。数据库用量会随着对话数据量同向增长随着生成式随着生成式AIAI将大规模落地,作为刚需配套的向量数据库赛道将迎来加速,目前国内外市场均将大规模落地,作为刚需配套的向
76、量数据库赛道将迎来加速,目前国内外市场均处在较早期阶段,市场竞争格局极分散处在较早期阶段,市场竞争格局极分散 海外市场:海外市场:海外市场存在“云中立”产业逻辑,故海外云厂商不会降维进入该领域。目前海外较为知名的厂商有Milvus、Pinecone(为ChatGPT提供向量数据库)等;传统非结构化数据库厂商如MongoDB也在今年6月发布向量搜索等功能,目前处在市场宣传阶段 中国市场中国市场:一级市场有较多厂商在转型做向量数据库,但国内并无“云中立”的产业逻辑,因此国内云大厂如阿里、腾讯、华为等均具备向量数据库产品以补全自身一揽子打包的云服务解决方案31心在远方,路在脚下C C端端训练场景中,
77、不需要对原数据集进行保存,形成的训练场景中,不需要对原数据集进行保存,形成的知识会以知识会以参数文件的形式进行存储,因此不需要向量数据库参数文件的形式进行存储,因此不需要向量数据库来源:产业调研、互联网公开资料、弘则研究整理大模型训练大模型训练提供教材,喂数据提供教材,喂数据机器学习、深度学习机器学习、深度学习形成知识储存在神经网络形成知识储存在神经网络大模型本身并没有数据库,所有知识被拟合成高维公式,以参数文件的形式存储,调用大模型本身是大模型本身并没有数据库,所有知识被拟合成高维公式,以参数文件的形式存储,调用大模型本身是一段一段PythonPython代码读取参数文件代码读取参数文件训练
78、大模型时,不断把知识放进去增加模型的维度和参数,然后拟合成一个高维模型。当公式被拟合出来之后,原始信息被合成了公式的参数,以文件夹形式存储,不保存原始数据。应用大模型时用Python程序读取文件夹里的参数垂类大模型做微调相当于重新训练一遍大模型,所以同样不需要向量数据库垂类大模型做微调相当于重新训练一遍大模型,所以同样不需要向量数据库强调泛化能力的场景,或者增加的样本数据量很大的时候会选择微调的方式,但不适合需要高频追加数据的场景。一般来说,增加的样本数据量(比如某些行业大模型增加垂直行业的知识)超过通用大模型原有训练数据集的2%以上,才会愿意用微调的方式,增加的数据太少对通用大模型造不成影响
79、。微调也有两种方式,可以选择全参数调整也可以选择冻结一部分参数进行调整。这种方式都不涉及向量数据库心在远方,路在脚下B B端训练端训练场景中,企业内部知识数据会存储在向量数据库中,用场景中,企业内部知识数据会存储在向量数据库中,用来提升来提升大模型的回答精确度大模型的回答精确度33来源:产业调研、互联网公开资料、弘则研究整理B B端端“嵌入嵌入”训练训练“嵌入嵌入”而非而非“微调微调”的原因:的原因:1)“微调”不适用企业内部场景:企业内部知识的样本量对于通用大模型的样本量来说量级太小了,不足以对大模型造成影响,fine-tuning之后可能还是查询不到想要的答案2)限制大模型泛化能力来提升问
80、答准确度:比如银行智能客服场景,开卡、提额度等功能,一定是答案唯一的。当客户提出问题,优先去向量数据库搜索唯一的答案,然后通过大模型总结回答给客户。将各种源数据(文本、代码、图片或视频等)转成向量数据(市面上有很多向量化处理工具)将各种源数据(文本、代码、图片或视频等)转成向量数据(市面上有很多向量化处理工具)“嵌入嵌入”向量数据并存储源数据,向量数据和源数据类似键值对,一一对应存储向量数据并存储源数据,向量数据和源数据类似键值对,一一对应存储 构建对应的提示工程构建对应的提示工程心在远方,路在脚下C/BC/B端推理端推理场景中,场景中,多轮对话场景必须要用到向量数据库,且数多轮对话场景必须要
81、用到向量数据库,且数据库用量会随着对话数据量同向增长据库用量会随着对话数据量同向增长来源:产业调研、互联网公开资料、弘则研究整理C C端推理场景端推理场景B B端推理场景端推理场景 在应用端进行自然语言提问(LangChain技术框架会做规则判断和逻辑编排,判定是否需要调用向量数据库进行回答)若不需要,则直接由大模型回答或进行互联网搜索回答;若需要用到内部知识,则向量化工具将提问向量化 在向量数据库中进行向量相似性搜索 找到对应的内部知识源数据作为论据支撑 反馈到大模型进行生成式回答 只要是问答类型的大模型,不论底层是谁的模型,微调还是嵌入的方式做的训练,基本都需要向量数据库来存储每一个用户的
82、上下文回答,以便能让大模型越来越懂每一个用户。因为每一个用户长期的提问数据是不能内化到大语言模型里的,所以肯定需要一个地方去存储这些数据,这个就是通过向量数据库来解决的 C端场景可能会更强调对于多轮对话的长期存储,数据量增长会推动向量数据库需求增长。相当于每个C端用户在通过多轮对话的方式去训练专属于自己的个人助理,可以了解健身数据、饮食数据等个人习惯和偏好,这样大模型可以给更精准的推荐。所以C端场景会更希望多轮对话的信息可以长期存储,这些数据量的增长会推动向量数据库需求的增长34心在远方,路在脚下关系型数据库市场规模大几百亿美元;受到生成式关系型数据库市场规模大几百亿美元;受到生成式AIAI驱
83、动的驱动的向量向量数据库应用场景更多,潜在市场空间将超过关系型数据库数据库应用场景更多,潜在市场空间将超过关系型数据库来源:产业调研、互联网公开资料、弘则研究整理向量数据库市场规模向量数据库市场规模关系型数据库关系型数据库据信通院统计数据,全球数据库市场规模据信通院统计数据,全球数据库市场规模在在20202020年为年为671671亿美元,到亿美元,到20252025年有望达到年有望达到798798亿美元,亿美元,CAGR CAGR 3.5%3.5%,OracleOracle、MySQLMySQL、SQL ServerSQL Server等都是关系型数据库,等都是关系型数据库,估算关系型数据库
84、全球龙头估算关系型数据库全球龙头OracleOracle收入规收入规模小几百亿美元模小几百亿美元键值键值数据库数据库向量向量数据库数据库时序时序数据库数据库内存内存数据库数据库图图数据库数据库文档文档数据库数据库宽表宽表数据库数据库搜索搜索数据库数据库.非关系型数据库非关系型数据库关系型数据库遵循ACID规则。主要集中在强一致性场景,比如银行交易、零售电商、车票预订等非关系型数据库放宽或取消了一些ACID的规则以达到更好的性能和更大的灵活性,扩展性和并发读写性能更高,更适合互联网应用的场景,比如Facebook、微博等。因此非关系型数据库的应用场景更广阔,数据量更大,理应具备更大的市场空间实际
85、商业化角度是,非关系型数据库的应用场景(日志、互联网内容管理、实时数据分析、移动应用等)相比于关系型数据库的应用场景(核心业务数据完整性、核心业务系统等),数据的商业化价值更低,因此企业更倾向于开源免费的非关系型数据库,导致非关系型数据库的商业化困难生成式AI的出现带来了数据价值的深度挖掘,企业应用于AI应用的数据可能会带来更大的潜在价值,因此向量数据库的应用场景和商业化潜力将是非关系型数据库中最高的35弘则弥道(上海)投资咨询有限公司03各厂商具备错位竞争各厂商具备错位竞争优势优势心在远方,路在脚下海外市场不同背景厂商以不同商业模式切入向量数据库赛道海外市场不同背景厂商以不同商业模式切入向量
86、数据库赛道37海外市场向量数据库厂商图谱海外市场向量数据库厂商图谱来源:36氪、互联网公开资料、弘则研究整理中国市场云厂商将向量数据库作为云服务矩阵中的一个SKU提供给客户以提升全面服务能力心在远方,路在脚下MongoDBMongoDB顺应顺应NoSQLNoSQL和大数据需求诞生,培养生态社区逐步实和大数据需求诞生,培养生态社区逐步实现技术支持现技术支持+云托管模式的商业化云托管模式的商业化38MongoDBMongoDB发展历程发展历程来源:互联网公开资料、弘则研究整理MongoDB有别于当时其他的数据库产品,使用和安装都非常方便,在代码中通过API就可以操作数据,在当时引起不小的轰动10g
87、en一直通过开源社区和MongoDB大学扩大影响力,吸引程序员入驻社区,在社区按照不同地区成立不同的用户组,不同的用户组每年都会举办一次MongoDB大会。知名科技博客Business Insider上将MongoDB宣传成程序员必备技能之一,掌握好这门技术,不愁找不到工作。同时还和很多在线教育网站合作开展MongoDB的培训课程,从2012年起开始提供付费技术支持2016年推出Atlas服务,开始和公有云厂商合作,提供云托管服务20072007年年10gen成立,目标进军云计算行业为企业提供云计算服务,不满足传统关系型数据库,决定自己开发2002009 9年年开发出MongoDB雏形并开源,
88、定义为面向集合、模式自由、自由扩展、使用程序语言和API访问的文档数据库20201111年年MongoDB上线第一个云服务。2009-2011这三年期间,开始通过开源社区和MongoDB大学扩大影响力20201212年年MongoDB开始提供7*24小时的服务。这一年10gen公司推出对MongoDB的商业付费技术支持20201414年年收购WiredTiger,将下一代存储引擎技术引入MongoDB。发布MongoDB企业版20201515年年MongoDB下载次数达到1000万次,超过2000个付费用户20162016年年MongoDB推出了Atlas服务,是与公有云服务厂商合作,Mong
89、oDB自身团队为客户部署的云数据库2012018 8年年MongoDB推出ACID事务支持,成为第一个支持强事务的NoSQL数据库心在远方,路在脚下互联网内容服务推动大型数据库应用,互联网内容服务推动大型数据库应用,MongoDBMongoDB早期版本提供大早期版本提供大规模数据处理、分片集群(水平扩展能力)等功能规模数据处理、分片集群(水平扩展能力)等功能39MongoDBMongoDB产品演进产品演进来源:互联网公开资料、弘则研究整理创始人团队首次创业时创立了著名的在线广告公司DoubleClick,几年之内广告流量达到了每秒40万条。当时成熟的数据库基本上都是基于单机架构的传统关系型数据
90、库如Oracle、MS SQLServer等。即便Oracle支持一些集群部署,其扩展性也仅限于2-4台服务器的范围在关系型数据库中,当数据量达到一定程度,单个节点服务器资源充分饱和无法保证及时的服务响应时间时,通常会采用分区分表的数据库优化方案。但是这些方案都是侵入式的,很多时候意味着应用程序需要做较大的改动,来配合数据库端的改动2010年推出具有分片集群的1.6版本,在水平伸缩能力上要强于传统关系型数据库。MongoDB 的自动分片,可以在一个集群的几个分片服务器内自动进行数据的分布和均衡。在尽可能把数据均匀的分布到多个存储节点的同时,为应用开发者提供无缝的体验。开发者无须关心数据的具体位
91、置,程序也不需要因为分片与否而进行修改心在远方,路在脚下MongoDBMongoDB补足功能以适应全业务场景,同时简单易用补足功能以适应全业务场景,同时简单易用40MongoDBMongoDB产品演进产品演进来源:互联网公开资料、弘则研究整理3.2版本中增加了操作符:$lookup,意味着作为NoSQL数据库,MongoDB开始支持关系型数据库的核心功能:关联。从3.2开始,可以一次同时查询多个MongoDB的集合(表),不用像以前那样,如果有多表查询需要在代码中发起多个数据库查询,然后在内存中进行手工关联2018年推出4.0版本具备多文档ACID强事务机制,之前MongoDB对事务的支持仅限
92、于单文档内。无法保证原子性和出错回滚机制,很多交易性的业务会有意避开MongoDB。而随着4.0的发布,MongoDB可以用来支撑几乎所有的业务场景2020年推出的4.4版本解压缩之后仅3个可执行文件(总大小约为 150MB,对于任意类型的 MongoDB 部署,都只需要这几个组件):1)mongo:MongoDB Shell,使用基于 JavaScript 的命令与服务器发生交互;2)mongod:运行 MongoDB 的主文件,可以作为单个数据库实例、分片集群的成员或分片集群的配置服务器运行;3)mongos:一个路由器应用程序,用在具有水平伸缩能力的数据库服务器集群中心在远方,路在脚下收
93、购补全收购补全MongoDBMongoDB能力并加深和开发者社群关系能力并加深和开发者社群关系41MongoDBMongoDB历次收购历次收购来源:互联网公开资料、弘则研究整理时间时间标的标的主要业务主要业务收购意义收购意义2014.122014.12WiredTigerWiredTiger存储引擎存储引擎WiredTiger作为一个现代、高性能、高吞吐量的存储引擎,极大地提高了MongoDB在高写入量工作负载下的性能。WiredTiger还为MongoDB带来了压缩、记录级锁定、多版本并发控制(MVCC)、多文档事务以及对非常高插入工作负载的日志结构合并树(LSM trees)的支持2018
94、.102018.10mLabmLabDBaaSDBaaSmLab目前在其平台上拥有大约100万个托管数据库,包括免费和付费层。这次收购将加深MongoDB与以开发者为中心的初创公司社群的关系,并有助于MongoDB Atlas的快速扩张2019.042019.04RealmRealm云计算移云计算移动数据库动数据库这次收购加强了MongoDB与专注于移动和无服务器开发的开发者社群的关系。Realm拥有超过10万名活跃开发者,其解决方案已被下载超过20亿次。这次收购与MongoDB全球云数据库Atlas以及无服务器平台Stitch非常契合心在远方,路在脚下MongoDBMongoDB提供提供En
95、terprise AdvancedEnterprise Advanced、AtlasAtlas和和CommunityCommunity版本版本42MongoDBMongoDB产品版本产品版本来源:互联网公开资料、弘则研究整理版本版本功能功能详情详情Enterprise Enterprise AdvancedAdvanced企业数据库企业数据库服务器服务器存储、组织和处理数据,并方便对数据的访问和更改。包括高级安全功能、审计功能、企业标准的认证和授权、加密和内存存储引擎企业管理能力企业管理能力Cloud Manager Premium和Ops Manager管理工具,允许运营团队运行、管理和配置
96、MongoDB,包括能够对大约100个系统指标进行监控和报警,备份数据并将其恢复到任何时间点以进行灾难恢复,以及自动执行常见的操作任务,如升级、扩展和配置更改分析集成分析集成提供集成,允许数据和业务分析师使用其现有的商业智能和分析工具分析其平台上运行的应用程序中的数据。对于与Tableau等商业智能产品的集成,分析师可以使用其MongoDB Connector for BI产品,其中包括其最新发布的ODBC驱动程序,以支持与Microsoft Excel的连接。该公司还为Spark和Hadoop提供开源连接器,这些产品经常用于数据分析技术支持技术支持通过企业级服务水平协议为客户提供技术支持At
97、lasAtlas云托管云托管数据库数据库提供了一个弹性的、可管理的产品,包括自动配置和愈合、全面的系统监控、可管理的备份和恢复、默认安全等功能。MongoDB Atlas让客户从管理数据库和相关底层基础设施的复杂性中解脱出来,从而可以专注于应用和终端用户体验,并创新服务自己的客户,把握新的商业机会社区版社区版开源免费版开源免费版包含开发人员使用 MongoDB 所需的核心功能。使用MongoDB Atlas直接从社区版获得收入,并通过向上销售用户到其企业高级订阅包间接获得收入心在远方,路在脚下MongoDBMongoDB可以适应不同行业的不同用例可以适应不同行业的不同用例43MongoDBMo
98、ngoDB不同行业客户不同行业客户来源:互联网公开资料、弘则研究整理MongoDBMongoDB不同用例不同用例心在远方,路在脚下MongoDBMongoDB在在20162016年年推出推出AtlasAtlas向云数据库转型向云数据库转型44Enterprise AdvancedEnterprise Advanced来源:互联网公开资料、弘则研究整理AtlasAtlasMongoDB Enterprise AdvancedMongoDB Enterprise Advanced:可以在云端、内部部署或混合环境中运行。它提供了专有的商业数据库服务器和企业管理功能,使用户可以完全掌控自管理的Mong
99、oDB环境的管理和安全性MongoDB AtlasMongoDB Atlas:是一个多云开发者数据平台,主要为用户提供云端的数据库服务,使得用户可以更加方便地使用和管理MongoDB心在远方,路在脚下商业模式仍为订阅商业模式仍为订阅来源:互联网公开资料、弘则研究整理Enterprise AdvancedEnterprise Advanced:licenselicense订阅订阅+技术支持模式技术支持模式报价按照服务器硬件性能报价(几核CPU)客户可以选择其Cloud Manager Premium产品(适用于希望通过云端管理其平台的客户)或Ops Manager(适用于内部部署的客户)订阅期间
100、为客户提供技术支持AtlasAtlas:云托管模式:云托管模式云厂商云厂商IaaSIaaS计算、存储计算、存储.用户可以在云上采购数据库厂商服务,或直接采购数据库厂商服务价格包含云基础设施费用,数据库厂商再与云厂商结算45心在远方,路在脚下AtlasAtlas客户数占总客户数客户数占总客户数90%90%以上,收入占比快速提升至以上,收入占比快速提升至65%65%,跨多,跨多云数据库优能力显现云数据库优能力显现46AtlasAtlas收入占比收入占比来源:互联网公开资料、弘则研究整理Atlas从2016年底推出,收入占比快速提升头部百大客户中,47%的企业客户中,8成MongoDB的采购是Atl
101、as,验证海外企业“多云策略”,Atlas的跨云应用管理能力显现超90%客户均有采购AtlasAtlasAtlas客户数(万家)客户数(万家)2.75 2.95 3.15 3.37 3.55 3.76 3.93 4.16 4.35 29%27%25%23%23%0%10%20%30%0 1 2 3 4 5 FY22Q2FY22Q4FY23Q2FY23Q4FY24Q2心在远方,路在脚下客户将工作负载从传统关系型数据库迁移至客户将工作负载从传统关系型数据库迁移至MongoDBMongoDB,带来客户,带来客户数和单客户数和单客户ARRARR共同增长共同增长47关系型数据库迁移难点关系型数据库迁移难
102、点来源:互联网公开资料、弘则研究整理MongoDBMongoDB迁移工具迁移工具MongoDB自身提供专业的咨询和咨询服务以帮助客户迁移MongoDB大学提供相关迁移工具的课程埃森哲、Infosys等生态伙伴同样可以帮助客户搭建新的数据库体系心在远方,路在脚下MongoDBMongoDB持续推动客户数增长,成长空间巨大持续推动客户数增长,成长空间巨大48MongoDBMongoDB用户数(万家)用户数(万家)来源:互联网公开资料、弘则研究整理销售人员数量(人)销售人员数量(人)头部客户覆盖数(家)头部客户覆盖数(家)64 192 457 0 100 200 300 400 500 财富100财
103、富500财富2000394466789918%69%48%46%31%0%20%40%60%80%050002500FY18FY19FY20FY21FY22FY232.9 3.1 3.3 3.5 3.7 3.9 4.1 4.3 4.5 0.4 0.4 0.4 0.5 0.5 0.6 0.6 0.7 0.7 28%26%24%22%22%50%51%45%40%26%0%10%20%30%40%50%60%0 1 2 3 4 5 FY22Q2FY22Q4FY23Q2FY23Q4FY24Q2总客户数直销客户数总数yoy直销yoy直销收入占比直销收入占比8
104、4%85%86%87%86%87%88%88%88%70%75%80%85%90%FY22Q2FY22Q4FY23Q2FY23Q4FY24Q2直销客户是指通过直销团队和渠道合作伙伴销售的客户心在远方,路在脚下MongoDBMongoDB引导客户将更多负载迁移,以此推动单客户引导客户将更多负载迁移,以此推动单客户ARRARR提升提升49ARR$1mARR$1m客户数(家)客户数(家)来源:互联网公开资料、弘则研究整理MongoDBMongoDB客户三年客户三年ARRARR扩张情况扩张情况ARR$100kARR$100k客户数(家)客户数(家)100%195%100%200%100%211%0%5
105、0%100%150%200%250%第一年第三年ARR$100k客户ARR$1m客户平均ARRMongoDB从文档数据库起家,补充其他工作负载类型,比如搜索、时序等,包括在今年6月推出的向量搜索。同时,2016年推出Atlas,为客户提供更全面简单的云托管服务。以此引导客户将更多的工作负载迁移至MongoDB Atlas之上,推动ARR增长,平均ARR三年扩张一倍现阶段主要负载来源仍是传统关系型数据库在财富100强和500强的数据库IT投入中,MongoDB目前仅占1.8%和1.7%Net ARR Expansion Rate高于120%1,126 1,201 1,307 1,379 1,46
106、2 1,545 1,651 1,761 1,855 30%29%26%28%27%24%25%26%27%28%29%30%31%0 500 1,000 1,500 2,000 FY22Q2FY22Q4FY23Q2FY23Q4FY24Q242 62 98 164 213 48%58%67%30%0%10%20%30%40%50%60%70%0 50 100 150 200 250 FY19FY20FY21FY22FY23心在远方,路在脚下生成式生成式AIAI的出现的出现在需求侧和供给侧共同给在需求侧和供给侧共同给MongoDBMongoDB带来正向的增带来正向的增长驱动力长驱动力50生成式生成
107、式AIAI对于对于需求侧的影响需求侧的影响来源:互联网公开资料、弘则研究整理生成式生成式AIAI对于迁移工具的帮助对于迁移工具的帮助训练训练推理推理C C端端B B端端训练不需要对原数据集进行保存,形成的知识会训练不需要对原数据集进行保存,形成的知识会以参数文件的形式进行存储,想要调用大模型可以参数文件的形式进行存储,想要调用大模型可通过一段通过一段PythonPython代码读取参数文件即可代码读取参数文件即可企业内部应用多采用嵌入而非微调的方式企业内部应用多采用嵌入而非微调的方式以节省成本,内部知识数据会存储在向量以节省成本,内部知识数据会存储在向量数据库中,供通用数据库中,供通用/行业大
108、模型进行调用行业大模型进行调用以与企业用户交互以与企业用户交互不管不管C/BC/B端推理场景,多轮对话场景必须要用到向量数据库以保存对话内容,在未来重新开启对话时才会有端推理场景,多轮对话场景必须要用到向量数据库以保存对话内容,在未来重新开启对话时才会有“记记忆忆”。数据库用量会随着对话数据量同向增长。数据库用量会随着对话数据量同向增长迁移工具功能迁移工具功能具体能力具体能力进展进展SQLSQL查询转换查询转换 从连接的关系数据库中导入存储过程和嵌入式SQL查询 迁移工具使用生成式AI将这些转换为MongoDB查询 根据在迁移工具中设计的架构创建MongoDB查询开发中开发中AIAI重写代码重
109、写代码评估:搜索并理解代码库,以了解重构应用程序所涉及的努力和风险代码转换:建议应用程序代码与应用程序架构建议一同使用,以最大限度地利用MongoDB测试:验证转换后的应用程序在MongoDB上的表现是否符合预期未来提供未来提供心在远方,路在脚下MongoDBMongoDB在今年在今年6 6月推出向量相似性搜索功能月推出向量相似性搜索功能Atlas Vector SearchAtlas Vector Search51来源:互联网公开资料、弘则研究整理MongoDB Atlas Vector SearchMongoDB Atlas Vector SearchMongoDB Atlas Vecto
110、r SearchMongoDB Atlas Vector Search心在远方,路在脚下MongoDBMongoDB在今年在今年6 6月推出向量相似性搜索功能月推出向量相似性搜索功能Atlas Vector SearchAtlas Vector Search52来源:互联网公开资料、弘则研究整理部署和使用流程部署和使用流程红色为部署流程红色为部署流程将各种源数据(文本、代码、图片或视频等)转成向量数据(市面上有很多向量化处将各种源数据(文本、代码、图片或视频等)转成向量数据(市面上有很多向量化处理工具)理工具)“嵌入嵌入”向量数据并存储源数据,向量数据和源数据类似键值对,一一对应存储向量数据并
111、存储源数据,向量数据和源数据类似键值对,一一对应存储构建对应的提示工程构建对应的提示工程黄色为使用流程黄色为使用流程在应用端进行自然语言提问(在应用端进行自然语言提问(LangChainLangChain技术框架会做规则判断和逻辑编排,判定是否技术框架会做规则判断和逻辑编排,判定是否需要调用向量数据库进行回答)需要调用向量数据库进行回答)若不需要,则直接由大模型回答或进行互联网搜索回答;若需要用到内部知识,则向若不需要,则直接由大模型回答或进行互联网搜索回答;若需要用到内部知识,则向量化工具将提问向量化量化工具将提问向量化在向量数据库中进行向量相似性搜索在向量数据库中进行向量相似性搜索找到对应
112、的内部知识源数据作为论据支撑找到对应的内部知识源数据作为论据支撑反馈到大模型进行生成式回答反馈到大模型进行生成式回答具体应用场景具体应用场景索引文本/图像/声音/视频、通过专有的增量数据增强基础LLMs并减少幻觉、问答系统、改进的推荐和相关性评分、动态个性化、对话式支持、同义词生成等心在远方,路在脚下MongoDBMongoDB全订阅收入,营收增速中枢在全订阅收入,营收增速中枢在40%40%,经营性现金流比例,经营性现金流比例改善明显,公司指引长期改善明显,公司指引长期Non-GAAP OP Margin 20%+Non-GAAP OP Margin 20%+53MongoDBMongoDB订
113、阅业务营收(亿美元)订阅业务营收(亿美元)来源:互联网公开资料、弘则研究整理MongoDBMongoDB经营性现金流比例经营性现金流比例MongoDBMongoDB毛利率毛利率MongoDBMongoDB费用率费用率1.41 2.48 4.00 5.65 8.42 12.35 3.55 4.09 76%61%41%49%47%29%40%92%93%95%96%96%96%96%97%0%20%40%60%80%100%02468101214FY18FY19FY20FY21FY22FY23 FY24Q1FY24Q2订阅营收yoy订阅占比67%78%79%78%77%75%74%74%77%78
114、%83%-60%-40%-20%0%20%40%60%80%100%FY15FY17FY19FY21FY23FY24Q2整体毛利率订阅服务-51%-37%-35%-35%-33%-27%-38%-20%-13%-4%1%5%-60%-50%-40%-30%-20%-10%0%10%FY18FY19FY20FY21FY22FY23GAAP OP MarginNon-GAAP OP Margin75%46%30%11%-9%-100%-50%0%50%100%FY17FY19FY21FY23FY24Q2毛利率S&MR&DG&A净利率心在远方,路在脚下MongoDBMongoDB连续两季度超预期,并
115、上调全年收入指引连续两季度超预期,并上调全年收入指引54来源:互联网公开资料、弘则研究整理FY24Q1FY24Q1收入和客户数超预期,上调全年预期收入和客户数超预期,上调全年预期本季度公司实现营业收入3.68亿美元(+29%),超出华尔街预期的3.47亿美元元,订阅收入为3.547亿美元,同比增长29%,Atlas收入增长40%;客户数达到43,100个,超出华尔街预期的42,430个业绩展望:业绩展望:预计全年实现收入15.22-15.42亿美元FY24Q2FY24Q2收入超预期,上调全年预期收入超预期,上调全年预期本季度公司实现营业收入4.24亿美元(+40%),大幅超出此前3.88-3.
116、92亿美元(+28%)的指引,主要由于非Atlas业务(EA和许可授权)的强劲表现,以及略好于预期的Atlas收入表现。实现毛利率78%(+5pcts),主要由于毛利极高的EA和许可授权收入(包括阿里续签)大幅超预期。实现Non-GAAP营业利润7910万美元,对应op margin 19%(+23pcts),亦大幅超出此前3600-3900万美元的指引。客户数超过45,000个,环比增加1900个客户,同比增加8,000个。其中,直销客户6800个,同比增加1,400个业绩展望:业绩展望:公司预计Q3将实现收入4-4.04亿美元(+21%),实现Non-GAAP营业利润4100-4400万美
117、元;预计全年实现收入15.96-16.08亿美元(+26%),较此前15.22-15.42亿美元显著提升。主要反映Q3起始ARR的提升,并继续预计Atlas的增长将受到困难宏观环境的影响,预计用量增长将与去年Q2放缓后的平均水平相符,但在Q3有轻微的季节性收益AIAI用例:用例:向量数据库处于预览阶段,但已经看到大型客户的极大兴趣,包括某咨询公司允许顾问在超过150万份专家纪要中进行语义检索心在远方,路在脚下数据管理软件市场空间千亿美元,数据管理软件市场空间千亿美元,MongoDBMongoDB单客户单客户ARRARR和客户和客户数共同提升推动增长数共同提升推动增长55来源:互联网公开资料、弘
118、则研究整理IDCIDC测算测算数据管理软件市场规模(十亿美元)数据管理软件市场规模(十亿美元)MongoDBMongoDB占客户数据库投入占比占客户数据库投入占比4549546472869%10%19%13%13%15%14%14%12%0%4%8%12%16%20%0408000222023 2024E 2025E 2026E 2027E1.8%98.2%财富财富100100强强MDB其他1.7%98.3%财富财富500500强强MDB其他单客户单客户ARRARR客户数客户数公司战略:公司战略:1)向量数据库等新产品推出;2)
119、AI加持的数据库迁移工具和代码重写工具;3)持续扩充销售和客户成功团队行业行业:1)生成式AI带来应用爆发和向量数据库需求;2)客户持续转移本地IT架构向多云端混合部署迁移;3)客户内部应用数量随着业务和地域扩张而增长带来数据库使用量增长公司战略:公司战略:1)持续扩充销售团队并支持开发者生态以进行触达并转化免费客户心在远方,路在脚下ElasticElasticsearchsearch是专为搜索和分析场景优化的文档型搜索引擎是专为搜索和分析场景优化的文档型搜索引擎56ElasticElastic发展历程发展历程来源:互联网公开资料、弘则研究整理2002000 0年年Shay Banon最初为了
120、帮妻子搜索烹饪博客而开发了名为 Compass 的项目。第二个迭代版本就是Elasticsearch20201212年年Banon、Sissel和Khan将自己的Elasticsearch、Logstash(可插拔数据采集工具)和Kibana(开源UI)合并成ELK Stack,Elastic公司成立20201515年年解决了过去Stack中三个产品版本不统一的问题,降低兼容性复杂程度。同时发布Beats 1.0,(轻量化数据传送工具以连接边缘端和Stack)20201515年年年底发布Elastic Cloud,在AWS上推出服务20201616年年发布5.0版本,将所有商用插件整合为单一扩
121、展X-Pack,包括security、monitoring、alerting和ML等功能20201717年年Elastic Cloud Enterprise发布,简化企业的管理和编排工作2012018 8年年纽交所上市心在远方,路在脚下目前形成搜索分析、日志记录、安全性和分析用例、数据可视化目前形成搜索分析、日志记录、安全性和分析用例、数据可视化的整套数据解决方案的整套数据解决方案57ElasticElastic产品矩阵产品矩阵来源:互联网公开资料、弘则研究整理ELK Stack由几个创始人的产品合并;Beat项目于2015年启动,目的是简化从各种数据源收集和传输数据的过程商业组件x-pack
122、包括后期收购公司的产品能力,形成完整解决方案Elastic在2015年收购了Found,这是一家提供Elasticsearch托管服务的公司,这次收购后来促成了Elastic Cloud的发展心在远方,路在脚下ELK StackELK Stack的结合为用户提供实时大数据分析解决方案,后期的结合为用户提供实时大数据分析解决方案,后期通过通过收购进一步补齐能力收购进一步补齐能力58ElasticElastic功能延展功能延展来源:互联网公开资料、弘则研究整理收购标的收购标的功能功能LogstashLogstash(20122012)开源可插拔数据采集工具,后成为ELK Stack的一部分Kiba
123、naKibana(20122012)开源UI,主要用于数据可视化,后成为ELK Stack的一部分FoundFound(20152015)基于AWS提供主机托管服务,后基于此推出Elastic Cloud SaaS产品系列PrelertPrelert(20162016)机器学习算法分析数据,自动检测系统中异常行为和潜在的安全威胁SwiftypeSwiftype(20172017)基于云的搜索平台,可以轻松地在网站和应用程序中集成。后期发展成为Elastic Cloud中的Elastic App搜索服务和Elastic网站搜索服务最初的商业化阶段是优先引导用户的日志系统导入到Elastic上,1
124、)日志是产生数据较多的地方,2)日志系统相比主要业务系统对业务影响不大。ELK构成了最基础的实时大数据分析最初合并之时,三大产品的工程师团队各自为战,导致版本发布、兼容十分混乱:“如果想使用Shield,您需要使用Elasticsearch 1.4.2但前提是您不能使用Watcher。如果使用Watcher的话,则您需要使用Elasticsearch 1.5.2。而如果您使用Elasticsearch 1.5.2的话,其仅能与Kibana 4.0.x、Logstash 1.4.x、Shield 1.2.x和Watcher 1.0.x兼容。”该问题于2015年被解决后续收购Found、Prele
125、rt和Swiftype等公司,逐渐形成现有的更完整的数据解决方案比如github、stackoverflow等网站的搜索都是基于elasticsearch心在远方,路在脚下目前形成搜索分析、日志记录、安全性和分析用例、数据可视化目前形成搜索分析、日志记录、安全性和分析用例、数据可视化的整套数据解决方案的整套数据解决方案59ElasticElastic解决方案特性解决方案特性来源:互联网公开资料、弘则研究整理特性特性功能功能搜索搜索搜索应用搜索应用为网站或App带来精细的API集和直观的仪表板。客户可以直接在Elasticsearch之上构建,或使用Elastic应用程序搜索框架快速构建和定制搜
126、索应用程序工作区搜索工作区搜索客户可以部署内部工作区搜索,无缝连接到其他生产力工具、CRM、云存储平台、协作工具、操作管理平台和内容管理系统,可以从更多的来源摄取任何类型的内容可观测性可观测性日志日志大规模索引、搜索和分析结构化和非结构化日志,可视化从日志中提取的信息,以了解系统行为和趋势,优化性能指标指标指标摄取、搜索、可视化和分析来自IT系统的数字和时间序列数据,包括应用程序、数据存储、主机、容器、云基础设施等APMAPMAPM提供了对代码级别应用程序性能的洞察。开发人员可以对应用程序进行检测,并看到事务在服务之间从前端到后端的生命周期合成监控合成监控客户和用户利用合成监控来跟踪和监控支持
127、业务运营的主机、网站、服务和应用程序端点的可用性。通过主动监控,客户可以在终端用户报告之前检测到故障组件安全安全安全信息和安全信息和事件管理事件管理Elastic SIEM自动化威胁检测和修复,通过预建的Elastic Agent和Beats集成,SIEM可以从云、网络、端点、应用程序和其他系统摄取数据端点安全端点安全将预防、检测和响应结合成一个单一的、自主的代理,甚至可以在隔离的环境中运行。端点安全包括对勒索软件、恶意软件、网络钓鱼、漏洞利用、无文件攻击和其他威胁的保护XDRXDR当SIEM和端点安全一起部署时,它们提供了强大的安全姿态和对潜在威胁的广泛可见性。XDR提供了一个统一的安全堆栈
128、,保护端点、云和更广泛的环境云安全云安全云安全通过丰富的云姿态可见性和对云工作负载的运行时保护,保护云部署,具有预防、检测和响应能力,所有这些都集成在一个解决方案中心在远方,路在脚下Elastic CloudElastic Cloud云托管云托管定价定价60Elastic CloudElastic Cloud定价定价来源:互联网公开资料、弘则研究整理最低价测算基于云生产配置,120 GB 存储空间/2 个区域。按实例类型使用量定价心在远方,路在脚下订阅收入超订阅收入超90%90%,分为自管型本地部署订阅和全托管云订阅,全,分为自管型本地部署订阅和全托管云订阅,全托管云订阅(托管云订阅(Elas
129、tic CloudElastic Cloud)占比超)占比超40%40%61来源:互联网公开资料、弘则研究整理ElasticElastic营业收入营业收入(亿美元)(亿美元)ElasticElastic分业务收入增速分业务收入增速ElasticElastic分业务营收(亿美元)分业务营收(亿美元)Elastic CloudElastic Cloud收入占比收入占比2.023.004.015.005.610.460.921.662.994.240.230.350.410.640.84024681012FY19FY20FY21FY22FY23自管型云托管型服务0%10%20%30%40%50%FY
130、19FY20FY21FY22FY23占总收入比占订阅收入比48%34%25%12%101%80%80%42%0%20%40%60%80%100%120%FY19FY20FY21FY22FY23自管型yoy云托管型yoy服务yoy2.724.286.088.6210.6957%42%42%24%00.10.20.30.40.50.6024681012FY19FY20FY21FY22FY23营业收入营收yoy心在远方,路在脚下客户数和客户数和ACVACV价值量共同驱动增长价值量共同驱动增长62来源:互联网公开资料、弘则研究整理ElasticElastic客户数(家)客户数(家)ACV$10KACV
131、$10K客户数(家)客户数(家)ACV$100KACV$100K客户数(家)客户数(家)Net Expansion RateNet Expansion Rate2,800 5,000 8,100 11,300 15,000 18,600 20,200 79%62%40%33%24%9%0%10%20%30%40%50%60%70%80%90%05000000025000FY17FY18FY19FY20FY21FY22FY23心在远方,路在脚下ElasticElastic官方从官方从20182018年开始支持向量检索功能,年开始支持向量检索功能,2323年年5 5月推出月推
132、出ESREESRE(Elasticsearch Relevance EngineElasticsearch Relevance Engine)63ElasticsearchElasticsearch向量检索功能的发展历程向量检索功能的发展历程来源:互联网公开资料、弘则研究整理5.x5.x版本中社区开发者开发的向量检索插件版本中社区开发者开发的向量检索插件20201616年年5.x版本中,爱好者们开始尝试通过插件和数学运算实现向量检索功能。一些早期插件如elasticsearch-vector-scoring、fast-elasticsearch-vector-scoring20201818年年
133、Elasticsearch 7.0版本正式增加对向量字段的支持,例如通过dense_vector类型。这标志着Elasticsearch正式进入向量检索领域,不再只依赖于插件20201818年年Elasticsearch 7.3版本后,官方引入了更复杂的相似度计算方法,比如余弦相似度、欧几里得距离等20202323年年Elasticsearch 8.8版本的向量检索支持维度从1024提升至2048,并推出ESRE最初的向量检索插件主要用于基本的相似度查询,比如文本相似度计算7.3版本之后,引入了更复杂的相似度计算方法,提供更强大和灵活的相似度计算选项,主要场景在于:1)个性化推荐:通过余弦相似
134、度分析用户的行为和兴趣,提供更个性化的推荐内容;2)图像识别和搜索:使用欧几里得距离快速检索与给定图像相似的图像;3)声音分析:在声音文件之间寻找相似模式,用于语音识别和分析心在远方,路在脚下ESREESRE旨在使用旨在使用ElasticsearchElasticsearch作为底层存储和搜索技术作为底层存储和搜索技术,帮助开发人帮助开发人员构建员构建AIAI搜索应用程序搜索应用程序;FY24Q1FY24Q1已有数百家客户使用已有数百家客户使用64ElasticsearchElasticsearch一体化向量搜索引擎一体化向量搜索引擎来源:互联网公开资料、弘则研究整理作为8.8版本的一部分,E
135、SRE的所有功能会随 白金级套餐和企业级套餐一起提供业绩说明会引言:“FY24Q1,我们看到围绕生成式AI的大量活动,许多客户选择ESRE作为使用我们的向量搜索和混合搜索功能构建生成式AI应用程序的平台。例如,一家总部位于美国的财富100强全球媒体和技术公司已将ESRE与他们自己本地托管的大型语言模型集成,使他们的票务系统现在能够针对客户的问题提供上下文答案。目前有数百名付费目前有数百名付费客户使用客户使用 ESRE ESRE 进行向量搜索。进行向量搜索。”心在远方,路在脚下星环科技于星环科技于2323年年5 5月月发布向量数据库产品发布向量数据库产品65星环科技星环科技Transwarp H
136、ippoTranswarp Hippo向量数据库向量数据库来源:互联网公开资料、弘则研究整理核心组件核心组件特点特点TDDMSTDDMSTDDMS支持弹性扩缩容、自动故障恢复、权限控制、多租户与冷热数据分层存储等功能,多副本机制实现数据服务高可用并保证副本之间的数据一致性Vector EngineVector Engine支持海量向量数据的检索,具备高准确性与高性能的相似检索能力Embedding HubEmbedding Hub内置的向量转化工具,提供标准化接口连通各类大模型并实现数据的向量嵌入Model CubeModel Cube统一了模型生命周期中的模型上架、模型评估和模型部署,可纳管
137、多模态、多类型的模型,可提高模型的可维护性和可操作性心在远方,路在脚下向量数据库向量数据库HippoHippo将作为将作为TDHTDH中的中的SKUSKU之一进行商业化之一进行商业化66星环科技星环科技Transwarp Data HubTranswarp Data Hub大数据基础平台大数据基础平台来源:互联网公开资料、弘则研究整理TDH是公司自主研发的一站式大数据基础平台,包括多个大数据存储与分析产品,能够存储PB级别的海量数据,可以处理包括关系表、文本、时空地理、图数据、文档、时序、图像等在内的多种数据格式,提供高性能的查询搜索、实时分析、统计分析、预测性分析等数据分析功能目前TDH已经
138、在政府、金融、能源、制造业等十多个行业内落地,支撑如金融风控与营销、智慧制造、城市大脑、智慧交通等多种核心行业应用心在远方,路在脚下业务类别业务类别细分类别细分类别200202022223H123H1金额金额占比占比金额金额占比占比金额金额占比占比金额金额占比占比金额金额占比占比大数据大数据基础软件基础软件业务业务基础基础软件软件大数据与云基础平台软件大数据与云基础平台软件1.2974%1.3552%1.4644%1.3135%0.3324%分布式关系型数据库软件分布式关系型数据库软件0.011%0.041%0.144%0.318%0.107%数据开
139、发与智能分析工具软件数据开发与智能分析工具软件0.158%0.3212%0.4012%0.5214%0.2518%合计合计1.4583%1.7065%2.0060%2.1457%0.6850%技术服务技术服务0.2313%0.5320%0.6419%0.9225%0.3123%合计合计1.6896%2.2386%2.6480%3.0682%1.0072%应用与解决方案应用与解决方案数据应用解决方案数据应用解决方案0.042%0.3011%0.5416%0.6016%0.3123%业务应用解决方案业务应用解决方案0.010%0.010%0.010%0.043%合计合计0.042%0.3012%0
140、.5416%0.6116%0.3626%其他业务其他业务0.032%0.073%0.124%0.062%0.032%总计总计1.74100%2.60100%3.31100%3.73100%1.38100%实际业务中实际业务中TDHTDH可作为基础软件或包装成解决方案进行销售可作为基础软件或包装成解决方案进行销售67来源:互联网公开资料、弘则研究整理星环科技分业务营业收入(亿元)星环科技分业务营业收入(亿元)心在远方,路在脚下过去过去4 4年收入复合增速保持在年收入复合增速保持在30%30%以上,深耕行业和产品解决方案以上,深耕行业和产品解决方案推动公司成长推动公司成长68来源:互联网公开资料、
141、弘则研究整理1.13 1.74 2.60 3.31 3.73 2.23 1.14 1.77 2.49 3.52 3.30 2.35 30%12%-10%0%10%20%30%40%50%60%0920202021202223Q3 营业收入销售商品收到现金营收yoy现金yoy星环科技营业收入和现金流收入星环科技营业收入和现金流收入(亿元)(亿元)星环科技净利润和现金流净额(亿元)星环科技净利润和现金流净额(亿元)星环科技分业务增速星环科技分业务增速星环科技利润率和费用率星环科技利润率和费用率37%48%68%-200%0%200%400%20202021202223H1大数
142、据与云基础平台软件分布式关系型数据库软件数据开发与智能分析工具软件应用与解决方案-1.4-2.1-1.8-2.4-2.7-2.7-1.4-2.0-1.9-2.4-3.0-3.5-4-3-2-0202021202223Q359%-121%-2-20202021202223Q3毛利率销售费用率管理费用率研发费用率归母净利率2022年应用与解决方案业务毛利率4%,尚需经验积累;软件产品与技术服务毛利率保持在65%-70%水平心在远方,路在脚下高研发投入补全自研软件矩阵高研发投入补全自研软件矩阵69来源:互联网公开资料、弘则研究整理心在远方,路在脚下可比公司
143、研发人效及毛利率可比公司研发人效及毛利率70来源:互联网公开资料、弘则研究整理可比公司人效(万元、万美元)可比公司人效(万元、万美元)销售销售研发研发总数总数年份年份营收营收净利润净利润薪酬薪酬人员人员薪酬薪酬人均人均创收创收人均人均创利创利人均人均薪酬薪酬人员人员薪酬薪酬人均人均创收创收人均人均创利创利人均人均薪酬薪酬总人员总人员总人均总人均创收创收总人均总人均创利创利总人均总人均薪酬薪酬星环科技星环科技2019201917,425-21,135 27,247 38210,334 46-55 27 2119,211 83-100 44 72024-29 38 2020202025,999-1
144、8,434 32,282 50111,250 52-37 22 2159,393 121-86 44 78833-23 41 2021202133,086-24,468 44,935 62215,839 53-39 25 27112,206 122-90 45 1,02432-24 44 2022202237,262-27,135 52,673 60616,528 61-45 27 35416,858 105-77 48 1,08834-25 48 MongoDBMongoDB2019201942,172-17,552 78953-22 47689-37 1,81323-10 20202020
145、59,038-26,694 1,17150-23 63893-42 2,53923-11 2021202187,378-30,687 1,71351-18 863101-36 3,54425-9 20222022128,404-34,540 2,24957-15 1,030125-34 4,61928-7 ElasticsearchElasticsearch2019201942,762-16,717 1,936 22-9 2020202060,849-12,943 2,179 28-6 2021202186,237-20,385 2,978 29-7 20222022106,899-23,61
146、6 2,886 37-8 62%61%58%59%57%55%65%75%200212022星环科技MongoDBElastic 弘则弥道(上海)投资咨询有限公司公司地址:上海市浦东新区世纪大道210号21世纪中心大厦1206室欢迎指正欢迎指正T H A N K S,不会仅因接收人/接受机构收到本报告而将其视为客户。本报告根据国际和行业通行的准则,以合法渠道获得这些信息,尽可能保证可靠、准确和完整,但并不保证报告所述信息的准确性和完整性,也不保证本报告所包含的信息或建议在本报告发出后不会发生任何变更。本报告中所提供的信息仅供参考。报告中的内容不对投资者做出的最终操作建议做任何的担保,也没有任何形式的分享投资收益或者分担投资损失的书面或口头承诺。不作为客户在投资、法律、会计或税务等方面的最终操作建议,也不作为道义的、责任的和法律的依据或者凭证,无论是否已经明示或者暗示。在任何情况下,本公司不对客户/接受人/接受机构因使用报告中内容所引致的一切损失负责任,客户/接受人/接受机构需自行承担全部风险。免责声明免责声明