《计算机行业AI深度报告:向量数据库AI时代的Killer App-230508(31页).pdf》由会员分享,可在线阅读,更多相关《计算机行业AI深度报告:向量数据库AI时代的Killer App-230508(31页).pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 计算机计算机 发布时间:发布时间:2023-05-08 优于大势优于大势 上次评级:优于大势 历史收益率曲线 涨跌幅(%)1M 3M 12M 绝对收益-13%7%36%相对收益-11%10%36%Table_Market 行业数据 成分股数量(只)348 总市值(亿)43421 流通市值(亿)35535 市盈率(倍)139.75 市净率(倍)4.28 成分股总营收(亿)11513 成分股总净利润(亿)319 成分股资产负债率(%)41.14 相关报告 技术变革带动机构持仓回归超配-20230426 证券分析师:黄净证券分析师:黄净 执业
2、证书编号:S0550522010001 研究助理:吴雨萌研究助理:吴雨萌 执业证书编号:S0550122040013 证券研究报告/行业深度报告 向量数据库:向量数据库:AI 时代的时代的 Killer App-AI 深度报告深度报告 报告摘要:报告摘要:我们认为向量数据库是我们认为向量数据库是 AI 时代的时代的 Killer App。AI 时代一切 AI 化,而AI 化的本质则是向量化。向量化计算成本高昂,海量的高维向量势必需要专门的数据库进行存储和处理,向量数据库应运而生。向量数据库在拓展 AI 全新应用场景的同时,也将对传统数据库产品形成
3、替代,进而成为 AI 时代的 Killer App。向量数据库是专门用来存储和查询向量的数据库。向量数据库是专门用来存储和查询向量的数据库。其存储的向量来自于对文本、语音、图像、视频等的向量化。同传统数据库相比,向量数据库不仅能够完成基本的 CRUD(添加、读取查询、更新、删除)等操作,还能够对向量数据进行更快速的相似性搜索,商业价值提升明显。向量数据库给向量数据库给 AI 插上腾飞的翅膀。向量数据库可以大幅度拓展大模型插上腾飞的翅膀。向量数据库可以大幅度拓展大模型的时间边界和空间边界。的时间边界和空间边界。目前的大模型都是预训练模型,对于训练截止日之后发生的事情一无所知。向量数据库可以通过存
4、储最新信息后给大模型访问来弥补这点不足。此外,通过向量数据的本地存储,向量数据库能够协助解决目前企业界最担忧的大模型泄露隐私的问题。向量数据向量数据库还自带多模态功能库还自带多模态功能,能够实现用中文搜索英语图书、用俄文搜索图片内容等操作。向量数据库的近似搜索能力能够给向量数据库带来巨大的向量数据库的近似搜索能力能够给向量数据库带来巨大的商业化潜力商业化潜力。例如 Tokopedia 就已经部署了向量数据库进行近似搜索,提升了 10 x 智能化水平。向量数据库市场空间巨大,向量数据库市场空间巨大,目前目前处于从处于从 0-1 阶段。阶段。我们预测到 2030 年,全球向量数据库市场规模有望达到
5、 500 亿美元,国内向量数据库市场规模有望超过 600 亿人民币。全球范围内来看,目前向量数据库以初创公司为主,包括 Pinecone、Milvus、Weaviate、Vespa 等。投资建议:投资建议:建议关注国内具有向量化计算、向量搜索、向量化执行引擎等技术储备的公司,相关标的如云天励飞、星环科技、创意信息、中亦科技、佳华科技、海量数据、科蓝软件等。风险提示:风险提示:1)向量数据库处于萌芽阶段,就算是美国也没有成熟的上市公司,并且目前向量数据库有多种技术路线的选择,发展仍然有较大的不确定性;2)国内成熟产品集中在初创公司,上市公司需要奋起直追;3)尽管存在开源产品,但是目前海外 VC、
6、互联网巨头已经纷纷入场,竞争压力恐快速提升。-20%-10%0%10%20%30%40%50%60%70%2022/52022/8 2022/11 2023/2计算机沪深300请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 2/31 计算机计算机/行业深度行业深度 目目 录录 1.向量数据库是什么:存储向量的数据库向量数据库是什么:存储向量的数据库.41.1.向量:AI 的核心.41.2.向量化:技术已经充分扩散.61.3.向量数据库:专门用来存储和查询向量的数据库.82.向量数据库有什么用:给向量数据库有什么用:给 AI 插上腾飞的翅膀插上腾飞的翅膀.112.1.拓展大模型的边界:
7、向量数据库的核心应用.112.2.多模态搜索:向量数据库的拿手好戏.122.3.近似搜索:给向量数据库带来巨大的商业化潜力.143.市场空间:向量数据库五百亿美元蓝海市场待引爆市场空间:向量数据库五百亿美元蓝海市场待引爆.164.全球主流向量数据库介绍全球主流向量数据库介绍.204.1.Pinecone.20 4.2.Milvus.22 4.3.Vespa.24 4.4.Weaviate.24 4.5.Qdrant.26 5.国内二级市场相关标的国内二级市场相关标的.286.风险提示风险提示.29图表目录图表目录 图图 1:CNN 模型也是把图像向量化之后进行处理模型也是把图像向量化之后进行处
8、理.5 图图 2:深度学习算法将万物转化为向量:深度学习算法将万物转化为向量.6 图图 3:部分向量化框架:部分向量化框架.7 图图 4:向量数据库与其他非关系型数据库的对比:向量数据库与其他非关系型数据库的对比.8 图图 5:向量数据库常见工作流程:向量数据库常见工作流程.9 图图 6:向量搜索工作原理:向量搜索工作原理.9 图图 7:未来向量数据库的技术栈:未来向量数据库的技术栈.10 图图 8:OpenAI 泄露隐私数据泄露隐私数据.12 图图 9:使用向量数据库用中文搜索英语图书:使用向量数据库用中文搜索英语图书.13 图图 10:用俄语基于图片理解来进行搜索(:用俄语基于图片理解来进
9、行搜索(“蓝色的鞋子蓝色的鞋子”).13 图图 11:传统的关键词搜索太表层:传统的关键词搜索太表层.15 图图 12:公司采用了成熟的:公司采用了成熟的 Mishards 中间件中间件.15 图图 13:2010-2025 年全球创建、使用和存储的数据量变化(年全球创建、使用和存储的数据量变化(ZB).16 图图 14:2017-2026E 年全球数据库市场规模变化(亿美元)年全球数据库市场规模变化(亿美元).16 图图 15:2019 年关系型与非关系型数据库用户规模(年关系型与非关系型数据库用户规模(%).17 图图 16:2022 年关系型与非关系型数据库市场份额(年关系型与非关系型数
10、据库市场份额(%).17 图图 17:2017-2022 年关系型及非关系型数据库规模及增速(百万美元,年关系型及非关系型数据库规模及增速(百万美元,%).17 图图 18:中国与全球数据产生量及占比(:中国与全球数据产生量及占比(ZB,%).18 图图 19:中国与全球数据库市场规模及占比(亿美元,亿元,:中国与全球数据库市场规模及占比(亿美元,亿元,%).18 图图 20:中国数据库市场规模及增速(亿元,:中国数据库市场规模及增速(亿元,%).19 图图 22:Pinecone 向量数据库结构向量数据库结构.21 图图 21:Milvus 向量数据库生态和社区布局向量数据库生态和社区布局.
11、22 图图 22:Milvus 向量数据库架构向量数据库架构.23 图图 23:Vespa 向量数据库架构向量数据库架构.24 图图 24:Weaviate 向量数据库架构向量数据库架构.25 图图 25:Qdrant 向量数据库架向量数据库架构构.26 4WhU3UnVcV5XjW2ViYdU8OaO9PtRmMsQsRlOrRnQlOrRyR8OrQmMMYtRqNNZnPmP 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 3/31 计算机计算机/行业深度行业深度 表表 1:全球向量数据库信息汇总:全球向量数据库信息汇总.20 表表 2:Pinecone 向量数据库设置索引分步
12、内容向量数据库设置索引分步内容.21 表表 3:Pinecone 融资情况汇总融资情况汇总.22 表表 4:Zilliz 一级市场融资情况汇总一级市场融资情况汇总.24 表表 5:Weaviate 一级市场融资情况汇总一级市场融资情况汇总.26 表表 6:Qdrant 一一级市场融资情况汇总级市场融资情况汇总.27 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 4/31 计算机计算机/行业深度行业深度 1.向量数据库向量数据库是什么:存储向量的数据库是什么:存储向量的数据库 1.1.向量:AI 的核心 AI 的全流程其实都是围绕着向量的数学运算。的全流程其实都是围绕着向量的数学运算
13、。向量在人工智能(AI)中扮演着非常重要的角色,尤其在机器学习和深度学习领域。以下是向量与 AI 的一些关系(来自 OpenAI):1、数据表示:在机器学习和深度学习中,数据通常以向量形式表示。例如,图像可以表示为像素值的向量,文本可以表示为词向量或句子向量;2、词嵌入:在自然语言处理(NLP)中,词嵌入技术(如 Word2Vec,GloVe 和 BERT)将词语转换为多维向量,这有助于捕捉词语之间的语义关系。这些向量表示可用于文本分类、情感分析、机器翻译等任务;3、神经网络权重:在深度学习中,神经网络的权重和偏置通常以向量和矩阵的形式存储。在训练过程中,优化算法(如梯度下降)会不断更新这些权
14、重向量,以最小化损失函数;4、向量运算:许多机器学习算法,如支持向量机(SVM)、K-近邻(KNN)和主成分分析(PCA)等,都涉及到向量间的距离计算、内积计算或其他向量运算。这些运算有助于找到数据中的模式或者对数据进行分类;5、优化和梯度:在机器学习和深度学习中,优化算法(如梯度下降和 Adam)通常使用梯度(一种向量),来更新模型参数,从而找到损失函数的最小值。这有助于改进模型的性能;6、强化学习:在强化学习中,智能体使用向量表示状态和动作。例如,Q 学习和深度 Q 网络(DQN)中的 Q 值函数会输出一个动作向量,智能体根据这个向量选择最佳动作。总之,向量对于 AI 至关重要。无论是之前
15、的 CNN、RNN 模型还是当前火热的Transformer,内部的数据流转其实都是向量的处理和变化。而高维空间向量所隐含的海量信息也造就了 AI 应用的非凡潜力。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 5/31 计算机计算机/行业深度行业深度 图图 1:CNN 模型模型也是把图像向量化之后进行处理也是把图像向量化之后进行处理 数据来源:ImageNet,东北证券 单就数据而言,只有向量化之后的数据才能被单就数据而言,只有向量化之后的数据才能被 AI 模型所分析。模型所分析。数据能够被分类为结构化数据和非结构化数据,其中,结构化数据结构化数据一般指可以使用关系型数据库表示和存
16、储、可以用二维表来逻辑表达实现的数据,典型的结构化数据例如成绩单、工资单等;非结构化数据非结构化数据没有固定的结构,包括文本、图像、蛋白质结构、地理空间信息和物联网数据流等。在人工智能时代,目前主流的对非结构化数据进行管理和目前主流的对非结构化数据进行管理和处理的方法是,利用处理的方法是,利用 RNN 或或 Transformer 等嵌入模型(等嵌入模型(Embedding Model),将非),将非结构化数据的语义内容转化为高维、密集的向量嵌入结构化数据的语义内容转化为高维、密集的向量嵌入(Vector Embeddings),即多维向量,并直接对这些嵌入进行存储、处理。非结构化数据转化为嵌
17、入后,其语义的相似性能够通过向量空间点的距离进行量化表示,并进行常见的机器学习操作,如聚类、分类、推荐等。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 6/31 计算机计算机/行业深度行业深度 图图 2:深度学习算法将万物转化为向量:深度学习算法将万物转化为向量 数据来源:Pinecone 官网,东北证券 1.2.向量化:技术已经充分扩散 向量化技术已经十分成熟,并且存在大量的开源解决方案。向量化技术已经十分成熟,并且存在大量的开源解决方案。尽管向量化这个词对于大多数普通民众而言较为陌生,但实际该技术早已成熟(目前大量应用的 Word2Vec发表在 2013 年),在不同的领域,存
18、在不同的向量化的方案。需要注意的是,不同的领域,如文字、图片、视频等,向量化的技术是不同的。这些技术可以是诸如OpenAI 等大模型厂商提供,也可以是诸如 Hugging Face 等中间层提供,当然还有大量第三方厂商/开源提供。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 7/31 计算机计算机/行业深度行业深度 图图 3:部分向量化框架部分向量化框架 数据来源:东北证券 以下是一个向量化的例子。以下是一个向量化的例子。例如,对于“我喜欢吃苹果”这句话的向量化,我们可以为每个不同的词语分配一个唯一的数字 ID。以下是一个可能的映射关系:我:1 喜欢:2 吃:3 苹果:4 接下来,
19、我们可以用这些数字 ID 来表示每个句子。例如,句子“我喜欢吃苹果”可以表示为向量1,2,3,4。这样,我们就可以将这些向量输入到机器学习模型中进行训练和预测。然而,这种方法存在一些问题。例如,这些向量并没有捕捉到词语这些向量并没有捕捉到词语之间的语义关系之间的语义关系。为了解决这个问题,我们可以使用词嵌入技术,如 Word2Vec 或GloVe。这些方法会将每个词语表示为一个固定长度的向量(如 50 维),这些向量可以捕捉词语之间的相似性。例如,我们可能得到以下的词向量:我:0.1,0.3,-0.2,.,-0.1 喜欢:-0.3,0.5,0.2,.,0.4 吃:0.4,-0.1,0.2,.,
20、-0.3 苹果:-0.5,0.2,0.1,.,0.3 这些词向量可以通过训练预先处理大量文本数据得到。然后,我们可以将句子中的每个词替换为对应的词向量,从而得到一个向量化表示的句子。向量化数据有着高昂的向量化数据有着高昂的计算计算成本成本,因此寻求存储,因此寻求存储成本成本替代是必须的替代是必须的。向量化数据的计算成本主要来自数据预处理、特征提取和向量化表示的生成。这些过程通常涉及大量复杂数学运算,如矩阵乘法、特征变换和统计计算等。在处理大规模数据集和高维数据时,这些运算可能会消耗大量的计算资源和时间。此外,许多机器学习和深度学习算法都需要对向量化数据进行复杂的计算,如梯度下降、聚类和神经网络
21、训练。这些计算任务通常需要强大的硬件支持,如高性能 CPU 和 GPU,以及专用请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 8/31 计算机计算机/行业深度行业深度 的深度学习加速器。相比之下,存储成本主要受向量化数据的规模和维度影响。虽然高维向量和大规模数据集确实会导致存储需求的增加,但存储技术的不断发展使得存储成本相对较低。例如,现代硬盘和固态硬盘的存储容量越来越大,同时价格也逐渐降低。此外,通过使用稀疏向量表示和数据压缩技术,我们可以进一步降低存储成本。更重要的是,随着云计算技术的普及,企业和个人用户可以按需购买存储空间,使得存储成本变得更加可承受。相比之下,计算资源的按需
22、购买通常价格较高,尤其是在需要强大计算能力的场景中。综上所述,向量化数据所需的计算成本远高于存储成本。这主要是因为计算任务通常涉及大量复杂数学运算,而存储成本可以通过优化技术和云计算服务得到有效控制。1.3.向量数据库:专门用来存储和查询向量的数据库 向量数据库向量数据库是专门用来存储是专门用来存储和查询和查询向量的向量的数据库数据库。向量数据库是一种专门用于存储、管理、查询、检索向量向量(Vectors)的数据库,主要应用于人工智能、机器学习、数据挖掘等领域。同传统数据库相比,向量数据库不仅能够完成基本的 CRUD(添加、读取查询、更新、删除)、元数据过滤、水平缩放等操作,还能够对向量数据进
23、行能够对向量数据进行更快速的相似性搜索更快速的相似性搜索。目前 AI 主流的大模型如 Transformer、Clip、GPT 等均能够将文本、图像等非结构化数据转化为高维向量,而伴随大模型应用场景的扩展,这些高维向量数据的存储、检索将显著带动向量数据库的市场需求。图图 4:向量数据库与其他:向量数据库与其他非关系型数据库的对比非关系型数据库的对比 数据来源:Pinecone,东北证券 向量数据库的工作流程包括以下步骤:1、向量数据的存储:向量数据的存储:向量数据通常是高维的数值型数据,如图像特征向量、文本词向量等;向量数据库使用基于向量的存储结构,以便快速查询和处理;2、向量索引:向量索引:
24、向量数据库使用 PQ、LSH 或 HNSW 等算法为向量编制索引,并将向量映射到数据结构,以便更快地进行搜索;3、向量查询:向量查询:向量数据库将查询向量与数据库中的向量进行比较,从而找到最近邻的向量;4、查询结果的返回:查询结果的返回:向量数据库返回查询结果,通常包括与给定向量最相似的向量列表、向量之间的相似度得分等信息;该环节可以使用不同的相似性度量对最近邻重新排序。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 9/31 计算机计算机/行业深度行业深度 图图 5:向量数据库常见工作流程:向量数据库常见工作流程 数据来源:Pinecone,东北证券 向量数据库向量数据库能够通过能
25、够通过向量向量搜索搜索(Vector Search),实现更为高效、准确的执行和结),实现更为高效、准确的执行和结果输出。果输出。当前主流的数据库检索采用关键词搜索(Keyword Search)的方式,将搜索关键词与数据库中的值进行匹配,根据词汇相似性、单词出现的频率,得到输出结果。关键词检索的缺点在于,其对于语义相同、表达方式不同的文本理解能力较差,且不具备多模态或多语言的检索能力。向量搜索向量搜索利用神经网络模型,将对象(如文本和图像)和查询表示为高维向量,采用采用 K 近邻法(近邻法(KNN,K-Nearest Neighbor)或或近似临近算法(近似临近算法(ANN,Approxim
26、ate Nearing Neighbor),计算目标对象与数据库,计算目标对象与数据库中中向量嵌入的向量嵌入的距离(通常采用余弦距离、欧氏距离等方法)以表示两者的相似度距离(通常采用余弦距离、欧氏距离等方法)以表示两者的相似度,并按照向量的相似度进行排序,返回结果。同关键词搜索相比,向量搜索能够实现对语义更为精准的理解,在多模态、不同语言等环境下能够输出更为准确的结果。例如:英文的例如:英文的 Capital 可以指“可以指“资本资本”或者“首都”,“从中国去美国”和“从美国或者“首都”,“从中国去美国”和“从美国去中国”存在方向,去中国”存在方向,传统的数据库不能很好地解决这些问题。传统的数
27、据库不能很好地解决这些问题。图图 6:向量搜索工作原理:向量搜索工作原理 数据来源:Elastic,东北证券 向量数据库的主要特点和优势包括:向量数据库的主要特点和优势包括:1、高效的相似性搜索:向量数据库通过优化的索引结构和查询算法,能够在大规模向量数据集中快速地找到与给定查询向量相似的向量。这有助于实现实时或近实时的搜索和推荐功能;请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 10/31 计算机计算机/行业深度行业深度 2、灵活的向量表示:向量数据库通常支持各种向量表示方法,包括稠密向量(如词嵌入)和稀疏向量(如词袋模型和 TF-IDF)。这使得向量数据库可以处理各种类型的数据
28、,如文本、图像、音频和视频等;3、可扩展性:向量数据库通常具有良好的可扩展性,可以在多个计算节点上分布式存储和查询向量数据。这使得向量数据库可以应对大规模数据集和高并发查询的需求;4、高级查询功能:向量数据库通常提供丰富的查询功能,如相似性搜索、近似最近邻查询、向量加权查询等。这使得向量数据库在各种应用场景中具有较高的灵活性和实用性。图图 7:未来向量数据库的技术栈未来向量数据库的技术栈 数据来源:Pinecone,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 11/31 计算机计算机/行业深度行业深度 2.向量数据库有什么用:向量数据库有什么用:给给 AI 插上腾飞的翅
29、膀插上腾飞的翅膀 2.1.拓展大模型的边界:向量数据库的核心应用 向量数据库一个很重要的功能是拓展大模型的边界。边界又分为时间边界和空间边向量数据库一个很重要的功能是拓展大模型的边界。边界又分为时间边界和空间边界。界。时间边界的扩展指的是时间边界的扩展指的是向量数据库能够使得大模型向量数据库能够使得大模型 LLM 拥有“长期记忆”拥有“长期记忆”。众所周知,目前的大模型(无论是 NLP 领域的 GPT 系列还是 CV 领域的 ResNET 系列)都是预先训练 Pretrain 的大模型,有着非常明晰的训练截止日 Cut-off Date。这导致这些模型对于训练截止日之后发生的事情一无所知。而信
30、息的价值随着时间的流逝呈现出指数级下降,这也使得 LLM 在很多场景的适用性有限。随着向量数据库的引入,其内部存储的最新的信息向量能够极大地拓展大模型的应用边界。向量数据向量数据库可以使得大模型保持准实时性,提高大模型的适用性,并使得大模型能够动态调库可以使得大模型保持准实时性,提高大模型的适用性,并使得大模型能够动态调整。整。也就是说,也就是说,向量数据库使得向量数据库使得大模型的长期记忆得到了可能大模型的长期记忆得到了可能。例如,假设一个预训练的新闻摘要模型在 2021 年底完成了训练。然而,到了 2023年,许多新闻事件和趋势已经发生了变化。为了使大模型能够处理这些新信息,可以使用向量数
31、据库来存储和查询 2023 年的新闻文章向量。通过这种方式,大模型可以根据最新的数据生成更准确和相关的摘要。同样,在推荐系统中,预训练的大模型可能无法识别新用户和新产品的特征。通过向量数据库,可以实时更新用户和产品的特征向量,从而使大模型能够根据最新的信息为用户提供更精准的推荐。此外,向量数据库还可以支持实时监测和分析。例如,在金融领域,预训练的股票预测模型可能无法获取训练截止日期之后的股票价格信息。通过将最新的股票价格向量存储在向量数据库中,大模型可以实时分析和预测未来股票价格走势。还有就是在客服领域,向量数据库将使得大模型可以追溯到对话的开始。空间边界的扩展空间边界的扩展指的是向量数据库指
32、的是向量数据库能够能够协助协助解决目前企业界最担忧的大模型泄露解决目前企业界最担忧的大模型泄露隐私的问题。隐私的问题。用户给出的 Prompt 可能会包含一些敏感信息。根据媒体报道,员工 A用 ChatGPT 帮自己查一段代码的 bug,而这段源代码与半导体设备测量数据有关;员工 B 想用 ChatGPT 帮自己优化一段代码,就直接将与产量和良品率记录设备相关的一段代码输入了其中;员工 C 则先用 AI 语音助手 Naver Clova 将自己的会议录音转成文字,再用 ChatGPT 帮他总结一下会议内容,做成摘要。这些行为直接导致了三星关键数据的泄露。而 ChatGPT 本身其实也出现过隐私
33、泄露事件,使得有一小部分的对话历史/支付数据会被其他用户查看。这些数据都极为敏感。通过本地部署,通过本地部署,向量数据库能够在很大程度上解决这个问题。向量数据库能够在很大程度上解决这个问题。向量数据库本地部署后可以存储企业有关的大量隐私数据。在本地部署或者专有云部署大模型后,通过特别的 Agent 大模型可以在有保护的情况下访问向量数据库的隐私数据,进而可以在不向外网暴露公司的隐私的情况下,使得公司的业务得到大模型的助力。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 12/31 计算机计算机/行业深度行业深度 图图 8:OpenAI 泄露隐私数据泄露隐私数据 数据来源:东北证券 2
34、.2.多模态搜索:向量数据库的拿手好戏 向量数据库自带多模态功能,这意味着它能够通过机器学习方法处理和理解来自不向量数据库自带多模态功能,这意味着它能够通过机器学习方法处理和理解来自不同源的多种模态信息,如文本、图像、音频和视频等。数据向量化过程使得这些不同源的多种模态信息,如文本、图像、音频和视频等。数据向量化过程使得这些不同模态数据的内部隐藏信息得以暴露同模态数据的内部隐藏信息得以暴露,进而为多模态应用提供支持。一个典型的应用场景是多语言搜索。向量数据库支持跨语言的信息检索,用户可以使用英语、法语、中文等多种语言搜索图书库,而无需事先对书名进行多语言翻译处理。这得益于向量表示能够捕捉到语义
35、相似性,使得来自不同语言的查询和内容能够相互匹配。此外,向量数据库还可以实现跨模态搜索,例如让用户用文字来搜索图片。假设用户用俄文搜索“蓝色的鞋子”,尽管商品的标题和描述都是英语,但向量数据库仍然能够返回颜色为蓝色的鞋子商品的结果。这是因为向量数据库能够识别出不同模态数据之间的语义关联,进而实现跨模态的信息检索。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 13/31 计算机计算机/行业深度行业深度 图图 9:使用向量数据库用中文搜索英语图书使用向量数据库用中文搜索英语图书 数据来源:东北证券 图图 10:用俄语基于图片理解来进行搜索(“蓝色的鞋子”)用俄语基于图片理解来进行搜索(
36、“蓝色的鞋子”)数据来源:东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 14/31 计算机计算机/行业深度行业深度 2.3.近似搜索:给向量数据库带来巨大的商业化潜力 即使不考虑需要即使不考虑需要 LLM 支持的边界拓展型应用和多模态搜索,近似搜索功能就可以支持的边界拓展型应用和多模态搜索,近似搜索功能就可以给向量数据库带来巨大的商业化潜力。给向量数据库带来巨大的商业化潜力。向量数据库的近似搜索(Approximate Nearest Neighbor Search,简称 ANNS)是一种在高维数据中查找与给定查询向量相似的项的搜索方法。这种搜索方法的目标是找到距离查询向
37、量最近的数据点,即“最近邻”。在向量数据库中,数据经过向量化处理后,每个数据点都会被表示为高维空间中的一个向量。当我们需要查找与某个查询向量相似的数据点时,近似搜索算法会在这个高维空间中快速定位到与查询向量距离较近的数据点。这种相似性度量通常基于向量之间的距离(如欧氏距离、余弦相似性等)。由于在高维空间中进行精确的最近邻搜索非常耗时,所以通常采用近似方法来加速搜索过程。近似搜索主要依赖于一些特定的算法和数据结构,如 Locality-Sensitive Hashing(LSH)、Hierarchical Navigable Small World(HNSW)、Annoy 等。这些算法和数据结构
38、能够在牺牲一定精度的前提下显著加速搜索速度,从而实现在大规模高维数据中的高效查找。近似搜索有着巨大的商业化潜力:1、推荐系统:通过利用近似搜索功能,向量数据库可以帮助推荐系统为用户提供更精准、更个性化的内容推荐。这可以显著提高用户满意度和使用时长,进而提升商业价值;2、文本挖掘:在自然语言处理领域,向量数据库的近似搜索功能可以帮助快速检索相关文档、发现隐含的话题和关键信息。这对于新闻分析、竞争情报、法律(特别是判例法)和市场研究等领域具有显著的商业价值;3、图像检索:向量数据库可以运用近似搜索功能在海量图像库中快速查找与给定图像相似的图像,这对于广告、设计、版权等领域具有重要应用价值。通过快速
39、、准确地找到相关图像,企业可以降低成本、提高工作效率;4、语音识别和处理:近似搜索功能可以应用于语音识别和处理领域,帮助企业在语音数据库中快速匹配相似语音片段。这对于客户服务、语音助手和自动翻译等应用具有显著的商业潜力;5、生物信息学:在生物信息学领域,近似搜索可以帮助研究人员在基因序列、蛋白质结构等复杂数字数据中查找相似性。这可以加速新药研发、疾病诊断和基因治疗等领域的进展,从而创造巨大的商业机会。实际上,印尼最大的电商之一 Tokopedia 就已经部署了向量数据库进行近似搜索。之前 Tokopedia 采用基于 Elastic Search 的关键词搜索,这种搜索很难提取出搜索关键词的内
40、在含义,主要权重在于词频。通过从关键词搜索转为基于向量的近似搜索,Tokopedia 能够更好地满足用户的搜索需求,进行更精准的商品推荐,智能化水平提升了 10 倍,从而大幅度地提升财务指标。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 15/31 计算机计算机/行业深度行业深度 图图 11:传统的关键词搜索太表层传统的关键词搜索太表层 数据来源:东北证券 图图 12:公司采用了成熟的公司采用了成熟的 Mishards 中间件中间件 数据来源:东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 16/31 计算机计算机/行业深度行业深度 3.市场空间:市场空间:向量
41、数据库向量数据库五百亿美元蓝海市场待引爆五百亿美元蓝海市场待引爆 海量数据爆发产生巨大数据库需求。海量数据爆发产生巨大数据库需求。在互联网化趋势下,数据量呈爆炸式增长,同时随着数据大集中、数据挖掘、商业智能、协同作业等大数据处理技术的日趋成熟,数据价值呈指数上升趋势。根据 Stastista,2022 年全球创建、使用和存储的数据量约为 97ZB,预计到 2025 年数据量将达到 181ZB,2021-2025 年全球数据量复合增长率约为 23%。数据量的爆发式增长为数据存储、处理带来更为庞大的需求。图图 13:2010-2025 年全球年全球创建、使用和存储的数据量创建、使用和存储的数据量变
42、化变化(ZB)数据来源:Statista,东北证券 全球数据库市场规模仍处在高速成长期。全球数据库市场规模仍处在高速成长期。根据 Gartner 数据,2021 年全球数据库市场规模接近 800 亿美元(5201 亿人民币),同比增长约 20.3%,五年内已实现市场规模翻倍。根据前瞻产业研究院,预计到 2026 年,全球数据库市场规模将达到 2086亿美元,2021-2026 年复合增长率达到 21.13%。图图 14:2017-2026E 年全球数据库市场规模变化(亿美元)年全球数据库市场规模变化(亿美元)数据来源:Expert Market Research,IDC,Gartner,前瞻产
43、业研究院,东北证券 关系型数据库仍然占市场主导,关系型数据库仍然占市场主导,灵活拓展与高并发能力助力灵活拓展与高并发能力助力 NoSQL 数据库腾飞。数据库腾飞。根据 IDC 报告,2017 年至 2022 年,非关系型数据库(DDMS)市场规模年复合增长率为 30.94%,而关系型数据库(RDBMS)复合增长率仅 8.12%;但从市场规模 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 17/31 计算机计算机/行业深度行业深度 看,关系型数据库仍然占据主导,83%的数据库市场由关系型数据库构成。根据ScaleGrid 2019年统计,关系型与非关系型数据库的用户规模分别为60.5
44、%和39.5%。根据 IMARC,2022 年全球 NoSQL 市场规模将达到 73 亿美元,预计 2023-2028 年复合增长率将达到 29.92%。未来,Not-only-SQL 类型数据库市场规模的增速将持续领先于传统关系型数据库。图图 15:2019 年年关系型与非关系型数据库用户规模关系型与非关系型数据库用户规模(%)图图 16:2022 年年关系型与非关系型数据库市场份额关系型与非关系型数据库市场份额(%)数据来源:ScalGrid,东北证券 数据来源:IDC,东北证券 图图 17:2017-2022 年关系型及非关系型数据库规模及增速(百万美元,年关系型及非关系型数据库规模及增
45、速(百万美元,%)数据来源:IDC,William Blair,东北证券 向量数据库或向量数据库或将将迎来迎来超超 500 亿美元市场。亿美元市场。基本假设:1、参考Gartner、IDC的市场规模数据,2021年全球数据库市场规模为800亿美元;2、到 2030 年,全球数据库市场规模以 18%的年复合增长率增长,即 2030 年全球数据库市场规模约为 3548 亿美元;3、参考 NoSQL、云服务数据库的占比,同时考虑到 AI 的快速渗透,假设 2030 年,NoSQL 数据库中向量数据库占比将达到 50%;根据上述假设我们得出,预计预计到到 2030 年,年,全球全球向量数据库向量数据库
46、市场规模或将达到市场规模或将达到 522亿美元。亿美元。60.50%39.50%关系型数据库非关系型数据库83%17%关系型数据库(RDBMS)非关系型数据库(DDMS+NDBMS)请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 18/31 计算机计算机/行业深度行业深度 中国中国向量数据库市场空间或将达到向量数据库市场空间或将达到 253-949 亿元亿元。根据中国信通院数据,2021 年中国数据库市场规模约为309亿元,占全球数据库800亿美元市场的比重约为5.94%;预计到2025年,中国数据库市场规模为688亿元,2020-2025年复合增长率为23.4%,占全球数据库市场的
47、比重约为6.14%。根据IDC,2020年中国数据量规模约为7.92ZB,占全球总量的 18%;预计到 2025 年,中国数据量规模将增至 48.6ZB,占全球数据量的 27.8。中国数据量在全球的占比远超数据库市场规模占比,错配情况较为明显。基于上述数据,我们做出如下假设:1、到 2030 年,中国数据库市场将以 20%的年复合增长率增长,对应 2030 年市场规模 1711 亿人民币,占全球数据库市场的 7.4%;2、中国向量数据库市场占全球比重的下限中国数据库市场占全球数据库市场的比重,即 7.4%;3、到 2030 年,中国数据量占全球数据量规模的比重维持在 2025 年水平;4、中国
48、向量数据库市场占全球比重的上限中国数据量占全球数据量的比重,即28%;根据上述假设我们得出,预计到预计到 2030 年,中国向量数据库市场规模或将达到年,中国向量数据库市场规模或将达到 39-146亿美元,对应亿美元,对应 253-949 亿人民币。亿人民币。需要特别指出的是,相比于传统数据库,向量数据库其实不止有存储功能,也有一需要特别指出的是,相比于传统数据库,向量数据库其实不止有存储功能,也有一定的计算属性,因此其定的计算属性,因此其 TAM 是可以扩大的。是可以扩大的。图图 18:中国与全球数据产生量及占比(:中国与全球数据产生量及占比(ZB,%)图图 19:中国与全球数据库市场规模及
49、占比(亿美元,:中国与全球数据库市场规模及占比(亿美元,亿元,亿元,%)数据来源:IDC,东北证券 数据来源:IDC,Gartner,中国信通院,东北证券 18.00%23.01%27.77%0%5%10%15%20%25%30%0204060800180200全球中国占比5.36%9.04%0%2%4%6%8%10%12%14%16%18%20%020040060080010001200全球中国占比 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 19/31 计算机计算机/行业深度行业深度 图图 20:中国数据库市场规模及增速(亿元,:中国数据库市场规模及增速
50、(亿元,%)数据来源:中国信通院,东北证券 240.9309.35368492.75611.05688.020%5%10%15%20%25%30%35%40%0050060070080020202021E2022E2023E2024E2025E市场规模YOY 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 20/31 计算机计算机/行业深度行业深度 4.全球全球主流向量数据库介绍主流向量数据库介绍 目前全球已有的向量数据库产品主要包括 Pinecone、Milvus、Weaviate、Vespa 等。其中,超过 70%的向量数据库选择了开源,超过一半的向量数据库
51、具有云化部署的能力,大部分向量数据库产品在进行 ANN 相似性搜索时采用 HNSW(Hierarchical Navigable Small World)算法。向量数据库公司普遍以初创型企业为主,在一级市场上普遍获得较多投资者的青睐。表表 1:全球向量数据库信息汇总:全球向量数据库信息汇总 公司公司 向量数据库产品向量数据库产品 是否上云是否上云 是否开源是否开源 算法算法 SeMI Weaviate 是 是(Go)Custom HNSW Pinecone Pinecone 是 否 Multiple proprietary GSI APU chip for Elasticsearch/Open
52、search 否 否 Neural hashing/Hamming distance Qdrant Qdrant 否 是(Rust)HNSW(graph)Yahoo!Vespa 是 是(Java,C+)HNSW(graph)Ziliz Milvus 否 是(Go,C+,Python)FAISS,HNSW Yahoo!Vald 否 是(Go)NGT 数据来源:东北证券 4.1.Pinecone Pinecone 拥有技术背景雄厚的工程团队,先后上架拥有技术背景雄厚的工程团队,先后上架 Google 云和云和 AWS 并打开市场并打开市场。2019 年,Pinecone 创始人 Edo Liber
53、ty 创立 Hypercube.ai,提供基于深度学习的多媒体搜索解决方案;2021 年初,Hypercube.ai 正式转化为 Pinecone,专注于向量数据库领域研发。团队多数工程师出自 Google、Databricks、Splunk 等知名科技企业。公司创始人兼首席执行官 Edo Liberty 获得耶鲁大学计算机科学博士学位,曾担任Yahoo 的高级研究总监和纽约地区 Yahoo 研究实验室的负责人,后加入 AWS 带领团队构建了尖端的机器学习算法、系统和服务。2022 年 12 月起,Pinecone 先后上架 Google Cloud 和 AWS,用户可以在 Marketpla
54、ce 购买并使用 Pinecone,在不改变基础架构的前提下,将 AI 技术支持的搜索加入到应用程序。Pinecone 通过借助平台流量逐步提升产品知名度,有望进一步打开销售渠道,抢占市场份额。Pinecone 是一个闭源、全托管、仅使用简单是一个闭源、全托管、仅使用简单 API 的云原生向量数据库,大致划分为的云原生向量数据库,大致划分为核心索引、容器分布(核心索引、容器分布(container distribution)、云管理层三部分)、云管理层三部分。Pinecone 核心索引负责将来自第三方数据源的高维向量转换成 ML 可读取的格式。容器分布确保数据库在收到查询、更新和嵌入指令后,以
55、延迟低于 50 毫秒的运行状态处理负载平衡、进行数据复制、管理命名空间、分割数据库。云管理层使得用户在不安装硬件的情况下,仅通过创建索引并导入向量数据就可实现查询。此外,用户可以使用API 随时随地更新、查询向量索引。公司经历了三次重要技术创新:1)技术团队在保证托管系统稳定运行,元数据与图像遍历(graph traversal)相结合等条件下,研发出动态、可过滤的图形索引;2)原 RocksDB 存储引擎达到极限后,团队构建了全新的“memkey”向量存储,其在大型数据库对生成对象的存储速度超 RocksDB 10倍,降低 30%-50%的运营成本;3)基于 C+和 Python 产出的代码
56、库问题不断,团队最终决心在 Rust 中重新搭建数据库和开发环境的架构,有效提高了开发速度并降低了运营事件概率。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 21/31 计算机计算机/行业深度行业深度 图图 22:Pinecone 向量数据库结构向量数据库结构 数据来源:Pinecone,东北证券 Pinecone 数据库拥有数据库拥有 4F 特性:快速(特性:快速(Fast)、实时()、实时(Fresh)、可过滤()、可过滤(Filtered)、)、全托管(全托管(Fully)。)。即使有数十亿规模的数据存储,依然可以保持极低的查询延迟。在增加、编辑和删除数据时,实时更新索引。向
57、量搜索与元数据过滤相结合,提高查询结果的相关性。平台保证稳定、安全的运行环境,产品入门简单、使用便利。操作流程可划分创建索引(操作流程可划分创建索引(Index)、连接索引、插入索引、使用索引四步。)、连接索引、插入索引、使用索引四步。通过创建一个索引对象,通常为 json 格式的数据,将向量嵌入和元数据写入到索引中,然后调用索引对象的方法来执行相似性搜索或其他操作。pinecone 还提供了一些预定义的索引类型(Index Type),如 Image Search,Text Search 等,可以让开发者更容易地开始特定的用例。表表 2:Pinecone 向量数据库设置索引分步内容向量数据库
58、设置索引分步内容 创建索引 索引是向量数据的最高组织单位。创建新索引时可以设定 Pod 与 Distance metrics。Pod 是运行服务的预配置硬件单元,可选种类包括 s1 pods、p1 pods、p2 pods,每种类型的 pod 尺寸可在 x1、x2、x4、x8 四挡调节。Distance metrics衡量向量对象的相似度,有 euclidean、cosine、dotproduct 三种可选。此外,支持从集合(collection)中创建索引,集合是向量与元数据的不可查询表示。连接索引 如果使用 Pinecone 客户端访问索引,需要与索引进行交互。插入索引 将向量嵌入与元数据
59、插入索引。向量对象以(id,vector)的元组列表(tuple)形式插入,含元数据的向量以键值对(key-value pairs)形式插入用于条件过滤。使用索引 完成索引设置后,即可利用索引进行数据查询、数据筛选、数据获取、数据管理,以及管理索引、插入更多数据或更新现有向量等操作。数据来源:Pinecone,东北证券 定价标准:当前存在定价标准:当前存在初学者、标准、企业级三种初学者、标准、企业级三种模式模式。初学者版本使用免费,但仅限创建一个索引与一个计划;标准版本适用于任何规模的生产应用程序,支持将向量数据库保存在集合中,能够进行自由索引,每月收费 70 美元起;企业版本能够实现标准版本
60、中的所有功能,并支持多个可用区以及 24/7/265 专属支持服务,每月收费 104 美元起。Pinecone 一级市场获一级市场获 1.38 亿美元融资,估值超亿美元融资,估值超 7 亿美元。亿美元。2021 年 7 月,Pinecone种子轮收到 1000 万美元投资,投资方 Wing Venture Capita;2022 年 3 月底,公司 A轮融资 2800 万美元,Menlo Ventures 领投,Tiger Global、Wing Venture Capital 跟投,公司估值达到1.68亿美元。2022年底,伴随ChatGPT推出而引发生成式AI开发热,请务必阅读正文后的声明
61、及说明请务必阅读正文后的声明及说明 22/31 计算机计算机/行业深度行业深度 作为 LLM“海马体”的向量数据库需求激增,开发者、投资者纷纷涌入向量数据库赛道。截至 2023 年 4 月,公司 B 轮获 Andreessen Horowitz、ICONIQ Growth、Menlo Ventures、Wing Venture Capital 投资超 1 亿美元,三轮融资总额达到 1.38 亿美元,投后估值已升至 7.5 亿美元。表表 3:Pinecone 融资情况汇总融资情况汇总 估值(美元)融资金额(美元)参投机构 种子轮 1000 万 Wing Venture Capital 领投 A
62、轮 1.68 亿 2800 万 Menlo Ventures 领投,Tiger Global、Wing Venture Capital 跟投 B 轮 7.5 亿 1 亿 Andreessen Horowitz 领投,ICONIQ Growth、Menlo Ventures、Wing Venture Capital 跟投 数据来源:东北证券 4.2.Milvus Milvus向量数据库由中国创业团队向量数据库由中国创业团队ZilliZ研发,并于研发,并于2019年面世。年面世。Zilliz成立于2017年,拥有超过 100 名员工。通过向量数据库 Milvus,Zilliz 与 Nvidia、I
63、BM、微软、AWS 等公司建立合作。目前开源 Milvus 已成为业界领先的向量数据库解决方案,有18000 个 GitHub Star。图图 21:Milvus 向量数据库生态和社区布局向量数据库生态和社区布局 数据来源:Zilliz,东北证券 Milvus 是一个基于云原生、开源的自托管向量数据库。是一个基于云原生、开源的自托管向量数据库。Milvus 数据库包含以下特点:易于使用:易于使用:借助 Milvus 向量数据库,使用者可以在不到一分钟的时间内创建大规模的相似性搜索服务;SDK 简单直观,也可用于各种不同的语言;速度快:速度快:Milvus 具有较高的硬件效率,并提供先进的索引算
64、法,检索速度可提升 10 倍;高可用性高可用性:Milvus 向量数据库已成功在一千多名企业用户中进行了实战测试,通过对各个系统组件的广泛隔离,Milvus 具有较高的弹性和可靠性;高度可扩展高度可扩展性:性:Milvus 的分布式和高通量特性使其面对大规模向量数据时能够提供高效的服务;云原生云原生:Milvus 向量数据库采用系统化的云原生方法,将计算与存储分离,并允许使用者横向、纵向扩展;功能丰富功能丰富:Milvus 支持各种数据类型、具有属性过滤的增强向量搜索、UDF 支持、可配置的一致性级别、时间旅行等。为了增强弹性和灵活性,Milvus 由存储层和计算层组成。该系统包括四个级别:接
65、入层接入层 Access Layer:接入层由一组无状态代理组成,充当用户的系统和端点的前端;请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 23/31 计算机计算机/行业深度行业深度 协调协调器器服务服务 Coordinator service:协调器服务将任务分配给工作节点,并充当系统的大脑;工作器节点工作器节点 Worker nodes:工作器节点充当人类的手臂和腿,是一种哑执行器,遵循协调器服务的指令并执行用户触发的数据管理语言 DML/数据定义语言DDL 命令;存储存储 Storage:存储是系统的骨骼,确保数据可持续性,包括元存储、日志代理和对象存储。图图 22:Milv
66、us 向量数据库架构向量数据库架构 数据来源:Milvus,东北证券 Zilliz 目前已进入目前已进入 B 轮融资阶段,轮融资阶段,获得投资获得投资总额总额超超 1.13 亿美元。亿美元。2022 年 8 月 24 日,Milvus 的开发者公司 Zilliz 宣布,已在其最初 4300 万美元 B 轮融资基础上追加了6000 万美元的融资。本轮融资由沙特石油巨头 Aramco Ventures 旗下多元化增长基金 Prosper Ventures 领投,现有投资者 Temaseks Pavilion Capital(淡马锡)、Hillhouse Capital(高瓴)、5Y Capital
67、 和 Yunqi Capital(云启资本)跟投。本轮融资后,公司的总融资额达 1.13 亿美元,融资将用于支持其云矢量数据库的工程设计和上市工作。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 24/31 计算机计算机/行业深度行业深度 表表 4:Zilliz 一级市场融资情况汇总一级市场融资情况汇总 融资轮次融资轮次 融资金额(万融资金额(万美元)美元)参投机构参投机构 A 轮 1000 5Y Capital 领投,Yunqi Partners、Eminence Ventures 跟投 B 轮 4300 Hillhouse Capital Group 领投,5Y Capital、
68、Yunqi Partners、Trustbridge Partners、Pavilion Capital 跟投 B 轮(Extension)6000 Prosperity7 Ventures 领投,Hillhouse Capital Group、5Y Capital、Yunqi Partners、Pavilion Capital 跟投 数据来源:东北证券 4.3.Vespa Vespa 由由 Oath 开发,发布之初被定义为一款开发,发布之初被定义为一款开源的开源的“大数据处理和服务引擎大数据处理和服务引擎”,”,。2003年2月2日,Yahoo以1亿美元收购Vespa前身挪威搜索引擎公司Al
69、ltheWeb;2017 年 9 月 28 日,由 Yahoo 和 AOL 业务合并后诞生的公司 Oath 宣布开源 Vespa,并将代码托管于 GitHub。Vespa 能够部署于本地或云上,能够实现不同类型的搜索功能。能够部署于本地或云上,能够实现不同类型的搜索功能。作为开源的应用,Vespa 应用程序可以部署在本地或 Vespa Cloud 上,并可以接入 Java 组件和 Python API。部署完成后,Vespa 能够实现基于传统 BM25 的信息检索、向量最近邻搜索、机器学习模型服务、问答、内容推荐等功能。目前 Vespa 已被应用于 Oath 的多个产品,包括 Y、Yahoo
70、News、Yahoo Sports、Yahoo Finance、Yahoo Gemini、Flickr 等,每日可以处理数十亿个用户请求,为用户返回基于数十亿文档得出的搜索结果和推荐内容,并提供定制化内容和广告。Vespa 由多个无状态的由多个无状态的 Java 容器集群和零个或多个存储数据的内容集群组成。无状容器集群和零个或多个存储数据的内容集群组成。无状态容器集群态容器集群包括传入数据、查询以及响应的组件。这些组件提供包括索引转换和查询执行的平台功能,也可以提供应用程序的中间件逻辑。容器集群将查询和数据操作传递到内容集群中的相应节点,也可以添加组件访问来自外部服务的数据。内容内容集群集群负
71、责存储数据并对数据执行查询和推理。查询的范围包括简单数据查找、使用机器学习模型对数据进行排序、以及对数据进行分组和聚合。图图 23:Vespa 向量数据库架构向量数据库架构 数据来源:Vespa,东北证券 4.4.Weaviate 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 25/31 计算机计算机/行业深度行业深度 Weaviate 前身为前身为 SeMI Technology,成立于,成立于 2019 年,是一家全球性初创企业。年,是一家全球性初创企业。目前Weaviate在荷兰、美国、加拿大等地设有分支机构,拥有超过30名团队成员。Weaviate创始人 Bob van L
72、uijt 与 Etienne Dilocker 拥有 10 年以上的自由工程师经历,具有深厚的技术积累。Weaviate 是一个低延迟的是一个低延迟的向量向量数据库,对不同的媒体类型(文本,图像等)具有开数据库,对不同的媒体类型(文本,图像等)具有开箱即用的支持。箱即用的支持。Weaviate 提供语义搜索、问答提取、分类、定制化模型(PyTorch/TensorFlow/Keras)等功能,基于 Go 语言,能够存储对象和向量,并允许将向量搜索、结构化筛选和云原生数据库的容错能力相结合,且支持 GraphQL、REST 以及各种客户端编程语言进行访问。Weaviate 可进行本地或云化部署可
73、进行本地或云化部署,具有多种定价模式,具有多种定价模式。Weaviate 可提供 SaaS 以及混合 SaaS 的服务,其中 SaaS 服务定价分为三类:标准、企业、关键商务型,起价分别为 25/135/450 美元/月,实际定价将伴随向量存储、搜索的维度的增长而提升。标杆应用场景标杆应用场景Weaviate 于于 2023 年推出年推出 ChatGPT 的的 Plugin 插件插件,其功能包括:1、允许用户连接一个向量数据库到 ChatGPT,其中包含用户的专有数据,可以被ChatGPT 调用并用于回答特定的问题;2、允许用户对个人文档进行存储,使 ChatGPT 的回答更加个性化;3、用户
74、可以在向量数据库中储存与 ChatGPT 的对话,在关闭并再次打开 ChatGPT后,根据数据库中的内容继续对话。Weaviate 的索引流程:的索引流程:以文本编码器(text2vec-transformer)和问答编码器(qna-transformers)为例,用户可以创建任意数量的索引,每个索引包含一定数量的分片,索引中的分片是独立的存储单元,每个分片均可以进行对象、倒置和向量存储,其中对象和倒置存储使用 LSM 树方法进行实现,向量索引独立于这些对象存储,不受 LSM 分割的影响。此外,Weaviate 本身是纯原生的向量数据库,不自带任何模块,因此各类功能将由可选模块进行执行。除上述
75、提到的文本、问答等编码模块外,Weaviate 还支持加载例如其他媒体类型的向量化、物体识别、拼写检查等外部模块。图图 24:Weaviate 向量数据库架构向量数据库架构 数据来源:Weaviate,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 26/31 计算机计算机/行业深度行业深度 投后估值投后估值 2 亿美元,融资总额超过亿美元,融资总额超过 6700 万美元。万美元。2023 年 4 月 22 日,Weaviate 宣布,继 2022 年 A 轮融资获得 1650 万美元后,B 轮融资获得 5000 万美元(约合 3.5 亿人民币),由 Index Ventu
76、res 领投,Battery Ventures 等机构跟投。公司截至目前共获得6770 万美元融资,投后估值 2 亿美元。表表 5:Weaviate 一级市场融资情况汇总一级市场融资情况汇总 融资轮次融资轮次 融资金额(万融资金额(万美元)美元)参投机构参投机构 种子轮 120 万 Zetta Venture Partners 领投,ING Ventures、Alex van Leeuwen(个人投资者)跟投 A 轮 1650 万 Cortical Ventures、NEA 领投,GTMfund、Zetta Venture Partners、ING Ventures、Scale Asia Ve
77、ntures 跟投 B 轮 5000 万 Index Ventures 领投,Battery Ventures、NEA、Cortical Ventures、Zetta Venture Partners、ING Ventures 跟投 数据来源:东北证券 4.5.Qdrant Qdrant 成立于成立于 2021 年,是一款针对人工智能软件开发人员,提供用于非结构化数年,是一款针对人工智能软件开发人员,提供用于非结构化数据的开源向量搜索引擎和数据库。据的开源向量搜索引擎和数据库。Qdrant 的创始人 Andre Zayarni(CEO)和 Andrey Vasnetsov(CTO)曾就职于智能
78、招聘公司 moberries,均具有较为深厚的技术背景和经验,并曾在多家欧洲科技公司担任技术团队的领导者。Qdrant 当前能够进行本地化自托管部署,云化版本仍在测试中。当前能够进行本地化自托管部署,云化版本仍在测试中。目前 Qdrant 已在Github 上进行开源,使用者可以免费本地化部署 Qdrant 向量数据库。同时 Qdrant还提供起价 25 美元/月的云化试用版,用户可以在托管云中使用向量数据库解决方案,无需复杂的部署和维护,并由 Qdrant 团队进行专业服务支持。Qdrant 开发团队还能够提供专业的企业级服务,包括协助企业进行向量数据库的本地化部署、神经网络模型的微调、数据
79、的迁移和监控等。目前 Qdrant 能够提供图片相似搜索、语义文本搜索、推荐、对话机器人、匹配引擎、非正常监控等解决方案,包括向量数据库的搭建和模型预训练与微调。图图 25:Qdrant 向量数据库架构向量数据库架构 数据来源:Qdrant,东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 27/31 计算机计算机/行业深度行业深度 Qdrant 仍处于种子轮融资阶段,融资总额接近千万美元。仍处于种子轮融资阶段,融资总额接近千万美元。2022 年 1 月 Qdrant 获得preseed 轮融资 200 万欧元;随后于 2023 年 4 月,Qdrant 再次获得 750 万
80、美元的种子轮融资,领投方为 Unusual Ventures,42cap、IBB Ventures 以及包括 Cloudera 联合创始人 Amr Awadallah 在内的个人天使投资人。表表 6:Qdrant 一级市场融资情况汇总一级市场融资情况汇总 融资轮次融资轮次 融资金额(万融资金额(万美元)美元)参投机构参投机构 种子轮 750 万 Unusual Ventures 领投,42CAP、IBB Ventures、Amr Awadallah(个人投资者)跟投 Pre-seed 200万 欧 元(约合220万美元)42CAP 领投,M cke Roth&Company、IBB Ventu
81、res 跟投 数据来源:东北证券 请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 28/31 计算机计算机/行业深度行业深度 5.国内国内二级市场二级市场相关标的相关标的 所有人都意识到了 ChatGPT 所带来的 AI 巨浪,很多人认为这个浪潮接近甚至超越移动互联网水平。我们认为,我们认为,AI 绝对是浪潮,这是无可置疑的。绝对是浪潮,这是无可置疑的。事实上,在本文的事实上,在本文的写作中,我们得到了写作中,我们得到了 LLM 的的巨大帮助,节省了我们至少巨大帮助,节省了我们至少 20%的工作量。的工作量。但是有一个问题一直困扰着海内外的投资者:Killer App 在哪里?浪潮所
82、要求的颠覆性创新在哪里?明天的VEEV、NOW、WDAY等Application在哪里?明天的DDOG、SNOW、MDB 等 Infrastructure 在哪里?经过长期深入的思考,我们认为 GPT 可能是目前 Application 最大的单一 Killer App,其余的 Application Killer App 还需要孵化的时间,而 Infrastructure 最大的 Killer App将会是向量数据库Vector Database,由于底层的关键因素如Indexing和算法的改变,符合颠覆性创新的定义,传统 Database 公司面临着危机,而类似 SNOW、MDB 等Inf
83、ra 巨头的企业正在孕育。由于向量数据库仍处于萌芽阶段,建议关注国内具有向量化计算、向量搜索、向量化执行引擎等技术储备的公司:云天励飞、星环科技、云天励飞、星环科技、创意信息创意信息、中亦科技、佳华、中亦科技、佳华科技科技、海量数据、科蓝软、海量数据、科蓝软件件等。等。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 29/31 计算机计算机/行业深度行业深度 6.风险提示风险提示 1、向量数据库处于萌芽阶段,就算是美国也没有成熟的上市公司,并且目前向量数据库有多种技术路线的选择,发展仍然有较大的不确定性;2、国内成熟产品集中在初创公司,上市公司需要奋起直追;3、尽管存在开源产品,但是
84、目前海外 VC、互联网巨头已经纷纷入场,竞争压力恐快速提升。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 30/31 计算机计算机/行业深度行业深度 研究团队简介:研究团队简介:黄净:MBA,东北证券计算机首席分析师,曾在埃森哲、百度等从事咨询业务,在国信证券、安信证券从事行业研究,2022年加入东北证券 吴雨萌:威斯康星大学麦迪逊分校理学硕士,曾在华安证券计算机组从事行业研究,2022 年加入东北证券。分析师声明分析师声明 作者具有中国证券业协会授予的证券投资咨询执业资格,并在中国证券业协会注册登记为证券分析师。本报告遵循合规、客观、专业、审慎的制作原则,所采用数据、资料的来源合
85、法合规,文字阐述反映了作者的真实观点,报告结论未受任何第三方的授意或影响,特此声明。投资投资评级说明评级说明 股票 投资 评级 说明 买入 未来 6 个月内,股价涨幅超越市场基准 15%以上。投资评级中所涉及的市场基准:A 股市场以沪深 300 指数为市场基准,新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为市场基准;香港市场以摩根士丹利中国指数为市场基准;美国市场以纳斯达克综合指数或标普 500指数为市场基准。增持 未来 6 个月内,股价涨幅超越市场基准 5%至 15%之间。中性 未来 6 个月内,股价涨幅介于市场基准-5%至 5%之间。减持 未来 6 个月内,股
86、价涨幅落后市场基准 5%至 15%之间。卖出 未来 6 个月内,股价涨幅落后市场基准 15%以上。行业 投资 评级 说明 优于大势 未来 6 个月内,行业指数的收益超越市场基准。同步大势 未来 6 个月内,行业指数的收益与市场基准持平。落后大势 未来 6 个月内,行业指数的收益落后于市场基准。请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 31/31 计算机计算机/行业深度行业深度 重要声明重要声明 本报告由东北证券股份有限公司(以下称“本公司”)制作并仅向本公司客户发布,本公司不会因任何机构或个人接收到本报告而视其为本公司的当然客户。本公司具有中国证监会核准的证券投资咨询业务资格。
87、本报告中的信息均来源于公开资料,本公司对这些信息的准确性和完整性不作任何保证。报告中的内容和意见仅反映本公司于发布本报告当日的判断,不保证所包含的内容和意见不发生变化。本报告仅供参考,并不构成对所述证券买卖的出价或征价。在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的证券买卖建议。本公司及其雇员不承诺投资者一定获利,不与投资者分享投资收益,在任何情况下,我公司及其雇员对任何人使用本报告及其内容所引发的任何直接或间接损失概不负责。本公司或其关联机构可能会持有本报告中涉及到的公司所发行的证券头寸并进行交易,并在法律许可的情况下不进行披露;可能为这些公司提供或争取提供投资银行业务、财务顾
88、问等相关服务。本报告版权归本公司所有。未经本公司书面许可,任何机构和个人不得以任何形式翻版、复制、发表或引用。如征得本公司同意进行引用、刊发的,须在本公司允许的范围内使用,并注明本报告的发布人和发布日期,提示使用本报告的风险。若本公司客户(以下称“该客户”)向第三方发送本报告,则由该客户独自为此发送行为负责。提醒通过此途径获得本报告的投资者注意,本公司不对通过此种途径获得本报告所引起的任何损失承担任何责任。地址地址 邮编邮编 中国吉林省长春市生态大街 6666 号 130119 中国北京市西城区锦什坊街 28 号恒奥中心 D 座 100033 中国上海市浦东新区杨高南路 799 号陆家嘴世纪金融广场 3 号楼 10 层 200127 中国深圳市福田区福中三路 1006 号诺德中心 34D 518038 中国广东省广州市天河区冼村街道黄埔大道西 122 号之二星辉中心 15 楼 510630