6-尚长军-向量数据库关键技术及应用-2023中国PG生态大会new.pdf

编号：155504

PDF 24页 1.08MB 下载积分：VIP专享

下载报告请您先登录！

6-尚长军-向量数据库关键技术及应用-2023中国PG生态大会new.pdf

1、向量数据库关键技术及应用演讲人：尚长军公司：中兴通讯股份有限公司数据库系统工程师CONTENT向量数据库简介13中兴通讯向量数据库向量数据库关键技术2向量数据库向量数据库被应用于大模型训练过程中。在训练大规模的深度学习模型时，通常需要处理大量的训练数据，并进行复杂的计算和优化过程。而向量数据库通过有效的索引结构和查询优化技术，能够提供快速的相似度搜索和数据检索，加速模型训练、推断和决策过程。向量数据：是指具有多个维度的数值向量组成的数据集合，其典型结构是一个一维数组，其中的元素是数值（通常是浮点数）。这些数值表示对象或数据点在多维空间中的位置、特征或属性。向量数据的长度取决于所表示的特征维度

2、。下面是一个简单的例子：有三个水果：苹果、香蕉和葡萄。用向量数据表示它们的颜色和大小特征。可以将颜色分为红、绿、蓝三个通道，将大小分为小、中、大三个类别。因此，可以用一个包含 6 个数值的向量表示每个水果的特征。在这个例子中，每个水果都被表示为一个 6 维向量。前三个数值表示颜色信息（红、黄、蓝），后三个数值表示大小信息（小、中、大）。向量数据库：是一种针对向量数据（或高维数据）的专门设计和优化的数据库系统。它与传统的关系型数据库或文档数据库不同，通过将数据表示为向量的形式，能够提供更高效的存储、查询和分析能力。苹果（红色，中等大小）：1,0,0,0,1,0香蕉（黄色，大）：0.5,0.5,0

3、,0,0,1葡萄（紫色，小）：0.5,0,0.5,1,0,0向量数据库向量检索向量检索又称为近似最近邻搜索（Approximate Nearest Neighbor Search,ANNS），是一种在大规模高维向量数据中寻找与给定查询向量相似的向量的技术。向量检索在许多AI领域具有广泛的应用，如图像检索、文本检索、语音识别、推荐系统等。PictureVoiceTextUser Behavior深度学习0.71,056,.,0.730.27,0.45,.,0.680.03,0.65,.,0.49非结构化数据特征向量向量检索向量EmbbedingEmbedding将数据映射到多维向量空间，将数据进

4、行向量化。Object 1Object 2Object 3Set of Objects0.40.10.3-0.80.60.3-0.40.20.9-Objects as VectorEmbeddingCONTENT向量数据库简介13中兴通讯向量数据库向量数据库关键技术2向量数据库关键技术：树形索引样本数据：T=（2,3）,（5,4）,（9,6）,（4,7）,（8,1）,（7,2）(8,1)(9,6)(5,4)(2,3)(4,7)(7,2)246824681010(7,2)(5,4)(9,6)(2,3)(4,7)(8,1)典型的树形结构如KD树(K-dimension tree)，是对数据点在k维

5、空间（如二维(x，y)，三维(x，y，z)，k维(x，y，z.）中进行划分的一种数据结构，它按照一定的规则将整个空间划分为特定的几个部分，然后在特定空间的部分内进行相关搜索操作。(7,2)(2,3)(4,7)(5,4)(9,6)(8,1)向量数据库关键技术：倒排索引倒排索引是一种将词项映射到文档的数据结构。倒排索引源于实际应用中需要根据属性的值来查找记录，即不是由记录来确定属性值，而是由属性值来确定记录，因而称为倒排索引。Term：word1Value：docid1docid4Term：word2Value：docid1docid3Term：word3Value：docid1docid2Ter

6、m：word4Value：docid2docid3doc1doc2doc3doc4Term Index向量数据库关键技术：局部敏感哈希索引局部敏感哈希索引(LSH)的设计思想是让相邻的点落入同一个“桶”，在进行最近邻搜索时，仅需要在一个桶内，或相邻几个桶内的元素中进行搜索即可。假如保持每个桶中的元素个数在一个常数附近，就可以把最近邻搜索的时间复杂度降低到常数级别。KeysHash FunctionHash BucketsValues向量数据库关键技术：图索引基于图的结构进行快速检索的主要思想是通过对图中邻居节点连线（特别是长程连接，即所谓高速公路）快速缩小搜索范围，加快检索速度，其原理类似Re

7、dis跳表。优点是查询速度快，缺点是构建索引耗时长，内存占用大。基于图的搜索算法主要有NSW和HNSW算法。Layer2Layer1Layer0decreasing characteristic radius NSWHNSW向量数据库关键技术：相似度计算向量相似度：它是衡量两个向量之间的相似程度的指标，可以用于比较两个向量在特征上的相似性，常用计算方法如下。niiiyxyxD2)(),(ABBAABBA|)cos(),(yxyxyxD欧式距离Euclidean Distance余弦相似度Cosion Similarity汉明距离Cosion Similarity杰卡德相似系数Jaccard S

8、imilarity Coefficient|1),(xyyxyxDthe number of values that are different between two vectors 0ABCONTENT向量数据库简介13中兴通讯向量数据库向量数据库关键技术2中兴通讯向量数据库体系结构标量查询接口向量查询接口IndexWalData fileVector存储层IVFFlat HNSW向量索引向量计算BTreeGist标量索引标量计算全局事务管理器全局元数据SQL解析自适应优化器查询调度器计算节点协调节点计算层接入层IVFPQBitmap向量数据库索引组织向量数据库索引组

9、织结构：Index StorageBase TableIndexAmRoutineOthersOthersData TableBuildScanBTree Index Modulepage1page2pageNBTree Indexpage1page2pageNGist IndexScanBuildCommon Utilsvector Index ModuleIndex KernelIndex Interfacevector Index IVFFlat IndexHNSWIndexIVFPQIndexpage1page2pageNBitmap IndexBuildScanGist Index

10、ModuleBuildScanBitmap Index ModuleIVFFLAT向量索引IVFFLAT索引将搜索限制在与最近中心点相关的区域，搜索过程中需要检查的向量数量显着减少，从而加速搜索过程。针对聚簇的质心点的动态选取优化，提升检索的精度，利用SIMD指令优化检索性能。通过k-means算法训练nlist个聚类，提取聚类质心点，构建倒排索引。检索时，先找nprobe个最近的聚类中心，进而（暴力）检索对应倒排的数据。质心1质心2Top1query簇2簇1HNSW向量索引HNSW是一种基于图的索引算法，将一张图按规则建成多层导航图，越上层的图越稀疏，结点间的距离越远；越下层的图越稠密，结点

11、间的距离越近。搜索时从最上层开始，找到本层距离目标最近的结点后进入下一层继续查找。如此迭代，能快速逼近目标位置。HNSW索引的关键技术在于图节点的预分配和节点动态分配。通过优化元数据页、数据页、邻居页的设计显著提升了索引构建效率。Layer2Layer1Layer0decreasing characteristic radius D1V4N10N11N12D4V1N1N2N3D2V2N4N5N6D3V3N7N8N9V1V4V2V3乘积量化PQPQ算法全称ProductQuantization，中文名为乘积量化。本质上是通过向量降维来实现向量压缩。N*401.25501.255切分N*32N*3

12、2N*128128聚类(256个类，8位表示)聚类聚类聚类256*324*256*32量化编码每个小向量被分别聚类成256个聚类中心，可以使用8bit，即一个字节保存。量化编码N*4*32534347723165.量化编码每个128维的原始向量最后用4个距离每个分段最近的聚类中心的ID表示，即4个字节就可以保存。十进制ClusterAssignPQ-SearchPQ优化的关键，是在计算查询向量和向量库向量的距离时，向量库的向量已经被量化成M个簇心 ID，而查询向量的M段子向量与各自的256个簇心距离已经预计算好了，所以在计算两个

13、向量的时候只用查M次表。N*401.255534347723165.查询向量01.25501.25501.255查询向量的每个子段计算到对应的256个类中心的距离4*256的距离矩阵表4*256个聚类中心查找距离表，累加求和倒排索引量化IVFPQIVFPQ首先要对库里所有向量做KM聚类，减少需要计算距离的目标向量的个数，然后采用PQ方法计算查询向量与这几个簇中的向量的距离。在计算查询向量和一个簇中的向量的距离的时候，所有向量都会被转化成与簇心的残差，类似于归一化的操作，使得PQ计算距离更准确。通过使用IVF，使得需要计算距离的向

14、量个数发生了数量级的减少，向量检索大大加速。.K-means粗量化x_i-c_i1024个聚类中心1024*128N*128维C_1C_2C_3C_kC_1024ID:Code.ID:Code.ID:Code.ID:Code.ID:Code.ID:Code.N*128维残差向量PQ编码向量及向量索引数据常驻内存向量数据常驻内存技术可以将向量及向量索引数据长期驻留在内存，提升特定要求和场景下的向量检索性能。内存Vector磁盘1.高效资源利用2.显著的性能提升向量数据库在大模型中的应用1：大模型知识库知识库生成大模型知识库的基本结构包括三个主要组成部分：知识图谱、文本语料库和推理引擎。知识图谱是

15、整个知识库的核心，它以图的形式存储和表示各种实体和它们之间的关系。文本语料库是知识库中用于存储文本数据的部分，它包含了大量的语料数据，可以用于训练和提取知识。推理引擎是.text0：大模型知识库.text1：知识图谱是.text2：文本语料库.text0：大模型知识库.vector:0.23670,0.32452.text1：知识图谱是.vector:0.25626,0.27453.text2：文本语料库.vector:0.25626,0.27453.SplitEmbeddingInsert向量数据库Neural NetworkNeural NetworkAPI大语言模型LLM1.questi

16、on：大模型的基本结构？8.answer：大模型的基本结构包括.2.Embedding question3.Return vector4.Query vector5.TopK simular Knowledge6.Question+Knowledge7.Answer知识库检索向量数据库在大模型中的应用2：聊天机器人向量数据库本地文档本地数据预处理（向量化，查询，相似度匹配）机器人入口用户提问query：有个用户，所在OLT IP是10.3.14.6，4槽，SPON口，ID=12，经常上网不稳定，请诊断一下是什么故障？回答1本地知识库topK相似内容知识库匹配结果：资源知识图谱关系Prompt

17、template构造LLM交互指令模板：“query”，“content”请调用UME诊断分析工具，并按如下方式回答：您好，经分析，该用户故障原因是“answer”，谢谢。PromptPromptPromptPromptSQLAPILLM.ChainChainChain.AgentChainLLM整合答案：您好，经分析，该用户故障原因是：入户光缆存在收光弱故障，可以检查二级分光器到ONU的光纤是否有污损或宏弯,谢谢。Agent:基于指令调用LLM生成计划，并调用API。用户确认1用户意图1.知识型2.任务型Langchain应用开发框架场景大模型（LLM大模型）THANK YOU联系信息CONTACT INFORMATION

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（6-尚长军-向量数据库关键技术及应用-2023中国PG生态大会new.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。