上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

刘焕勇-datafuntalk2024知识图谱峰会-知识图谱增强在360文档知识问答的应用.pdf

编号:158461 PDF 31页 7.96MB 下载积分:VIP专享
下载报告请您先登录!

刘焕勇-datafuntalk2024知识图谱峰会-知识图谱增强在360文档知识问答的应用.pdf

1、DataFunSummitDataFunSummit#20242024知识图谱增强在知识图谱增强在360360文档知识文档知识问答及管理中的应用实践问答及管理中的应用实践刘焕勇 360人工智能研究院 资深算法专家360360文档云知识管理文档云知识管理/问答应用场景问答应用场景KGKG在文档在文档RAGRAG问答中的应用问答中的应用KGKG在文档标准化、层次化、结构化应用在文档标准化、层次化、结构化应用KGKG与与LLMLLM在文档场景下的挑战及展望在文档场景下的挑战及展望目录目录 CONTENTCONTENTDataFunSummitDataFunSummit#202420240101360

2、360文档云知识管理文档云知识管理/问答应问答应用场景用场景非结构化内容管理难扩展非结构化内容管理难扩展企业非结构化数据管理的主要挑战是数据的储存、访问、控制、共享和协同,这些挑战需要高效的技术和策略来解决。非结构化数据利用率低非结构化数据利用率低非结构化数据格式复杂,如文本、图像,数据处理成本高,数据分析难度高,数据创新空间低。55%-80%55%-80%的组织业务数据处于沉睡状态,价值呆挖掘Source:Spiceworks2018202533ZB175ZB175ZBIDC 预测,到2025年全球数据量将增长至175 175 ZBZB80%-90%非结构化数据非结构化数据业务痛点业务痛点:

3、非非结构化数据快速增长,有效管理和价值挖掘面临结构化数据快速增长,有效管理和价值挖掘面临挑战挑战企业文档包含大量高质量私域语料数据Office文件、PDF等数据统一结构化处理能力只要持续产生新文档,就有新的数据生成有数据有数据存储和管理海量的存储和管理海量的高质量高质量企业数据企业数据资产资产懂安全懂安全基于组织和权限保护企业数据安全基于组织和权限保护企业数据安全文档云对文件的9级权限校验文档云全生命周期安全防护,覆盖云端扫描+本地态势感知及外发等360360文档文档云三大天然优势云三大天然优势大模型是万事通,对行业知识和专业知识做不到精通;大模型与组织内部的知识不互通、业务结合不紧密,不能满

4、足企业内部业务开展的要求;不懂企业不懂企业缺乏行业深度缺乏行业深度数据安全隐患数据安全隐患容易造成内部数据泄露容易造成内部数据泄露组织内部的Know How是核心竞争力,不适合训练到大模型中,容易造成内部数据泄露。大模型应用痛点大模型应用痛点赋能大模型赋能大模型个性化个性化用户行为记录形成结合上下文的关联用户行为记录形成结合上下文的关联用户最新的使用文档用户的收藏文档及常用标签记录用户的所有操作行为上下文关联上下文关联缺失用户业务行为数据缺失用户业务行为数据完全结合问题上下文的推理周期长及准确度不高上下文的长度受限对用户的业务行为数据不了解业务痛点业务痛点:大大模型落地应用老大难问题模型落地应

5、用老大难问题0202智能文档云智能文档云文档云融合GPT,实现文件助手和智能知识库打造文件助手,助力知识洞察/发现/创作场景,解锁企业内容价值满足企业和个人用户的生产力需求,实现云盘向企业/个人知识大脑全面升级,加速产业知识智能方案进化0101企业网盘企业网盘/文档云文档云从基础工具到数字资产管理平台的升级提供一站式文件全生命周期管理及知识协作服务,为企业打造文档云、知识库、大数据平台等解决方案构建企业非结构化数据中台,提升企业内外部协同效率360360智能文档云方案智能文档云方案:从企业网盘到智能文档云从企业网盘到智能文档云360360智能智能文档方案文档方案:读得读得懂、搜得到、答的准懂、

6、搜得到、答的准 读得懂:借助大模型的能力,对文档内容进行深度解读和读得懂:借助大模型的能力,对文档内容进行深度解读和总结总结 搜得到:借助大模型的能力,快速从海量知识文档中获取搜得到:借助大模型的能力,快速从海量知识文档中获取答案答案 答得准:借助大模型的能力,提供准确匹配的搜索答得准:借助大模型的能力,提供准确匹配的搜索结果结果智能应用推荐智能应用推荐AgentAgent平台提供平台提供默认助手应用默认助手应用知识问答知识问答360360智能文档应用智能文档应用:一站式一站式知识问答、知识问答、AIAI助手、智能推荐助手、智能推荐9 92 2、接入能力、接入能力知识问答(知识问答(embed

7、dingembedding)将企业内的知识库如员工手册、产品销售资料等通过训练转化为问答助手的语料知识大模型通用问答大模型通用问答员工提出相关问题时,优先基于知识库回答,否则走大模型搜索回答搜索回答。1 1、全局入口、全局入口全局副驾驶,所有界面均可随时随地唤起3 3、融合用户、场景、上下文感知、融合用户、场景、上下文感知基于用户角色权限进行能力和内容展示结合用户上下文(最近访问的文档)进行回答基于使用场景进行内容推送(例如相关文档推荐)360360智能文档应用智能文档应用:一站式一站式知识问答、知识问答、AIAI助手、智能助手、智能推荐推荐1010360360智能文档应用智能文档应用:文档总

8、结、翻译、推荐文档总结、翻译、推荐1 1、文档总结、文档总结场景:科研工作中,快速了解外文文献核心内容,提升论文筛选效率2 2、文档翻译、文档翻译场景:利用总结初步了解内容后,使用全文翻译进行精读3 3、文档推荐、文档推荐预览某篇文档时,自动推荐相关文档给用户智能撰写智能撰写设定文档智能撰写需求,根据要求编写大纲,并后完成大纲细化及段落撰写智能样式智能样式调用文档理解引擎,实现文档文档标题识别和样式转换人工监督人工监督自动撰写流程可以人工干预,调整大纲及参数设定,达到更好的生成效果进度跟踪进度跟踪跟踪文档生成流程环节及进展360360智能文档应用智能文档应用:智能撰写、智能样式、人工监督及进度

9、跟踪智能撰写、智能样式、人工监督及进度跟踪2 2、划词搜索、划词搜索利用大模型对选中的内容进行分段和内容提取,然后调用搜索1 1、搜索模式升级、搜索模式升级利用大模型将搜索内容扩展为多个相关问题;基于上述多个问题调用搜索;使用大模型将得到的多个搜索结果进行相关性排序处理,返回给用户360360智能文档应用智能文档应用:文档搜索文档搜索文档总结文档总结文档翻译文档翻译预览推荐预览推荐360360智能文档应用智能文档应用:文档总结、推荐及翻译文档总结、推荐及翻译DataFunSummitDataFunSummit#202420240202KGKG在文档在文档RAGRAG问答中的应用问答中的应用业务

10、需求业务需求技术方案技术方案数据挑战数据挑战数据使用专业程数据使用专业程 度过高度过高数据模式动态变数据模式动态变 迁困难迁困难语义理解语义理解数据关联探索数据关联探索业务动态扩展业务动态扩展智能检索与问答智能检索与问答非结构化数据计非结构化数据计 算机难以理解算机难以理解多源异构数据多源异构数据 难以融合难以融合数据结构化数据融合自由扩展数据模式行业智能问答回顾回顾:知识图谱需求的根源知识图谱需求的根源-数据痛点下的破局之路数据痛点下的破局之路回顾回顾:360:360知识图谱知识图谱平台平台Representative applications of using LLMs and KGs.R

11、epresentative applications of using LLMs and KGs.参考:https:/arxiv.org/abs/2306.08302:Unifying Large Language Models and Knowledge Graphs:A Roadmap现实现实:知识图谱知识图谱VSVS大语言模型大语言模型 Fine-grained categorization of research on unifying large language models(LLMs)with knowledge graphs(KGs).方向方向:知识图谱与大模型结合知识图谱与大

12、模型结合范式范式文档Chunks分块策略分块策略区块大小区块重叠Embedding Embedding 策略策略算法:M3E Text2Vec E5Embeddings文档召回(检索)Prompt上下文生成策略上下文生成策略要检索的块数处理重叠块LLM LLM 选择选择使用以下所有可能的组合生成响应:使用以下所有可能的组合生成响应:分块策略嵌入策略上下文生成策略LLM选择360 智脑ChatGLMLlama2ChatGPT响应结果评估结果评估测试数据集评估算法:BERT、ROGUE0.910.750.74最佳应用带分数的模型结合方案结合方案:RAGRAG知识增强的知识增强的文档文档问答问答结合

13、方案结合方案:使用知识图谱增强使用知识图谱增强文档问答的文档问答的全链路全链路文档问答文档问答中实际的问题中实际的问题大模型进行私有化文档问答常受到长尾问题的影响,容易出现幻觉。私有化文档内容结构十分复杂,层级结构较多,且元素众多,大模型区分能力有限。RAG流程很长,受到文档标准化、chunck切分、lost in middle影响,chunck之间语义隔断使用知识图谱增使用知识图谱增强大模型的问答效果强大模型的问答效果:在知识整理阶段,用知识图谱将文档内容进行语义化组织;在意意图识别图识别阶段,用知识图谱进行实体别称补全和上下位推理【受控改写】在PromptPrompt组装组装阶段,从知识图

14、谱中查询背景知识放入上下文【精准召回】;在结果封装阶段,用知识图谱进行知识修正和知识溯源用知识图谱进行知识修正和知识溯源。【自我。【自我修正】修正】参考:知识图谱与大模型融合实践研究报告DataFunSummitDataFunSummit#202420240303KGKG在文档标准化、层次化、在文档标准化、层次化、结构化应用结构化应用页面文本内容页面文本内容目录文本内容目录文本内容图片内容抽取图片内容抽取表格内容抽取表格内容抽取文档内容页码文档内容页码标准版式的识别,满足按照段落内容的提取,实现更好的段落主题提取及内容拆分,实现更准确的问题答复标准版式不同图文混排,多段落划分等版式进行识别,并

15、进行存储。满足用户提问时更准确的答复。复杂版式支撑方案支撑方案:复杂文档版面分析复杂文档版面分析0101版面分析版面分析助力细粒度知识加工助力细粒度知识加工目录识别目录识别段落识别段落识别表格识别表格识别图像识别图像识别助力大模型接入业务语境助力大模型接入业务语境0202海量知识管理海量知识管理0303问答增强问答增强提升问答效果提升问答效果基于文档生成问题基于文档生成问题基于问答记录生成问题基于问答记录生成问题基于问题泛化(相似问题)基于问题泛化(相似问题)支持海量文档训练支持海量文档训练关联知识库关联知识库/文件夹文件夹自动增量训练自动增量训练支撑方案支撑方案:细粒度细粒度知识体系知识体系

16、构建及知识问答构建及知识问答编辑者预览、下载上传组织维度组织维度知识管理维度知识管理维度RAGRAG微调微调支撑方案支撑方案:分阶段分阶段海量海量知识库管理知识库管理KGKG增强方案增强方案:基于知识图谱生成文档基于知识图谱生成文档微调问答微调问答对对 结构化数据生成qa对 人工定义模板,快速生成QA对;基于百科infox数据与正文,生成RAG微调数据 让模型针对q进行改写,缓解领域微调数据荒的问题 智能文档处理是指通过计算机自动识别、分析、处理文档中的文字、图片、表格等信息,实现自动化处理文档。文档中包括图表、标题、目录、表格、段落等层级信息,利用知识图谱结构存储文档布局信息,从文档中提取出

17、逻辑层级结利用知识图谱结构存储文档布局信息,从文档中提取出逻辑层级结构、文本内容、表格内容、构、文本内容、表格内容、Key-ValueKey-Value键值字段、样式信息等。基于对文档的内容信息、版面信息和逻辑信息的分析理解,以键值字段、样式信息等。基于对文档的内容信息、版面信息和逻辑信息的分析理解,以结构化数据的形态输出抽取结果结构化数据的形态输出抽取结果。KGKG增强方案增强方案:基于知识图谱存储文档复杂层级基于知识图谱存储文档复杂层级信息信息KGKG增强方案增强方案:基于知识图谱实体链接、召回方案实现基于知识图谱实体链接、召回方案实现问答问答 相关方案:相关方案:Biomedical k

18、nowledge graph-enhanced prompt generation for large language modelsBiomedical knowledge graph-enhanced prompt generation for large language models https:/arxiv.org/pdf/2311.17330.pdf https:/ 具体具体实现思想实现思想 对用户输入的query提取实体,然后构造子图形成上下文,最后送入大模型完成生成。使用LLM(或bert)模型从问题中提取关键实体(实体识别、链接)。根据实体检索子图,子图很多时,进行排序、剪枝

19、排序 利用获得的上下文利用LLM产生答案。以结构化知识为中心的以结构化知识为中心的magimagi知识搜索知识搜索:magi搜索引擎围绕知识(knowledge)构建。也谈Magi系统:知识(非搜索)引擎下的别样高度与落地批判(https:/ querysub query,以扩大召回面),以扩大召回面),形成标准和多样化的query集合。接着,使用并发检索的方式,针对query进行检索,检索后再进行粗排、精排等方式,召回出符合特定阈值的相关网页文档。最后,将相关网页文档追加至prompt,然后让大模型进行总结回答,回答出答案以及对应的链接。将图谱影子纳入到将图谱影子纳入到AIAI搜索的第三种形

20、式搜索的第三种形式:在query泛化上的不受控,可以借助预先建设好的知识图谱进行控制;也可以在结果整理阶段,加入一些知识图谱的例子(metaso(metaso,360AI360AI搜索搜索);一种schema驱动的AI搜索(global explore)(global explore)进一步延伸进一步延伸:融合融合KGKG的泛的泛AIAI搜索几种方案搜索几种方案思考思考DataFunSummitDataFunSummit#202420240404KGKG与与LLMLLM在文档场景下的挑在文档场景下的挑战及展望战及展望知识图谱助力文档问答等方案的一些现实知识图谱助力文档问答等方案的一些现实挑战挑

21、战 知识图谱可以在问题改写、问题泛化受控上具有直接收益知识图谱可以在问题改写、问题泛化受控上具有直接收益 如果问题涉及到多个实体,如何做好实体链接实体链接?如果实体的关系或者属性很多,如何做好实体关系属性的ranking,以防止检索爆炸 基于结构化好的知识图谱可以在文档问答的微调数据上有帮助,尤其是在拒答方面基于结构化好的知识图谱可以在文档问答的微调数据上有帮助,尤其是在拒答方面 如何更快、更好地自动化构建好结构化知识图谱 如何保证知识图谱的实时性和准确性 知识图谱本体知识图谱本体schemaschema在进行搜索内容组织上会有直接收益,将搜索内容进行重整在进行搜索内容组织上会有直接收益,将搜索内容进行重整;知识图谱本体schema的自动化构建一直是个老大难的问题 如何规模化地进行知识图谱schema生成 知识图谱可以作为单独知识召回源参与到文档问答当中知识图谱可以作为单独知识召回源参与到文档问答当中 如何正确检测已有大模型中的知识是否与现有结构化知识图谱相冲突;两个召回源得到的问答结果如何进行取舍,如何ranking?图谱之形图谱之形&图谱之意图谱之意老刘说老刘说NLPNLP,欢迎关注,欢迎关注感谢观看感谢观看谢谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(刘焕勇-datafuntalk2024知识图谱峰会-知识图谱增强在360文档知识问答的应用.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部