《于政-大语言模型下的文本数据治理.pdf》由会员分享,可在线阅读,更多相关《于政-大语言模型下的文本数据治理.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、大语言模型下的文本数据治理于政海致星图演讲嘉宾于政海致星图研发副总裁知识平台研发中心负责人,产业大模型研发与解决方案架构师,主要研究方向为自然语言处理、知识图谱、深度学习等,并在金融、能源电力和工业制造等领域拥有丰富的产品研发、解决方案咨询设计与项目落地经验,主持、参与了多项人工智能国家专项项目,近年来在IJCAI、TKDE等顶级期刊会议上发表多篇文章,申请专利十余项,科学出版社“新一代人工智能平台建设及其关键技术”丛书人机协同主要作者之一。目 录CONTENTS1.大模型视角下的数据治理价值2.大模型文本数据治理的关键问题与挑战3.大模型文本数据治理的核心技术4.海致大模型应用落地案例大模型
2、视角下的数据治理价值PART 01数据将是未来 AI 大模型竞争的关键要素数据可以视为机器学习模型训练过程中的燃料,没有高质量的数据,就很难训练出高质量的模型。模型训练对数据的依赖性主要体现在以下几个方面:1.数据质量:模型的训练和预测表现在很大程度上取决于数据质量。如训练数据中缺乏高质量的写作数据、对话数据等,就不可能产生高质量的文章和高质量的对话。2.数据量:对于深度学习模型,需要大量的训练数据才能从中学习到复杂模式。如果数据量不足,模型可能无法从中捕获到有用的信息,从而对未见过的新数据做出准确预测,限制模型对复杂长尾模式的学习能力。OpenAI 在Scaling Laws for Neu
3、ral Language Models中提出LLM 模型所遵循的“伸缩法则”(scaling law),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。3.数据代表性:训练数据必须真实反映真实世界的情况,在所有可能的输入空间中都有良好的覆盖。否则,模型可能会在面对未见过的情况时表现不佳。4.数据多样性:训练集的数据应该具有高度多样性,模型可以学习到训练数据中的一般特征,而不是特定于某些特例的特征。资料来源:夕小瑶科技说成为Llama 2唯一中国合作伙伴,TA凭什么?数据将是未来 AI 大模型竞争的关键要素人工智能领域权威学者吴承恩发起了“以数据为中心的 AI
4、”运动:即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有:添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集,清洗,标注等成本。资料来源:Daochen Zha et al.“Data-centric Artificial Intelligence:A Survey”2023,华泰研究大模型数据集分析资料来源:OpenDataLab,CSDN,华泰研究大模型数据集分析尽管国内数据资源丰富,但由于数据挖掘不足,数据无法自由在市场上流通等现状,优质中文优质
5、数据集仍然稀缺。如 ChatGPT 训练数据中中文资料比重不足千分之一,为0.0991%,而英文资料占比超过 92.6%。据加利福尼亚大学和Google 研究机构发现,机器学习和自然语言处理模型使用的数据集 50%由 12 家 Top 机构提供,其中 10 家为美国机构,1 家为德国机构,仅 1 家机构来自中国,为香港中文大学。典型中文开源数据集典型中文数据集数据集描述DuReader 数据集于 2018 年由百度发布。DuReader 是一个大规模的开放域中文机器阅读理解数据集。该数据集由 200K 问题、420K 答案和 1M 文档组成,是迄今为止最大的中文 MRC 数据集。问题和文档基于
6、百度搜索和百度知道,答案是手动生成的。WuDaoCorpora 数据集于 2021 年由北京人工智能研究院、清华大学和循环智能联合发布。WuDaoCorpora 是北京智源研究院最新构建的高质量数据集,悟道文本数据集采用20多种规则从 100TB 原始网页数据中清洗得出最终数据集,注重隐私数据信息的去除,从源头上避免 GPT-3 存在的隐私泄露风险;包含教育、科技等 50+个行业数据标签,可以支持多领域预训练模型的训练。CLUECorpus2020 数据集于 2020 年由 CLUE 发布。CLUECorpus2020 是一个可以直接用于语言模型预训练或语言生成等自监督学习的大型语料库,它有
7、100G 的原始语料库,包含 350 亿个汉字,这些语料库来自 Common crawl。CAIL2018 数据集于 2018 年由清华大学、北京大学、中国科学院软件研究所和中国司法大数据研究院联合发布。CAIL2018 是第一个用于判决预测的大规模中国法律数据集,收录了中国最高人民法院公布 260 万件刑事案件,是现有判决预测工作中其他数据集的数倍。对判断结果的注释也更加详细和丰富。它由适用的法律条款、指控和刑期组成,根据案件的事实描述而定。Ape210K 数据集于 2020 年由猿辅导 AI Lab 和西北大学联合发布。Ape210K 是一个新的大规模和模板丰富的数学单词问题数据集,包含
8、210K 个中国小学水平的数学问题,是Math23K 的 9 倍。每个问题都包含黄金答案和得出答案所需的方程式,有56K 个模板,是Math23K 的 25 倍。WuDaoMM 数据集于 2022 年由清华大学和北京智源人工智能研究院联合发布。WuDaoMM 是北京智源人工智能研究院WuDaoCorpora 开源数据集的一部分。WuDaoMM是图像和文本的多模态预训练数据,完整的数据集包含 6.5 亿对图像和文本,包含几千万对的强相关数据和 6 亿对弱相关数据,包含 19 大类,分别是:能源、表情、产业、医疗、景观、动物、新闻、花卉、教育、艺术、人物、科学、海洋、树木、汽车、社会、科技、体育等
9、。Zero 数据集于 2022 年由北京航空航天大学、清华大学、奇虎 360 人工智能研究所联合发布。Zero 是一种大规模的中文跨模态基准测试,其中包含目前最大的公共预训练数据集ZERO-Corpus 和五个用于下游任务的人工注释微调数据集。ZERO-Corpus 包含 2.5 亿张图片和 7.5 亿篇文字描述,另外五个微调数据集中的两个也是目前中国跨模式下游任务中最大的数据集。资料来源:华泰证券AI大模型需要什么样的数据领域数据对大模型的重要性 未来专业及垂类内容有望成为优质中文数据集的重要来源:1)专业内容平台:知乎,问答知识平台,拥有超过 4300 万创作者产生的超过 3.5 亿条优质
10、中文问答内容,涉及政治,经济,文化,历史,科技等几乎全部门类。微信公众号,内容分享平台,2022 年公众号产出超 3.9 亿篇文章,其中既有专业领域内容分析,也有时事热点分析,这些内容对语言模型的训练迭代有重要作用。2)垂类内容平台:彭博BloombergGPT(基于金融垂类数据),国内在金融,医疗,生物等行业公司的数据可以作为细分领域大模型精确训练的基础。领域数据具有格式多样、复杂,业务专业性强等特点,在数据治理方面面临诸多问题与挑战。行业大模型与领域数据治理行业大模型(L1)基础通用大模型(L0)高质量开放域数据应用场景高质量领域数据细分场景专业模型(L2)高质量场景数据知识库Prompt
11、领域数据治理领域数据治理领域数据治理基于大模型的通用能力,经垂直领域数据的持续训练练就垂域认知能力,是行业大模型落地与应用的一条更为可行的路径。文本数据治理的关键问题与挑战PART 02领域文本数据的特点2、内容复杂、组织多样段落识别;列表关系及内容识别。1、版面复杂多样涵盖各类pdf、扫描件、图片等多种复杂文件类型;需针对页眉页脚、分栏、列表、跨页等多样化信息进行版面解析;需结合OCR能力。3、多因素影响内容召回效果文档内容相似度高(专业文档细分领域、版本迭代等);需要结合文档各级标题信息和段落内容进行匹配;文档段落内容较长,影响与query核心信息匹配;通用的向量相似度算法效果不好(问题与
12、问题匹配 VS 问题与答案匹配);召回率受文档库增大而降低。4、有监督样本构造困难需要较强的业务知识;内网数据无法利用GPT接口构建。典型问题和难点-法律场景难点:关键信息在文件名上query:民事诉讼的证据有哪些?典型问题和难点-规章制度场景1难点:文件版本管理query:申请专精特新需要哪些申请材料典型问题和难点-规章制度场景2难点:段落内容过长,Query与段落相似度低Query:我有国内比赛的获奖证书,可以用来申请工艺大师吗?典型问题和难点-召回率受文档数据量增大而降低电力领域某专业多文档问答场景纵坐标为TOP1召回准确率横坐标为库内文档数量领域数据治理需解决的核心问题1.文档解析2.
13、文本召回优化 文档的版本识别和管理;文档标题等信息的有效利用;文档内容的信息压缩;适用于文档内容召回的向量训练。3.领域高质量QA样本构建大模型文本数据治理的核心技术PART 03大模型文本数据治理的核心技术1.文档解析2.文本召回 文档内容的信息压缩 适用于文档内容召回的向量训练3.领域高质量QA样本构建文档解析核心技术2、分栏识别段落、表格、图片等内容在上下文中的顺序解决方案:版面识别模型,识别文档中的分栏情况。根据分栏坐标和上下左右的先后顺序,对分栏进行排序,再在各个分栏中根据从上到下原则,对段落、表格、图片等内容进行排序,从而确定整篇文档中的每个元素的先后顺序。1、文档周边信息识别解决
14、方案:版面识别模型,识别页眉、页脚、和上下左右周边附加信息坐标,凡在此类坐标范围内的信息解析后打上相应的标签3、段落、表格、图片的精准识别解决方案:版面识别模型先识别出段落、表格、图片元素信息和坐标信息。再基于具体解析方案(OCR解析、文本解析),对每个元素内的信息进行解析,对跨分栏、跨页等被分割的内容进行段落合并。4、列表完整性识别解决方案:版面识别模型,识别列表元素。解析过程中,对跨分栏、跨页等被分割的列表进行合并,对上下相连的列表,判断是否具有相同的列表特征再进行合并。5、标题层级结构判断解决方案:版面识别出的标题,各自截图,按顺序排列。应用标题识别优化的版面识别模型对标题的层级进行识别
15、:结合标题的字体、加粗、数字等标题识别策略,判断标题层级。文档解析引擎技术路径目录生成结果聚合输出格式整理后置处理文本文件表格文件PPT文件音视频文件文本解析文本解析表格解析标题合并分级OCR解析文本OCR表格OCR标题合并分级图片解析图片截图公式OCR公式OCR文件转换版面识别和处理内容解析MDHTML文件转换内容解析文本解析文件转换内容解析文本获取标题文档解析引擎-数据处理流程图解析引擎解析服务判断文件类型txtxls、xlsxdoc、docxppt、pptx图片、音视频pdf文本解析开始解析下载文件取文件名转图片按行读取TXT转PDFWORD转PDFPDF文件PDF转图片版面识别判断是否
16、扫描件文本解析表格解析标题合并分级OCR解析文本OCR表格OCR标题合并分级图片解析图片截图目录生成结果聚合结果上传minio输出格式整理后置处理公式OCR公式OCR返回/结果回调已解析文件(json)ParaGraph特殊字符处理数据处理段落合并分段ES库向量库开始任务文件minio地址业务参数解析任务创建记录日志ParaGraphParaGraph发起解析变更解析状态返回/结果回调查询业务参数大模型文本数据治理的核心技术1.文档解析2.文本召回 文档内容的信息压缩 适用于文档内容召回的向量训练3.领域高质量QA样本构建一张图理解大模型外挂知识库的实现路径知识库文本字符串分块分块分块分块文本
17、区块chunk向量库文本转化划分段落区块文本向量化用户问句+历史问答topN文本内容答案流式生成搜索召回LLM推理Prompt文本向量化用户问句+历史问答+topN的扩充文本构建Prompt文本索引文本索引答案文档内容的信息压缩文本关键词方案1、利用keybert关键词提取算法方案2、利用prompt调用大模型生成对应关键词方案3、对大模型进行关键词提取领域微调方案4、对文档内容进行摘要方案5、基于成分句法分析,提取名词短语,生成关键词1)基于传统 NLP 的成分句法分析,提取名词短语;再通过短语间的依存关系,生成关键词列表2)从完整语句的 Embedding,切换为关键词 Embedding
18、:知识库构建时,基于单知识点入库,入库时提取关键词列表进行 Embedding查询时,对用户的问题提取关键词列表进行 Embedding 后,从本地知识库命中多条记录。3)将单问句中的多知识点拆解后检索,将召回的多条记录交付给 LLM 整合。方法优势:相比传统 Embedding,大幅提升召回精准度。支持单次交互,对多知识点进行聚合处理使用传统 NLP 在专项问题处理上,相比 LLM 提供更好的精度和性能。减少了对 LLM 的交互频次;提升了交付给 LLM 的有效信息密度;大大提升问答系统的交互速度。基于句法关键词方案参考文章 https:/ 的数据结构,使用语义相似度高但不是匹配文档段落的数
19、据作为困难负样本。3.实验对比结果(某电力领域场景)向量方案top1top3top10base-cosent46.5%57.7%80.3%cosent微调后52.1%74.6%90.1%BGE56.3%81.7%91.5%BGE微调后69.0%87.3%97.1%大模型文本数据治理的核心技术1.文档解析2.文本召回 文档内容的信息压缩 适用于文档内容召回的向量训练3.领域高质量QA样本构建领域QA样本构建(以电力场景为例)1.获取电力相关的题库,如注册电气工程师考试等,通过文档解析、正则抽取等步骤,获取题目和答案。2.获取电力领域的图书、教材、技术标准等文档,构建文档库。3.根据题目类型分别进
20、行处理,从文档库中召回段落:(1)填空题以及选择题,把答案回填到题干,作为检索文本,从文档库召回相关段落;(2)问答题使用题目和答案作为检索文本,从文档库召回段落。4.根据检索文本和段落的相关度得分(如段落内容对检索文本的覆盖度等),对结果进行初筛,保留得分高的题目和段落组合。5.人工进行筛选,保留可信的题目和段落组合。6.把按照prompt模板,构造为文档问答的微调训练样本。海致大模型应用落地案例PART 04基于大模型外挂知识库的问答支持pdf、word、txt等文档格式的解析,快速便捷构建知识库;通过语义向量化、内容检索、对话管理等技术手段,实现了对文档知识问答、多轮对话、答案溯源等能力。设置文档库大模型+文档库生成流式答案召回内容文档原文中答案溯源高亮基于大模型外挂知识库的问答表格内容高亮定位基于统一解析引擎,对文档内部表格的内容识别和解析。结合大模型的能力,可以实现表格答案的高亮溯源。基于大模型外挂知识库的多轮问答基于大模型的报告生成提纲主题大模型生成报告基于大模型的摘要总结文本内容大模型生成内容总结基于大模型的图谱查询通过大模型能力将自然语言转换为图查询语言;结合图谱信息进一步实现分析探查图路径的能力感 谢 聆 听