开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合.pdf

编号：155395

PDF 53页 13.22MB 下载积分：VIP专享

下载报告请您先登录！

开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合.pdf

1、DataFunSummitDataFunSummit#20232023大模型研发中的数据工程、自大模型研发中的数据工程、自动化评估及与知识图谱的结合动化评估及与知识图谱的结合刘焕勇-360人工智能研究院-算法专家（老刘说NLP公众号作者）大模型研发中的数据大模型研发中的数据工程工程大模型研发中的自动化大模型研发中的自动化评估评估大模型与知识图谱的大模型与知识图谱的结合结合总结总结目录目录 CONTENTCONTENTDataFunSummitDataFunSummit#202320230101大模型研发中的数据大模型研发中的数据工程工程什么是大模型的数据工程-以数据为中心的AI 以数据为中心的

2、AI:模型不变，通过改进数据集质量提升模型效果大模型的数据工程需要解决的几个关键问题:需要什么数据？数据从哪儿来？数据怎么处理？数据怎么评估？数据怎么管理？回顾:现有大模型基本情况回顾:现有大模型应用场景起底:GPT背后的预训练数据 ChatGPT数据主要来自CommonCrawl、新闻、帖子、书籍及各种网页。CommonCrawl、网页、书籍、维基百科对于训练的贡献量分别为60%、22%、16%、3%。英文维基百科全部内容包含约30亿tokens，仅占到训练数据量的3%。数据上的问题数据上的问题:ChatGPTChatGPT 的知识有限的知识有限 (2021(2021年之前年之前)，真实性

3、无法保障。真实性无法保障。参考:lifearchitech.ai起底:英文主流大模型预训练数据的构成-多语种能力起底:英文主流大模型预训练数据的构成多模态大模型数据集多模态大模型数据集大语言模型数据集大语言模型数据集起底:英文主流大模型预训练数据的构成起底:英文主流大模型预训练数据的构成GPT-3GPT-3The Pile v1The Pile v1WebTextWebTextCommon Crawl(C4)Common Crawl(C4)起底:英文主流大模型常用预训数据-维基百科、书籍维基百科维基百科:维基百科致力于打造包含全世界所有语言的自由的百科全书，由超三十万名志愿者组成的社区编写和

4、维护。截至2023年3月，维基百科拥有332种语言版本，总计60,814,920条目。其中，英文版维基百科中有超过664万篇文章，拥有超4,533万个用户。书籍书籍:主要用于训练模型的故事讲述能力和反应能力，包括小说和非小说两大类。数据集包括Project Gutenberg和Smash words(Toronto BookCorpus/BookCorpus)等。Project Gutenberg是一个拥有7万多本免费电子书的图书馆，包括世界上最伟大的文学作品，尤其是美国版权已经过期的老作品。BookCorpus以作家未出版的免费书籍为基础，这些书籍来自于世界上最大的独立电子书分销商之一的Sm

5、ashwords。起底:英文主流大模型常用预训数据-论文期刊期刊可以从ArXiv和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础，因为学术写作通常来说更有条理、理性和细致。ArXiv是一个免费的分发服务和开放获取的档案，包含物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。起底:英文主流大模型常用预训数据-WebText、Common crawl RedditReddit链接代表流行内容的风向标链接代表流行内容的风向标。Reddit是一个娱乐、社交及新闻网站，注册用户可以将文字或链

6、接在网站上发布，使它成为了一个电子布告栏系统。WebText是一个大型数据集，它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的，每个链接至少有三个赞，代表了流行内容的风向标，对输出优质链接和后续文本数据具有指导作用。CommoncrawlCommoncrawl是2008年至今的一个网站抓取的大型数据集。CommonCrawl是一家非盈利组织，致力于为互联网研究人员、公司和个人免费提供互联网副本，用于研究和分析，它的数据包含原始网页、元数据和文本提取，文本包含40多种语言和不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。WebTextWebText前前303

7、0个域个域 C4 C4前前2323个域名个域名(不包括维基百科不包括维基百科)起底:英文主流大模型常用预训数据-The Pile及代码、论坛 ThePile数据集:一个825.18GB的英语文本数据集，用于训练大规模语言模型。ThePile由上文提到的ArXiv、WebText、Wikipedia等在内的22个不同的高质量数据集组成，包括已经建立的自然语言处理数据集和几个新引入的数据集。除了训练大型语言模型外，ThePile还可以作为语言模型跨领域知识和泛化能力的广泛覆盖基准。起底:中文主流大模型预训数据构成华为盘古大模型华为盘古大模型1.1TB1.1TB中文文本语料库数据组成中文文本语料库数

8、据组成WeLMWeLM大模型训练语料库统计大模型训练语料库统计阿里阿里M6M6预训练数据集构成预训练数据集构成InternVideoInternVideo预训练过程中使用的数据集统计预训练过程中使用的数据集统计起底:中文主流大模型的预训练数据构成起底:中文主流大模型预训练数据的构成-中英对比GPT-3GPT-3 VSVS 盘古盘古alphaalpha与悟道与悟道2.02.0的训练数据来源的训练数据来源参考:lifearchitech.ai起底:中文主流大模型预训练数据的构成-中英语料对应问题的提出:我们需要怎样的预训练数据 AI大模型需要高质量、大规模、多样性的数据集。高质量高质量高质量数据

9、集能够提高模型精度与可解释性，并且减少收敛到最优解的时间，减少训练时长。信源权威可靠、内容价值观对齐、专业领域知识规范性、完整性、准确性、一致性、时效性大规模大规模 Scaling Laws for Neural Language Models中提出LLM模型所遵循的“伸缩法则”(scaling law)，即独立增加训练数据量、模型参数规模或者延长模型训练时间，预训练模型的效果会越来越好。多样性多样性数据丰富性能够提高模型泛化能力，过于单一的数据会非常容易让模型过于拟合训练数据。相关性相关性:回答是否和问题相关，避免答非所问。准确性准确性:是否准确，事实性回答要求完全一致，开放性问答要求

10、语义相近。完备性完备性:是否涵盖了所有要点、有总结、有分析、有扩展等。连贯性连贯性:是否表达流畅、有条理、有逻辑性。安全性安全性:是否包含粗鲁、侮辱性等词汇。专业性专业性:不口水话，不啰嗦，书面用语，专业表达。敏感性敏感性:是否涉及到政治领域、黄反、敏感事件等负面信息。AIAI会话场景下的会话场景下的质量要求质量要求预训练模型预训练模型的数据的数据要求要求问题的提出:以数据为中心的预训模型更高质量、更丰富的训练数据是GPT模型成功的驱动力，除模型权重变化之外，模型架构保持相似解决方案:领域预训模型的训练链路-以caMA为例https:/ 以数据为中心的AI:模型不变，通过改进数据集质量提升模型

11、效果解决方案:以数据为中心的大模型预训数据工程-工作流拆解解决方案:以数据为中心的大模型预训数据工程-采集、标注与评估解决方案:以数据为中心的大模型预训数据工程解决方案:以数据为中心的大模型预训数据工程-数据源的选取目标目标:构建起大规模、多样性的数据，需要广泛收集并标准化各类语料，构建起大规模、多样性的数据，需要广泛收集并标准化各类语料，建立数据体系、数据来源，分开收集。解决方案解决方案:数据源的选取依据数据源的选取依据数据体系是否完备站点来源是否权威数据规模是否大数据实时性是否足够下游任务是否有需求下游技能有哪些表现差的能力网站数据网站数据通用网页搜索数据问答数据知

12、识图谱百科代码推理数据专业文献专业文献研究报告学术论文、期刊、书籍、文学著作行业数据行业数据任务评测数据集多语种数据集金融、法律、房地产、体育、医药、影视领域语料解决方案:以数据为中心的大模型预训数据工程-站点过滤与噪声信息清洗目标目标:语料中存在大量不干净、广告、隐私、敏感数据，需要进行剔除，保证高质量。语料中存在大量不干净、广告、隐私、敏感数据，需要进行剔除，保证高质量。解决解决方案方案:质量分档质量分档模型模型基于高优语料数据，使用fasttext分类器，分为4档，0，1，2，3:2 3 认为是优质数据特征使用包含title以及CEloss.边缘文本剔除边缘文本剔除

13、模型模型高优语料数据，使用fasttext分类器，识别正文文本使用不含title-ce分类器.垂直网页处理垂直网页处理 Pattern级高优语料提取定制化边缘文本剔除.基于规则的噪声清洗基于规则的噪声清洗空格、特殊符号剔除，繁简体转换语种检测敏感信息，如脏话、煽动性言论和其他非法内容剔除隐私数据识别与处理（私人信息(即身份号码、电话号码、qq号码、电子邮件地址等）.基于模型的噪声清洗基于模型的噪声清洗 PPL判定模型，剔除不连贯文本.解决方案:以数据为中心的大模型预训数据工程-网页分类建模目的目的:网页分类建模的目的在于挖掘细粒度的网页数据，以满足不同类别数据的需求网页分类建模

14、的目的在于挖掘细粒度的网页数据，以满足不同类别数据的需求解决方案解决方案网页标签挖掘 LDA主题词提取文本关键词提取人工审核标签下游技能迭代反馈标签.网页主题分类预设网页类别体系，体育、历史、金融、医药等细分领域标签构造语料分类器，完成语料标签分类:基于BERT.解决方案:以数据为中心的大模型预训数据工程-数据质量控制目标目标:经过模型自动化质量评估后，可以得到质量较高的数据，但数据质量如何量化，如何给出定性的质量经过模型自动化质量评估后，可以得到质量较高的数据，但数据质量如何量化，如何给出定性的质量分？分？解决方案解决方案数据质量数据质量评分评分标计算得分标计算得分计算

15、计算-举例举例：（3分*样本量+2分*样本量+1分*样本量+0分*样本量）/（总量*3）*100 人工确定质量评分标准人工确定质量评分标准正文的语句通顺连贯存在噪音标签/文本存在边框、或者非规范文本在空短页、投毒、堆砌、其它低质、灌水等无价值内容.数据版本数据版本控制控制根据数据生成流程的各个阶段备份管理数据各阶段信息标引.预训数据索引预训数据索引管理管理训练数据问题反馈、定位.数据随机抽样数据随机抽样根据数据源抽样送评人工质量评分按数据源进行质量分高低排序.解决方案:以数据为中心的大模型预训数据工程-预训数据采样 DoReMi:Optimizing Data Mixtur

16、es Speeds Up Language Model Pretraining 实现思想先初始化数据分布，训练一个小参数模型使用群体分布稳健优化（GroupDRO）对领域进行训练，产生领域加权（混合比例）的小型代理模型。用领域权重对数据集进行重新取样，训练一个更大的、全尺寸的模型。参考:https:/arxiv.org/abs/2305.10429解决方案:以数据为中心的大模型预训数据工程-微调数据生成基于人工基于人工标注标注设设定SFT数据标签体系，建立标签体系大类、子类。构造和撰写一些prompt并且写出对应的结果-forSFT任务针对给定的prompt、模型给出的多个结果，标注

17、结果的好坏排序-for Reward Model 基于大模型进行数据蒸馏基于大模型进行数据蒸馏基于大模型self-instruct生成数据基于chatgpt进行结果好坏标注+人工审核解决方案:以数据为中心的大模型预训数据工程-微调数据清洗基于规则的清洗基于规则的清洗过滤敏感词规则过滤无效输入输出关键词替换规则特殊逻辑规则基于模型的多样性控制基于模型的多样性控制基于语义相似度模型的指令去重基于主题控制的指令多样化指令数据复杂化开放数据问题:预训数据是否会不够？Will we run out of data?An analysis of the limits of scali

18、ng datasets in Machine Learning 语言数据将于20302040年耗尽，其中能训练出更好性能的高质量语言数据将于2026年耗尽。此外，视觉数据将于20302060年耗尽。低质量语言数据集数据或将于低质量语言数据集数据或将于20302030年耗尽年耗尽高质量语言数据集数据或将于高质量语言数据集数据或将于20262026年耗尽年耗尽图像数据存量为图像数据存量为8.11e122.3e138.11e122.3e13图像数据集数据趋势或将于图像数据集数据趋势或将于2030206020302060年耗尽年耗尽DataFunSummitDataFunSummit#20232023

19、0202大模型研发中的自动化大模型研发中的自动化评估评估问题的提出:如何进行模型性能的自动化评分人工通过列举相关测试样本，建立评估维度，完成多维度打分基于人工业务评估基于人工业务评估利用下游评测榜单，任务数据集，进行性能评估基于下游任务评测基于下游任务评测利用chatgpt的专业能力，充当裁判，完成打分评估基于基于chatgpt打分打分基于GPT自动化评估中文测试集包含由BELLE项目产生的不同指令类型、不同领域的测试集，总共有12个指令类型，总共1K测试集。测试集类别分布，每个类别的指令的字数长度，以及指令的词语分布（去掉了一些如“问题”“句子”等词）测试指令测试指令:针对每一个类别的测试

20、数据所对应的prompt，通过该类prompt整合eval_set.json中的测试用例，调用ChatGPT或者GPT-4得到评分结果。打分思想打分思想:使用ChatGPT自动打分小工具，一个1k+的测试集合，和对应打分prompt。包含多个类别，采用GPT-4或者ChatGPT打分。地址:https:/ Chatbot Arena:Benchmarking LLMs in the Wild with Elo RatingsChatbot Arena:Benchmarking LLMs in the Wild with Elo Ratings:Chatbot Arena，这是一个大型语言模型（

21、LLM）的基准平台，以众包方式提供匿名、随机的战斗地址:https:/chat.lmsys.org/?arena 采用Elo rating system进行评分Comparison between different evaluation methods.Comparison between different evaluation methods.The side-by-side chatting and voting interface.The side-by-side chatting and voting interface.Fraction of Model A wins for

22、all non-tied A vs.B battles.Battle counts for the top-15 languages.Battle counts for the top-15 languages.基于下游评测任务进行评估DataFunSummitDataFunSummit#202320230303大模型与知识图谱的大模型与知识图谱的结合结合知识图谱认识知识图谱:基于二元关系的知识库，用以描述现实世界中的实体或概念及其相互关系，基本组成单位是【实体-关系-实体】三元组（triplet），实体之间通过关系相互联结，构成网状结构。知识图谱的核心知识图谱的核心:本体实例双层结构本体实

23、例双层结构知识图谱起源知识图谱起源:无标准约束下的语义网络无标准约束下的语义网络知识图谱的认识知识图谱的认识:不同视角下的图谱认识不同视角下的图谱认识知识图谱VS大语言模型相同点相同点本质上都是一种知识库；在实时性和时效性上面临的挑战一致:不同点不同点知识图谱是一种知识的形式化表示大语言模型(ChatGPT)是参数化的知识。KG优势是在于方便debugging，人可理解，图结构表达能力强 ChatGPT就是any data,any task,无所不能，不够简单。结构化知识很难构建（因为要设计知识的结构体系），但易于推理（因为有体系结构）非结构化知识易于构建（直接存起来就行），但很难用于

24、推理（没有体系结构）。大模型用于知识图谱:从知识图谱构建到业务需求应用业务需求业务需求技术方案技术方案数据挑战数据挑战数据使用专业程数据使用专业程度过高度过高数据模式动态变数据模式动态变迁困难迁困难语义理解语义理解数据关联探索数据关联探索业务动态扩展业务动态扩展智能检索与问答智能检索与问答非结构化数据计非结构化数据计算机难以理解算机难以理解多源异构数据多源异构数据难以融合难以融合数据结构化数据融合自由扩展数据模式行业智能问答大模型可以提速从大模型可以提速从知识图谱构建到应用的整体流程知识图谱构建到应用的整体流程大模型用于知识图谱构建:schema生成与数据标注schemaschema生

25、成生成-ESHerESHer:https:/arxiv.org/abs/2305.07280https:/arxiv.org/abs/2305.07280生成排序生成排序数据数据https:/arxiv.org/abs/2303.07610https:/arxiv.org/abs/2303.07610进行数据增强进行数据增强:https:/arxiv.org/pdf/2302.13007.pdfhttps:/arxiv.org/pdf/2302.13007.pdf大模型用于知识图谱构建:知识抽取、推理与知识问答三元组抽取三元组抽取:https:/arxiv.org/pdf/2302.10205

26、.pdf三元组抽取三元组抽取:https:/ 训练前阶段训练前阶段利用大模型于数据清洗，其作为领域经验知识对特定语料进行错误检测或过滤；利用知识图谱直接显式的进行形式化拼接，引入预训练语料；训练中阶段训练中阶段将知识图谱隐式地加入到模型训练中构建以领域知识图谱为中心的下游评测任务，作为模型训练评估训练后阶段训练后阶段引入涉及实体的上下文进行丰富，增强结果可用性对模型生成后的结果进行知识校验，减少模型事实性错误；通过query实体消歧和实体链接，注入搜索实时结果，增强实时性；结合外部知识库进行生成干预KGLLM知识图谱用于大模型训练前阶段:构造预训练数据与微调数据中心词:偏头痛,相关

27、疾病:妊娠合并偏头痛,恶寒发热,相关症状:皮肤变硬,头部及眼后部疼痛并能听到连续不断的隆隆声,晨起头痛加重,所属科室:中西医结合科,内科,发病部位:头部预训练阶段预训练阶段百科数据进行模板化，生成事实性描述文本微调阶段微调阶段根据模板来生成问题用self-instrcut的思路（重点在于多样性）问题:一位年轻男性长期使用可卡因，突然出现胸痛、呕吐、出汗等症状，经检查发现心电图反映心肌急性损伤，请问可能患的是什么疾病？治疗方式是什么？回答:可能患的是心肌梗塞，需要进行维拉帕米、依普利酮、硝酸甘油、阻滞剂、吗啡等药物治疗，并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时

28、停用可卡因等药物，以防止病情加重。问:偏头痛是哪些疾病的并发症？n答:偏头痛的并发症包括妊娠合并偏头痛和恶寒发热。nn问:偏头痛有哪些相关症状？n答:偏头痛常见的相关症状包括皮肤变硬、头部及眼后部疼痛并能听到连续不断的隆隆声以及晨起头痛加重等。nn问:偏头痛属于哪些科室？n答:偏头痛一般归中西医结合科或内科治疗。nn问:偏头痛发病部位在哪里？n答:偏头痛的发病部位一般在头部。知识图谱用于大模型训练中阶段:融合知识的预训练模型两条路:预训练的时候做一个内嵌融合，下游任务上做一个外挂融合。预训练的时候做一个内嵌融合，下游任务上做一个外挂融合。预训练语言模型的训练花费巨大、训练困难，在内嵌知识图谱

29、时仅融入一些相对静态的知识融入一些相对静态的知识动态变化的内容不需要在内嵌时融入，否则模型更新的代价太高。对于动态变化的知识图谱，更可能的融合方法是外挂，通过实时检索将知识融入下游任务的推理中外挂，通过实时检索将知识融入下游任务的推理中。知识图谱用于大模型训练后阶段:基于知识的生成结果干预融合外部知识进行query改写https:/arxiv.org/abs/2110.08387融合自迭代的知识描述融合外部知识库系统融合外部搜索引擎知识图谱用于大模型训练后阶段:外挂专业知识库项目思想项目思想:利用利用 Chat ChatGPTGPT+langchain+langchain实现不同量级的文档

30、问答服务实现不同量级的文档问答服务流程流程:加载文件-读取文本-文本分割文本分割 -文本向量化文本向量化-问句向量化问句向量化 -在文本向量中匹配出与问句向量最相似的top k个-匹配出的文本作为上下文和问题一起添加到prompt中-提交给LLM生成回答。DataFunSummitDataFunSummit#202320230303总结总结大模型的未来发展方向大模型不等于通用人工智能，是通往人工智能的路径大模型的应用边界还在不断被探索，我们都尚处于懂与不懂之间垂直领域微调模型是必然趋势，低成本高效的注入领域知识很重要大模型研发和落地核心是数据数据+场景场景+训练方法训练方法知识图谱在当前场景下需要找准自身的位置，融合共生数据工程是大模型研发的重中之重，数据为王感谢聆听更多技术更多技术思考，可关注老刘说思考，可关注老刘说NLPNLP公众号公众号感谢观看感谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。