2024峰会-领域大模型的挑战与机遇^7从构建到应用.pdf

编号：158383

PDF 38页 4.43MB 下载积分：VIP专享

下载报告请您先登录！

2024峰会-领域大模型的挑战与机遇^7从构建到应用.pdf

1、DataFunSummit#2024领域大模型的挑战与机遇：从构建到应用梁家卿青年副研究员复旦大学大数据学院复旦大学知识工场实验室01背景预训练语言大模型与大模型时代的知识工程02大模型的领域适配如何构建领域对齐的大模型？03大模型的能力提升如何增强大模型在领域应用中的特别能力？04大模型的协同工作如何让大模型在现有流程中发光发热？目录CONTENTDataFunSummit#202401背景“Given the breadth and depth of GPT-4s capabilities,we believe that it could reasonably be viewed as

2、an early(yet still incomplete)version of an artificial general intelligence(AGI)system”强大的大模型底座知识能力大模型蕴含丰富的世界知识，内涵大量人类常识人工智能之父 MeCarthy：尽管自上世纪 50 年代以来，常识知识一直是科研工作者重点关注的研究领域，但在 AI 众多的分支中(如:模式识别和推理)，该领域是最难解决与突破的分支之一。大模型是否终结了知识工程？大模型的常识推理能力大模型是目前唯一能利用人类常识进行开放推理的技术现实应用中存在大量变数，不能教条式地机械执行传统常识库较小且难以用于实

3、际推理传统规则系统无法事先事无巨细地列举各种特例规则ConceptNet，过于抽象，难以匹配现实场景年龄错误等潜藏矛盾难以事先制定规则避免从封闭到开放开放世界的理解能力大模型Agent可以执行多步复杂任务大模型具备一定的完成复杂任务所需的动作规划与执行能力Ghost in the Minecraft:Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and MemoryOpenAI Code Interpreter可以通过多步编码逐

4、步完成各种复杂任务大模型Agent在Minecraft中自动采集材料、制造工具并最终构建了所有物品大模型在领域落地仍然遇到了诸多挑战推理成本能力缺陷难以协同大模型的推理成本限制其应用大模型推理需要大量时间、算力成本，使其难以用在大规模重复应用中在实际应用中，大小模型协同、按需使用大模型尤为重要Bert模型，每个句子0.05s以内（3090）百亿模型，每秒10-20个token（3090，使用投机采样）100000个句子需要138h千亿模型，调用API，平均每100个词0.03rmb 100000个句子需要3000r和大量时间对于大批量任务，百亿、千亿模型推理成本无法接受文本规模较大，智能要

5、求相对低大模型蒸馏小模型知识抽取需要常识推理，传统模型无法解决必须大模型知识冲突验证需要智能，调用频次较低大模型智能问答大模型在复杂决策场景仍有缺陷 ChatGPT比较好地实现了机器与人类的开放式对话，也就是开放式闲聊然而实际应用场景多需机器的复杂决策能力，复杂决策是领域应用根本特点故障排查、疾病诊断、投资决策等严肃应用场景丰富的应用知识复杂的决策逻辑宏观态势的研判能力综合任务的拆解能力精细严密的规划能力复杂约束的取舍能力未知事物的预见能力不确定场景的推断能力从开放闲聊到复杂决策仍有漫长道路在ToB应用中需要协同能力和可控性定位：具备各种功能的多功能智能引擎各种企业流程已经定型

6、，目前大模型能力仍不可能直接替代企业整个部门大模型和现有员工现有流程的协同是重中之重系统流程设计如何设计大模型在现有企业流程中的角色？企业内部知识如何往大模型中注入企业私有的内部知识，避免幻觉现象？协同协议和接口如何制定大模型和企业现有流程/工具的接口和协议？如何控制大模型的开放能力，使其稳定以指定协议输出？DataFunSummit#202402领域适配领域模型的持续预训练本质上是数据问题相比于训练模型的流程，数据的收集和配比更为重要模型微调方法已经高度同质化和傻瓜化数据选择+数据配比混入通用领域数据以避免灾难性遗忘收集并选择有效的领域知识借助大模型能力进行数据增强借助大模型能力或环境

7、反馈构建数据1GB高质量论文 vs 1TB垃圾网络语料要“高质量”论文模型还是通用网络语言模型？行业/领域大模型的持续训练行业大模型炼制数据缺乏选择依据，是否所有行业数据都要加入训练？样本数量少收集成本高基础模型已经习得是否进行微调不影响模型后续表现太基础，不必要社会保障号码有什么用？买某支股票的流程是什么？数据多，但知识少（比如实时股价）存在隐私问题太细节，不必要公司里面每个人的社会保障号码是多少？实时股价数据是怎样的？行业特有反常识高覆盖形式多样高价值行业数据社会保障号码长什么样子？某股票分析报告？难点针对异质来源的来源提示增强问题：大模型训练中语料配比难以确定，优化不同下游

8、任务需要提高各自对应数据占比方案：预训练时向文本加入语料来源，用异质语料的来源信息辅助模型学习；微调和推理时来源可手动添加也可用预训练模型自我生成效果：在领域和通用的设置下均取得提升；即使不加来源信息也能提高效果 Bank Indonesia expects GDP will be less than 4.9%NewsBooksWikiPaperReviewSourceOriginal TextModelBank Indonesia expects GDP will be less than 4.9%PretrainFinetune&InferenceModelManualNullMode

9、lSourceOriginal TextNoSPManualSPAutoSP经过来源增强的模型在8个下游任务中甚至超越了更大一档规模的未增强模型Yipei Xu,Dakuan Lu,Jiaqing Liang,et al,Source Prompt:Coordinated Pre-training of Language Models on Diverse Corpora from Multiple Sources基于来源增强的模型效果17C1：下游任务中不加入来源信息，完全沿用原来用法也可获得可观效果提升C2：指定或使用同一模型自动识别下游任务的所属来源，可获得更好效果C3：即使下游任务给定

10、错误的来源标签，也可获得效果提升，说明模型在预训练中获得了增强C4：来源标签的表述方法不太重要，即使使用不含语义的抽象字符，来源的划分也能增强模型效果建立训练数据的分类体系掌握大模型炼制工艺的关键参数，及其对大模型效果的评价体系什么样的数据决定怎样的能力？建立数据特性与模型能力之间的因果关系数学、生物学、历史学、哲学、经济学、计算机科学.学科知识领域自然语言、编程语言、逻辑表达式语言类型英语、中文、德语、日语、法语、俄语.语种严肃、正式、幽默、口语、科普、学术.文风新闻、小说、散文、诗歌、自传、日记、网络用语.文体积极、消极、中性、愤怒、快乐、悲伤情感和情绪儿

11、童、青少年、成年人、专业人士、普通大众目标受众科学、文学、艺术、历史、养生、体育、金融、政治题材图像描述、视频描述、音频转录、图表和数据表格多模态数据DataFunSummit#202403能力提升大模型理解复杂指令的能力现有大模型评估基准主要集中在知识、复杂推理、代码。证明小模型已经具备一定指令泛化的能力，可以完成简单指令。然而，专业领域场景下的指令往往非常复杂任务描述：多任务、形式约束、语义约束、数值约束输入文本：长度长、噪音多、异构、多轮对话小模型对复杂指令的理解仍存在较大缺陷忽略语义约束生成的答案不符合形式约束生成的答案长度、样本数量不对不遵循给定的输入

12、文本作答缺乏一个系统性研究大模型复杂指令理解能力的评估基准Can Large Language Models Understand Real-World Complex Instructions?AAAI2024复杂指令评估基准系统性总结了复杂指令的8个特征，构建了包含9个任务的复杂指令评估数据集，提出了4个评估准则以及对应的自动化评估指标，以期系统性地评估大模型理解真实场景下复杂指令的能力针对复杂指令开放任务的评估指标精确匹配不适用于开放任务模糊匹配语义很相似不一定是正确答案 GPT-4打分Large Language Models are not Fair Evaluators

13、得分点设计得分点自动组合和挖掘问题正确答案待评估答案后置nvme硬盘使用的是哪种接口？后置nvme硬盘使用的是pcie接口NVMe硬盘的接口类型为PCIe NVMe。什么是license的公共邮箱？license公邮：License的公共邮箱是：。典型的Agent复杂指令：完成xxx任务从以下行为中进行选择以json格式输出不要有多余的推理过程提升大模型数量推理能力专业领域需要大模型理解大量数值、量纲表述，比如制造业、财务、金融、医疗事件A，临界温度，150K，当前温度-100摄氏度，事件A触发了吗？一个长方形长和宽分别是4米和5米，周长是多少厘米？大模型产生的错误答案：(4+5）*2=

14、18，正确答案：1800（厘米）通用大模型对于数值处理、量纲理解能力有限Enhancing Quantitative Reasoning Skills of Large Language Models through Dimension Perception.ICDE 2024大模型的量纲与数值认知增强优良的数据集、高质量的知识库仍是优化通用大模型某方面能力的捷径量纲单位知识库：通过面向量纲特性的单位知识库，以补充LLM缺失的量纲常识JO U R N AL O F LATEX C LASS FI LES,VO L.14,N O.8,AU G U ST 20153Fi g.1.C apt i

15、onof m odel s.A seri es of probl em-sol vi ng m odel s for textualnum eri cal reasoni ng probl em s are proposed and achi evegood resul ts on the D RO P benchm ark,such as N um N et2,G enBERT 15,N M N s 26,etc.A nother com m on type of textual num eri cal reasoni ngprobl em i s the m ath w ord probl

16、 em(M W P).The descri pti ontext of such probl em s i s m ore i ncl i ned to be presentedi n the formof m athem ati cal appl i cati on probl em s(suchas the cl assi c chi cken-and-rabbi t probl em),i nvol vi ng nu-m eri cal cal cul ati ons such as m ul ti pl i cati on,m ul ti pl i cati onand di vi s

17、i on,and exponenti ati on.These types ofquesti onsrequi res m ore com pl ex and advanced know l edge and ski l l si n m athem ati calreasoni ng.27 i nj ect num eri cal reasoni ng ski l l s i nto know l edgebase questi on answ eri ng m odel s,so as to sol ve m ore com-pl ex know l edge base questi on

18、 answ eri ng probl em s i nvol v-i ng num eri cal enti ti es.Si nce the above m athem ati cal rea-soni ng m odel s focus m ore on abstract num eri cal val uesand i gnore grounded num eri cal val ues w i th uni ts,thei rnum eri cal understandi ng and reasoni ng capabi l i ti es havel i m i tati ons.2

19、.22.2Q uanti tati veQ uanti tati ve R easoni ngR easoni ngC om pared w i th num eri cal reasoni ng,quanti ty reasoni ngi s l ess studi ed.A t present,the research w ork i n thi s aream ai nl y i ncl udes m easurem ent esti m ati on and quanti tati venatural l anguage reasoni ng 1.M easurem ent and e

20、sti m a-ti on task refers to esti m ati ng the si ze of a m easurem entscal e for an enti ty,such as the cl oze probl emof l i onsw ei ght m ask pounds or the si ze com pari son of enti ti es.28 tested on the D oQ dataset 29 to expl ore the abi l i tyofthe l anguage m odelto com pl ete m easurem ent

21、esti m ati ontask.16al so desi gned a si m i l ar experi m ent.W hen aski ngabout esti m ati on questi ons rel ated to uni ts(such as Thereare m ask days i n a w eek),the accuracy of the answ eri s onl y 6.3%.The above tw o detecti on experi m ents showthat the i m pl i ci t know l edge of pretrai n

22、 l anguage m odel i snotenough to real i ze quanti ty understandi ng,and externalquanti tati ve know l edge i s needed as support.30 show sthat PLM s l ack the capabi l i ty requi red for reasoni ng overm easurem ents through probi ng experi m ents.31 appl i edquanti ty understandi ngandreasoni ngto

23、 the task of Recogni zi ng Textual Entai l m ent(RTE)anddem onstrated a certai n quanti ty understandi ng and reason-i ng abi l i ty ofthe l anguage m odel.13constructed a quan-ti tati ve enti ty-ri ch cl oze dataset to predi ct num eri cal anduni t occurrences i n text,enabl i ng quanti ty understa

24、ndi ngand reasoni ng.These tasks are rel ati vel y si m pl e and thetypes of uni ts i nvol ved are l i m i ted,m aki ng i t di fficul t toextensi vel y test the quanti ty understandi ng and reasoni ngabi l i ty ofm odel s.3O3OV EV E R R V IE WV IE WThe fram ew ork of thi s paper i ncl udes the fol l

25、 ow i ng threem odul es,as show n i n Fi gure 1.1)D im ensionalD im ensionalknow ledgeknow ledge system.system.W e constructed auni t know l edge base w i th di m ensi on(U ni tD i m K B),w hi ch stores basi c i nform ati on of the frequentl yused uni ts ofquanti ti es as w el las thei r correspond-

26、i ng di m ensi on.Based on the know l edge base,w ei m pl em ented a context-based uni t l i nki ng m odul eto l i nk the uni ts of quanti ti es appeari ng i n natu-rall anguage texts to U ni tD i m K B.The di m ensi onalknow l edge systemi s the cornerstone of our w hol ew ork.W i th the i nterface

27、 ofthe system w e can real i ze量纲认知的预训练增强：通过量纲认知预训练，将量纲常识和量纲认知能力隐式注入模型中数量推理下游应用：面向量纲认知的数据增强+基于知识提示增强推理，提升在数量推理任务上的能力经过维度感知增强的模型在带单位的物理量推理任务上显著超过了GPT-4（50.67%vs 43.55%）大模型的自我纠正能力动机：大模型生成答案时，并不是一次性就能形成正确、可信、完备的结果。通过赋予模型自我纠正的能力，模型能够检查自己初始生成结果并且进一步改进生成答案，从而提升模型生成质量。方案：在大模型中引入“内在的自我纠正”机制。设计构造自我纠正数据集，通过指

28、令微调，并提出部分答案掩码（PAM）训练方法，激发大模型的自我纠正能力。使得模型自身能够自发地对自己生成的初始答案进行自我验证、自我修改。经过自我纠错增强的模型，其自我纠错一轮后的问题回答正确率相比直接回答提升5.6%利用模型内在的自我纠正机制处理用户请求的流程自我纠正数据的处理流程基于环境反馈的代码模型修正增强核心思想：使用来自代码执行环境的结果反馈，借助大模型的代码修正能力以及对错误信息的理解能力构建面向命令修正的数据集，增强自研小型专业模型的命令生成能力，使自研模型对运维命令生成具备自我修正能力。以NL2Shell（命令生成）任务为例在训练阶段，使用来自代码执行环境的结果反馈，借助大

29、模型的代码修正能力以及对错误信息的理解能力构建面向命令修正的数据集，构建相应的指令集，通过指令微调，训练小型专业模型对于运维命令的评估、生成与修正能力。在推理阶段，利用自研模型的命令生成与评估能力，实现自研模型的自我反思优化。ShellGPT在领域任务上的性能超过ChatGPT，基于反馈能够提升自然语言转命令、命令纠错准确率约3-5%Jie Shi,Bo Xu,Jiaqing Liang,Yanghua Xiao.ShellGPT:A Small Self-Refining Language Model for Shell Command GenerationDataFunSummit#202

30、404协同工作大模型与知识工程的结合当前大模型能力仍不足以完全替代目前较为成熟的知识工程流程大模型需要与当前成熟的知识工程方案进行协同和结合如知识抽取，知识库问答、文档检索、规则推理系统等大模型使能知识工程传统知识工程流程中的大模型协同知识工程增强大模型领域知识检索增强的大模型应用从“小模型+专家”到“小模型+大模型+专家”极大增强开放推理能力从“端到端”到“检索-增强-溯源-验证”极大缓解大模型“乱说话”的问题大小模型协作的例子大小模型协作是降低应用成本的有效方法绝大多数简单例子（80-20法则），传统的BERT模型就可解决，其应用成本可忽略不计需要常识、推理、分析的样本才交

31、由大模型解决xxx（1957年1月3日-2011年1月2日），男，汉族，安徽人，1984年4月参加工作。xxx和yyy在车库里夜以继日地写出了DOS1.0，这就是微软公司的第一个产品。大模型小模型成功失败/拒答输出结果基于拒答回退的大小模型协作大小模型协作的抽取-纠错-问答流程关系抽取主语纠错同名检测常识检测知识库问答语料文档多，使用小模型基于别名库依赖常识，使用大模型，离线进行小模型筛选，大模型语义识别访问频率低，使用大模型现阶段大模型作为重型高成本工具，应当被用在非它不可的部分大模型使能知识工程沿用传统知识抽取-入库-问答流程，但使用大模型提升其能力为什么不使用大模型直接端到端问答？业

32、务要求高可控性，中间知识库提供了人类维护的接口真实场景中语料的错误或矛盾不可忽视解耦的知识库可以支撑其他更多下游应用大模型在这一流程中起什么作用？不可替代的常识验证和推理能力高准确率的保底/教师方案迄今为止最强大的Few-shot Learner仅需1-3个示例即可让模型完成各种特异的任务仅需不到100条数据的微调即可定制化更复杂的任务大小模型协作的抽取-纠错-问答流程关系抽取主语纠错同名检测常识检测知识库问答语料文档多，使用小模型基于别名库依赖常识，使用大模型，离线进行小模型筛选，大模型语义识别访问频率低，使用大模型基于大模型的抽取：SnoopIE 复杂知识抽取任务需要多种不同的能

33、力识别元素、关系识别、实体配对等通过多阶段指令微调来增强模型抽取能力将现有抽取数据集自动拆分为各种抽取子任务以课程学习从简单到困难训练模型各种子任务使用前通过少量训练适配具体抽取任务中文通用大模型SnoopIEeasySnoopIE新闻抽取简历抽取网页抽取通用NLP任务简单抽取任务实体识别关系抽取复杂抽取任务复杂Schema抽取任务复杂格式定义复杂任务描述具体抽取任务数据微调提升单一任务的抽取能力在新闻人物信息抽取任务中，仅使用300条数据微调达到了92%准确率（由于格式和需求不一致问题，ChatGPT仅有60%准确率）三元组抽取的大小模型协同（LS-RTE）动机：小模型和大模型在不

34、同子任务上各有优劣，大小模型结合可以互相配合，取长补短方法：将三元组抽取任务分解成四部分，每部分让表现最好的模型来做：关系分类：小模型做，只取得分最高的3个关系实体抽取：大模型做，构建提问模板，分两步提问头尾实体实体补全：小模型做，补充大模型的遗漏错误消除：大模型做，把错误的不合语义的三元组删除实验：超过单独小模型SOTA 17.93%，以及单独大模型基线方法 26.7%KG-Verify：基于大模型的知识验证与更新大模型可以对抽取出的知识进行验证，并决策该知识应当插入/替换/丢弃大模型包含大量世界常识，可以进行精准的实体匹配和实体链接通过与已有知识库中的知识进行比对，能够有效

35、纠正逻辑矛盾与常识错误知识验证结束后，对知识库进行更新、补充、删除等不同操作核心：基于知识图谱的证据检索将模糊匹配实体相关信息作为证据，由大模型能力进行推理输入文本2022年度央视十佳主持人评选活动于今日开启，萨贝宁、尼格买提、李咏等知名主持人出席活动，并组织、监督投票工作候选知识（萨贝宁，参加活动，2022年度央视十佳主持人评选）（尼格买提，参加活动，）（李咏，参加活动，）库内知识（撒贝宁，职业，央视主持人）已有知识比对纠错（萨贝宁撒贝宁，参加活动，2022年度央视十佳主持人评选）大模型常识推理验证Prompt：请根据已有信息判断上述知识是否存在逻辑矛盾或常识错误Ans：（李咏，参加活

36、动，2022年度央视十佳主持人评选）错误，李咏已于2018年去世，这与“2022年出席活动”相违背LLM事实验证比对纠错相关知识检索2018年10月25日凌晨5点20分，前央视主持人李咏因癌症在美国去世知识库编辑知识更新知识补充错误/过期知识删除在新闻人物信息抽取任务中，纠错准确率达到了90%，召回率达到70%基于自动生成数据的Schema对齐问题：领域数据库Schema过于复杂，无法放入Prompt上下文中例：200张表格，平均每表100列 Schema检索方案：面向文档的检索方式对Schema检索效果较差 Agent方案：成功率堪忧，同一流程需要重复探索，Memory放不下基于合成数

37、据微调的Schema适配策略通用大模型已有较好的问题意图识别和SQL翻译能力但其不知道领域数据库的具体Schema 在种子样本基础上，大模型自动构造样本让模型学习Schema从通用表述翻译到私有领域表述，需要首先理解领域Schema从私有领域表述翻译到通用表述，只需要通用常识大模型不知道：为何“表现”对应于“近1年区间回报(%)”?大模型不知道：为何“消费基金”需要从基金名字进行查询？未覆盖Schema枚举问题生成SQL生成查询纠正微调训练仅通过约300条样本的微调，对覆盖的Schema部分达到97%问答准确率，且可继续增加数据训练针对大模型文档问答的融合检索方法问题：基于领域文档的检索+

38、问答已经成为常见的流程，但现有方法召回率不高大模型问答中的知识检索对于排序不敏感，但对于召回率和总长度较为关注稀疏检索（如BM25）对领域中常见的精确问题检索效果较好，但缺乏语义泛化性，召回率低稠密检索（如BGE）模糊语义检索效果较好，但容易召回语义相近但不准确的内容，精确率低方案：结合稀疏检索和稠密检索的结果，通过问题中实体的IDF信息控制两种检索结果的融合比例若问题中包含大量专有名词，则应当优先采用稀疏检索（如BM25）的检索结果NoYesTop-k BM25resultsTop-k BGEresultsQueryRecall with BM25If IDF ThresholdRecall

39、 with BGEMore BM25 resultsMore BGE results金融领域问答Baidu SearchSougouQAWeb QARecall5Recall3BM2566.0491.7683.693.2BGE70.7599.8195.897.8Merge Method77.36(+6.61)100(+0.19)96.6(+0.8)98.6(+0.8)效果：融合方法能够明显提升在领域文档检索中的召回率，从而增加回答的正确率检索问答的细粒度溯源能力大模型的幻觉现象已经使得用户不信任大模型产出结果在专业领域，仅有可溯源结果能被用户采信即使是New Bing精确模式，在进行搜索的

40、情况下仍然有严重幻觉现象可溯源的回答可供用户验证，并采信其回答结果检索问答的细粒度溯源何谓“溯源”？：检索文档+原文引用对模型的回答添加外部知识引证的可以供用户检查，提高模型回答的信服力方案：解码硬约束：进入引用模式后，解码时选择的Token必须是原文内容或引用结束标记从算法上保证引用部分和原文完全一致对检索到的参考材料构建后缀树，用于指引进入引用模式后的解码过程通过自动构建数据对模型进行指令微调，形成引用格式和引用标记的生成能力Context:xxxxxxxxxxxQuestion:Answer:根据原文中“xxxxxxxxxxx”所以答案为：Context:xxxxxxxxxxxQuestion:Answer:答案是其原因为参考材料中：xxxxxxxxxxx基于引用的CoT生成可解释溯源感谢观看谢谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2024峰会-领域大模型的挑战与机遇^7从构建到应用.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。