上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

5-2 信息抽取统一建模技术及应用.pdf

编号:102344 PDF 34页 4.31MB 下载积分:VIP专享
下载报告请您先登录!

5-2 信息抽取统一建模技术及应用.pdf

1、信息抽取统一建模技术及应用戴岱 百度NLP-资深研发工程师|01信息抽取技术在业务中的定义、问题和挑战02封闭式信息抽取统一建模技术03开放式信息抽取统一建模技术04开源通用信息抽取技术及工具目录 CONTENT|信息抽取技术在业务中的定义、问题和挑战01|信息抽取*:从无结构内容中抽取有用的结构化信息|情感倾向观点描述前所未见华语超级大片场面燃爆了战狼2实体关系事件信息主题标签娱乐影视泛标签华语大片首映要素标签战狼2吴京篇章主体PDF/Word网页HTML扫描图片战狼2吴京导演主演上映时间7月27日晚8点01分战狼29741万59.1%名称票房上座率7月27日晚8点01分,由吴京自导自演的电

2、影战狼2正式全国上映,4小时内横扫9741万票房,上座率高达59.1%,彻底点燃了暑期档。一起被点燃的还有观众的情绪和好口碑。在超百万观众看片后,前所未见的华语超级大片,场面燃爆了成为影评关键词。战狼2上映首日票房破亿纯文本图像特征布局特征跨模态无结构内容信息抽取技术多维度结构化信息主体识别评论抽取标签计算情感分类实体识别关系抽取事件抽取是非分类MONETTransformerTextPromptBounding Box通用信息抽取*与学术界侠义上的定义不同,在实际业务场景中,我们将从内容中抽取信息的任务都定义为信息抽取信息抽取是百度业务中不可或缺的核心技术|Query新闻评论票据病历财报案宗

3、对话智能检索辅助决策消费建议内容推荐自动审校自动录入知识构建客户分析信息抽取技术搜索搜索智能化智慧医疗辅助诊断、病案质控、数据治理电商消费决策、属性补全、商品推荐智慧金融单据录入、审核比对、风险评估智慧法律类案检索、法条推荐、辅助判决客服工单分析、信息录入、案例推荐C端B端信息流内容推荐业务的循证要求,使信息抽取成为不可或缺的一环信息抽取面临任务多、领域多、跨模态、缺数据等挑战|标签计算情感分类主体识别观点抽取实体识别 关系抽取任务复杂多样互联网医疗金融政务法律电商面向多个领域语言视觉融合文档数据标注困难网页图文视频任务复杂领域专业数据私密传统方法单独建模各类信息抽取任务,耗时耗力|分类任务标

4、注任务CLSW1W2W3预训练模型LabelW4SEPCLSW1W2W3预训练模型OW4SEPBIESO标签分类关键词抽取情感倾向问答相关性实体识别阅读理解关系抽取对话理解粒度:句子级/实体级任务:情感/观点/情绪领域:电商/新闻/舆情多模:语音/视频每个场景均需要单独定制p 数据专员标注上千数据p 深度学习专家设计和调优模型p 迭代周期长达几周到几月通用、统一的建模方式有助于降低模型研发成本|通用性差不同任务需要单独设计模型 任务统一单模型支持多种IE任务任务层设计大量数据标注训练调优交付使用少量数据适配交付使用项目3任务层设计大量数据标注训练调优交付使用项目2任务层设计大量数据标注训练调优

5、交付使用项目1项目1交付使用项目2交付使用项目3 迁移性差跨领域难以相互迁移和增强 开放领域优秀的跨领域迁移能力通用信息抽取多任务统一建模传统单任务建模实体关系事件情感多任务训练跨领域数据互联网医疗金融法律通用信息抽取依托于文心ERNIE大模型技术|2019.72019.3ERNIE 2.0全球首次突破90分大关超越人类平均得分GLUE 摘冠ERNIE-ViLERNIE-Doc5项跨模态任务取得最好效果VCR 榜单冠军13项中英文长文本任务取得最好效果2019.12ERNIE-M2021.12020.12理解96种语言在XTREME 榜单夺冠2021.7ERNIE 3.0首个知识增强百亿参数大

6、模型同时具备语言理解与生成能力SuperGLUE 摘冠登顶全球榜首超越人类0.8个百分点2021.12全球首个知识增强千亿大模型鹏城-百度文心ERNIE-ViLG全球最大中文跨模态生成模型ERNIE 1.0中文效果超越BERT国内首个开源预训练模型2020.7中英文16个公开数据集全面领先同时提升单/跨模态任务效果VQA/aNLI 上取得最好效果ERNIE-UNIMO2022.3ERNIE-GeoL2022.5任务知识增强的千亿大模型ERNIE 3.0 ZeusERNIE-SAT地理-语言跨模态大模型语音-语言跨模态大模型基于知识增强的理解与生成大模型ERNIE3.0|持续学习各行各业应用Em

7、beddingEmbeddingTransformer BlockTransformer Block1 1Transformer BlockTransformer Block k k大规模文本数据大规模知识图谱小样本学习自然语言生成网络Transformer BlockTransformer Block k+1k+1Transformer BlockTransformer Block n nTransformer BlockTransformer Block k+1k+1自然语言理解网络通用语义表示任务语义表示微调零样本学习Transformer BlockTransformer Block

8、n n融合自编码和自回归结构既可语言理解也可语言生成特色二从大规模知识图谱和海量无结构数据中学习,突破多源异构数据难以统一表示与学习的瓶颈特色一飞桨4D 4D 混合并行技术,高效支持超大规模模型训练特色三ERNIE学习了海量的语料和知识,极大的提升了通用信息抽取泛化能力|7100万篇领域文章1200万轮人类对话数据7400万知识图谱三元组2.1亿条问答知识10.9亿篇网页语料和词语实体知识封闭式信息抽取统一建模技术02|信息抽取的两种建模方式对比|封闭式建模开放式建模VS建模方式抽取目标固化在网络结构中抽取目标通过Prompt输入训练方式不同领域、任务需要单独训练模型多任务训练需要单独设计所有

9、任务转化为一种任务形式跨领域、跨任务可以统一训练迁移能力任务间较难迁移可跨领域、跨任务迁移数据成本需要较多训练样本(1k)需要较少训练样本(1001k)开放抽取无法实现可实现跨领域、跨任务的开放抽取复杂任务通过不同的任务层设计可以解决各类复杂抽取问题统一任务层设计难以适配所有复杂抽取问题推理性能较好,1-pass预测模型可压缩较差,N-pass预测(N为抽取目标数)模型压缩后迁移能力下降明显适用场景成熟业务场景目标需求封闭、任务定义复杂、推断性能要求成长业务场景需求目标开放、任务定义简单、缺少数据积累封闭式统一建模技术:简化模型选型、攻克复杂任务、提升推理速度|技术首创:位置关注序列标注hph

10、t+ctofinNewYorkOS-LOCOB-Loc_inI-Loc_inCRFBi-LSTMWordCharacter?atPositionAttention?QueensCurrent attentive position phpht复杂场景:级联指针标注 右 胸 疼 痛,呈持 续 钝痛,3天 前 加 重 ERNIE EncoderSelf-AttentionSpan Prediction上腹部疼痛加重转归状态转归时间三天前上腹部疼痛,呈持续性钝痛症状身体部位 症状描述症状描述多粒度嵌套要素识别任务Position-AttentionSpan Prediction属性关系抽取任务Shar

11、ed hidden高效解码:单阶段词对标注ERNIE Encoder坠痛加重三腹天小M EntitiesSESESESEN RelationsToken Pair Representation小 腹 坠 痛 加 重 三 天小腹坠痛加重三天小 腹 坠 痛 加 重 三 天基于位置关注序列标注的实体和关系联合抽取|Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence Labeling.AAAI 2019Background实体和关系联合抽取能够使用单个模型同时建模实体抽取和关系

12、识别,有助于降低误差传导等问题先前方法如NovelTagging*使用一个序列标注模型,无法应对三元组重叠等复杂抽取任务的挑战*Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme.ACL 2017.Novel Tagging*基于位置关注序列标注的实体和关系联合抽取|Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence Labeling.AAAI 2019 提出基于每个位置进

13、行序列标注的Tagging Scheme 引入位置关注的Attention机制,使得模型可以基于不同的位置给出不同的标注结果Methodhpht+ctofinNewYorkOS-LOCOB-Loc_inI-Loc_inCRFBi-LSTMWordCharacter?atPositionAttention?QueensCurrent attentive position phpht基于位置关注序列标注的实体和关系联合抽取|Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence

14、 Labeling.AAAI 2019Results 在同期工作中取得SOTA效果,同时显著提升了复杂三元组抽取能力实现初步的封闭式统一建模,即相同模型结构可以建模实体、关系、事件等不同任务,可简化业务中的模型选型基于指针标注的级联信息抽取模型:攻克复杂场景|医疗等行业面临复杂信息抽取?1?3?3?0?(?)kgid?1?1?基于指针标注的级联信息抽取模型:攻克复杂场景|?fij?P?lj?,32?1?-=3?=?32,?23?.3?4?*?3?.?-=32?1?c?fH?e?e?.?=32?+?223?Sa?M-?*?3?.?-=32?1?-?*?3?.?-=32?1?hd?a?_?Ma?M

15、?)?(?(?$?1?3?2?4?3=?A?23?1=?$?1?1?)?2?4?3=?A?23?1=?$?(?$?(?fijlj?/?fij?flj?问题:需要multi-stage预测,解码效率很低文心大模型ERNIE3.0单阶段(single-stage)词对标注:提升推理速度|推理速度较级联模型最高提升10倍文心大模型ERNIE3.0坠痛加重三腹天小M EntitiesSESESESEN RelationsToken Pair Representation小 腹 坠 痛 加 重 三 天小腹坠痛加重三天小 腹 坠 痛 加 重 三 天开放式信息抽取统一建模技术03|信息抽取的两种建模方式对比

16、|封闭式建模开放式建模VS建模方式抽取目标固化在网络结构中抽取目标通过Prompt输入训练方式不同领域、任务需要单独训练模型多任务训练需要单独设计所有任务转化为一种任务形式跨领域、跨任务可以统一训练迁移能力任务间较难迁移可跨领域、跨任务迁移数据成本需要较多训练样本(1k)需要较少训练样本(1001k)开放抽取无法实现可实现跨领域、跨任务的开放抽取复杂任务通过不同的任务层设计可以解决各类复杂抽取问题统一任务层设计难以适配所有复杂抽取问题推理性能较好,1-pass预测模型可压缩较差,N-pass预测(N为抽取目标数)模型压缩后迁移能力下降明显适用场景成熟业务场景目标需求封闭、任务定义复杂、推断性能

17、要求成长业务场景需求目标开放、任务定义简单、缺少数据积累开放式统一建模技术:攻克跨领域、少样本等难题|前身:基于MRC的抽取式建模UIE:生成式文本到结构建模UIEv2:Domain Pretrained Model总总租金金 SEP总租赁52元,总租赁金额为13852.52元(大写 Span Prediction13852.52元Query:Passage:租金Transformer Layer 1Transformer Layer NUniversal IETransformer?Structural Schema Instructor(person:Steve(work for:Appl

18、e)(start position(employee:Steve)(employer:Apple)(organization:Apple)(person:Steve)(organization:Apple)(time:1997)Structural Extraction Language基于MRC的抽取式统一建模|人物战狼2的导演地震的震级情感倾向正向,负向屏幕色彩的评价词哈莱会见了中国驻埃及大使廖力强由吴京自导自演的战狼2上映发生地震,震级为7.1级,震中屏幕色彩十分鲜艳,显示效果极佳屏幕色彩十分鲜艳,显示效果极佳哈莱廖力强Span Prediction实体关系事件情感评价F1实体关系事件情

19、感平均单任务建模87.692.179.194.788.4统一建模87.892.579.095.688.70.4p Full-set全样本效果不弱于单任务建模p 跨领域小样本场景效果大幅提升自建行业测试集(F1)纯文本平均互联网医疗金融强基线69.657.048.958.5zero-shot81.282.854.172.714.25-shot88.989.868.482.423.9该模型的Base版本已在PaddleNLP开源(UIE抽取版)Transformer Layer 1Transformer Layer N文心大模型ERNIE3.0UIE:生成式文本到结构统一建模Unified Str

20、ucture Generation for Universal Information Extraction.ACL-2022Background几乎所有信息抽取任务都可以统一成结构生成范式生成模型具有足够的灵活性,可以解决各类复杂抽取问题对于复杂schema情况,相比于MRC抽取式模型的N-pass推理,生成模型可以实现1-pass推理|UIE:生成式文本到结构统一建模Unified Structure Generation for Universal Information Extraction.ACL-2022Method(person:Steve(work for:Apple)?Ste

21、ve became CEO ofApple in 1997.Structural Schema InstructorTransformer Layer 1Transformer Layer NUniversal IETransformer(person:Steve(work for:Apple)(start position(employee:Steve)(employer:Apple)(organization:Apple)(person:Steve)(organization:Apple)(time:1997)Structural Extraction LanguageEntityRela

22、tionEvent首创提出了结构化指令提示(SSI)统一刻画不同的抽取任务目标,结构化抽取语言(SEL)统一表达抽取结果UIE单个模型统一建模了实体、关系、事件和情感任务,不同任务数据集可统一训练,使模型具备优秀迁移性通过一个简单的远监督预训练,使得生成模型提前适应SSI和SEL的输入输出形式|UIE:生成式文本到结构统一建模Unified Structure Generation for Universal Information Extraction.ACL-2022ResultsUIE在4大任务13个项目上取得了SOTA效果,平均提升了1.53%|UIE:生成式文本到结构统一建模Unif

23、ied Structure Generation for Universal Information Extraction.ACL-2022ResultsUIE具备非常优秀的小样本迁移能力|开源通用信息抽取技术及工具04|UIE中文版已在PaddleNLP开源,形成了整套的通用信息抽取工具抽取式版本支持Taskflow一键调用、一键微调、一键部署,极大降低了信息抽取任务定制门槛生成式版本提供了完整训练评估流程,供交流学习|Taskflow一键调用新任务docanno标注少量数据一键微调定制一键部署+推理加速Zero-shot效果可用?微调效果未达标?UIE支持Taskflow一键调用,Schema不限定抽取目标实体抽取Key-Value抽取关系抽取属性抽取观点抽取情感倾向UIEhttps:/

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(5-2 信息抽取统一建模技术及应用.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部