上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

面向企业数字化的文档智能技术与应用-王梦佳-2023(1).pdf

编号:155422 PDF 27页 13.05MB 下载积分:VIP专享
下载报告请您先登录!

面向企业数字化的文档智能技术与应用-王梦佳-2023(1).pdf

1、DataFunSummit#2023面向企业数字化的文档智能技术与应用演讲人-王梦佳-阿里巴巴-企业智能-高级算法专家01背景介绍02文档智能技术03大模型之下的文档智能04面向企业数字化的文档智能应用目录CONTENTDataFunSummit#202301背景介绍背景介绍分析:理解:阅读:文档解析与结构化多模态预训练统一文档表示版面分析信息抽取文档分类文档比对文档问答文档生成企业级文档合同文书合同文书个人简历个人简历协议文书协议文书政策文档政策文档发票收据发票收据产品文档产品文档文档智能Document AI行业应用企业级应用通用文档智能文档解析表格理解文档树文档纠错知识抽取知识搜索知识问

2、答文档搜索合同要素抽取合同搜索合同审查合同比对文档问答合同起草技术挑战需求场景多&标注数据少合同/协议/表单/文档小样本学习领域自学习for业务定制文档格式多Word/图片/pdf/html统一文档表示内容元素种类多段落/表格/目录/图形多模态识别文档理解预训练DataFunSummit#202302文档智能技术文档智能技术演进文档理解预训练大规模无标注数据多模态大一统文本+布局Layout+图像信息抽取&文档问答文档解析为纯文本,NLP文本任务,序列标注,NER等版面分析&文档图像分类图像任务图像任务,文档图像的物体检测,检测和识别文档中的标题,段落和表格等单一模态大规模标注数据驱动的特定任

3、务设计文本单一模态文本+布局Layout联合文本+布局Layout+图像image预训练任务设计,跨模态对齐下游任务,预训练+微调MLVMMDCText-Image对齐信息抽取文档分类版面分析文档视觉问答文档智能技术ApachePOIOCRXMLParserPDF Parser文本布局表格图像目录公式统一文档表示多模态文档理解行业预训练文档树版面分析信息抽取文档分类文档问答文档解析表格理解文档树文档纠错知识抽取知识搜索文档问答文档搜索合同抽取合同搜索合同审查合同比对文档问答合同起草文档解析文档理解文档分析文档智能技术底层技术文字检测文字识别结构化检测手写检测OCR词法分析句法分析语义分析文本分

4、析NLP文本文本+布局+视觉文本+布局预训练多模态文档解析WordPDFExcelPPTJPGHTMLMarkdown多模态文档理解通用文档理解领域预训练文本预训练StructBERT文本+布局+视觉联合训练LayoutLM法务预训练Legal-BERT合同预训练Contract-BERT文档树文档层级树文档知识块文档理解DI版面分析通用文档合同文书制度文件咨询报告信息抽取实体关系事件文本分类零样本小样本预训练+微调其他文档比对文档问答文档纠错领域自学习上层应用通用能力垂直领域解决方案文档解析文档纠错文档树表格理解合同抽取合同比对合同审查合同起草企业级应用文档问答知识搜索知识抽取知识推荐文档智

5、能技术typestringparagraph:正文,title:标题,image:图片,table:表格textstring文本信息fontSizedouble字体大小fontNamestring字体名称,华文仿宋boldboolean是否加粗tableInfoDTOdict表格结构信息autoNumberingboolean是否自动编号indexint段落索引pageNoint页码alignmentstring对齐,left/center/right/unknownstylestring段落样式indentint段落索引统一文档表示文本信息富文本meta信息(字体,字号,加粗,对齐)逻辑结构

6、信息文档智能技术文档层级树DataFunSummit#202303大模型之下的文档智能行业预训练模型-LegalBert领域数据大模型底座多任务预训练合同管理合同文书协议文书签章档案知识产权专利创新提案商标版权合规管理风险管理项目管理外部渠道争议管理诉讼案件维权竞争管理StructBERTToken-levelSentence-levelMLMWWMNWM领域大模型LegalBert行业应用合同要素抽取合同审查合同起草合规风险检测专利查重查新合同条款抽取合同文本比对合同信息抽取任务合规文本分类任务行业预训练(PreTrain):法务行业文档密集型,四大领域数据和知识,在通用基础模型基础上构建行

7、业知识预训练模型基础模型:阿里巴巴达摩院开源的预训练模型StructBERT数据:合同域(200W+),合规管理域(100W+),知识产权域(100W+),争议管理域(100W+)多任务预训练:通用自监督Token-level:MLM,WWM通用自监督Token-level:NWM,法务行业词典分词领域预训练任务:合同要素信息抽取领域预训练任务:合规文本分类多模态文档理解大模型Transformer Encoder Layers E(CLS)E(项目)E(采购)E(合同)E(甲方)E(:)E(浙江)E(向阳)E(公司)E(0)E(x01)E(x02)E(x03)E(x04)E(x05)E(x0

8、6)E(x07)E(x08)E(0)E(y01)E(y01)E(y01)E(y02)E(y02)E(y02)E(y02)E(y02)E(maxW)E(x11)E(x12)E(x13)E(x14)E(x15)E(x16)E(x17)E(x18)E(maxH)E(y11)E(y11)E(y11)E(y12)E(y12)E(y12)E(y12)E(y12)PositonEmbeddings y1PositonEmbeddings x1PositonEmbeddings y0PositonEmbeddings x0TextEmbeddingsCLS项目采购合同甲方:浙江向阳公司Text+LayoutE

9、mbeddingsDownstream TasksOCR多模态预训练TextText+Layout模型结构BERT backboneText+2D Position embeddings预训练任务自监督任务:MVLM-保持坐标输入,mask文字并且预测文字(与MLM一致)监督任务:合同类型分类预测多模态文档理解大模型多模态预训练Text+LayoutText+Layout+image模型结构TransformerSelf-AttentionText+2D Position+imageembeddings 预训练任务MVLMText-Image AlignmentText-Image Match

10、ingOCRparserTextLayoutVisualEncoderFeatureMap项目采购合同甲方:浙江向阳公司089!:!#:!#!$:!$!%:!%&:&#:&#&$:&$&%:&%&:&(:&(&):&)&*:&*&+:&+&,:&,Multi-Modal Transformer Encoder Layers Visual/TextEmbedding2D PositionEmbedding1D PositionEmbeddingVisual/TextRepresentationV1V2V3V4T1T3T5T6T7T8T2T4Task1:MVLMTask2:T

11、ext-Image AlignmentTask3:Text-Image MatchingMatchedCoveredCoveredNotCoveredNotCoveredNotCoveredNotCovered多模态文档理解大模型Text EncoderVisual EncoderLayout Encoder法务行业大模型-从PLM到LLM行业预训练模型法务行业数据和知识,在通用基础模型基础上,构建行业知识预训练模型合同域(200W+),合规管理域(100W+),知识产权域(100W+),争议管理域(100W+)行业业务微调高质量法务行业标注数据,对行业预训练模型进行有监督微调,优化业务效果合

12、同审查(4大类审查项,60+审查点),合同要素抽取(6大通用合同要素,18类领域要素),合同条款抽取(20大类条款)业务反馈精调业务回流数据进一步将SFT的行业模型做业务价值对齐精调合同起草(10大类合同模板),合规风险检测(22类合规风险标注数据)行业预训练模型通用大模型之上行业知识增强行业大模型微调高质量行业数据进行有监督SFT业务回流数据法务专家业务反馈结果排序微调精调业务价值奖励对齐精调业务回流强化学习RM和RLBF行业预训练数据合同/合规/知识产权/争议管理行业精标数据合同审查项合同模板合同分类合同要素/条款通义千问法务行业大模型/合同大模型DataFunSummit#202304面

13、向企业数字化的文档智能应用文档智能助力企业数字化合同文书合同文书个人简历个人简历协议文书协议文书发票收据发票收据产品文档产品文档政策文档政策文档结构化,可查看知识化,可管理数智化,可决策Document AI法务HR财务行政公共事务采购战略投资其他文档智能+法务数字化降本合同解析合同要素提取法务智能问答提效合同起草&分类合同比对专利查重查新控风险合同审查合规风险检测资产沉淀法务条款库法务口径库政策文档库文档智能+法务数字化合同全生命周期管理合同条款搜索合同模板推荐合同智能起草起草提交审查/审批签署归档履约合同要素审查合同条款审查合同风险评估合同解析合同要素抽取合同条款抽取合同文本比对用印比对合

14、同知识库合同搜索推荐履约要素结构化履约监控文档智能+LLM+法务数字化信息抽取文档审查文档分类文本摘要文档生成ChatContract-和合同对话合同要素抽取任务合同条款抽取任务合同审查类任务合同起草类任务合同摘要生成类任务文档智能+LLM+法务数字化法务生成式问答法律法规业务指引制度TextQA文档解析知识抽取TextChucks知识库文档切分向量表征关键词检索向量检索Query理解与扩展向量表征Prompt生成Query意图理解相关性排序知识增强业务干预法务LLM生成质量评估文档智能+业务定制全链路业务场景定制数据标注-模型训练-模型优化-模型部署全链路,满足业务定制化需求,实现更多业务场

15、景覆盖多场景覆盖合同要素提取(信息抽取)场景实现内外部20+细分场景落地合同审查(文档审查)实现10+细分场景落地合规风险检测(小样本文本分类)实现10+细分场景落地数据标注模型训练评测反馈服务部署iTAG模板配置,样本标注,样本质检可查看模型评测结果和自学习增长曲线训练达标的模型需人工进行加密和部署模型训练,可实时查看训练时间进度其他Document AI法务HR财务行政公共事务采购战略投资文档信息抽取文档版面分析文档比对文档分类文档生成文档审查简历解析人岗匹配简历搜索简历推荐合同抽取合同比对合同起草合同分类合同审查提案起草合规检测chatContract条款抽取知识管理财报解析研报解析政策解析政策问答票据解析一键报销知识问答文档智能助力企业数字化欢迎交流探讨合作!感谢观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(面向企业数字化的文档智能技术与应用-王梦佳-2023(1).pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部