《知识图谱在法律领域的研究与实践.pdf》由会员分享,可在线阅读,更多相关《知识图谱在法律领域的研究与实践.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、知识图谱在法律领域的研究与实践演讲人:赵新颜阿里巴巴达摩院 2023 业务背景图谱构建图计算问答交流业务背景阿里巴巴达摩院-语言智能实验室-应用算法-智能司法组 致力于研究自然语言处理、知识图谱、数据挖掘及文档智能相关前沿技术,并在司法行业取得了丰硕的落地成果。具体研究方向包括法律生成式对话大模型、司法UIE、司法预训练、信息检索、司法知识图谱、司法文本生成以及知识表示与知识推理。团队重视基础研究,近年来在人工智能领域顶会发表论文数十篇,申请专利50余篇,主导/参与四项国家级科技部课题(司法相关),在多项重要竞赛中取得较好的成绩,并在国际A类大会SIGIR2020上承办第一届智能司法works
2、hop(LegalAI2020)。其研究成果在最高人民法院、多家省级高级人民法院、省级人民检察院以及银行等法律相关政府部门及企业上实现成功落地。其中在浙江省高级人民法院落地的“平台+智能司法”项目,被浙江省列为2020十大数字化转型重点项目之一,“凤凰智审”产品被社科院纳入2022法治蓝皮书经典案例,同时智能司法实验室为评为浙江省巾帼创新工作室称号。全国首个超大规模司法知识图谱全国首个超大规模司法知识图谱知识图谱规模高达2.2亿节点、4.9亿关系,融合中国裁判文书网全量数据1.3亿、浙江本地裁判文书全量数据800余万支持检索、画像、问答、逻辑推理等智能应用,且可多元化、低成本扩展深度检索的检索
3、量在2500余次/工作日全国首个落地应用的全国首个落地应用的“法院大脑雏形法院大脑雏形”4大知识服务基础引擎,创新开发60余个算法模型,为全省法院生态提供30余项通用化智能服务,60余项案由化智能服务2大知识服务支持平台,具备模型自学习能力和知识图谱管理能力,实现全场景模型标注、训练和应用一体化服务为浙江全域为浙江全域“数字法院数字法院”提供数智支撑提供数智支撑支撑智慧服务、智慧审判、智慧执行、智慧管理四大业务场景支撑“凤凰智审”案由和地域全面拓展,支持案由从1个扩展为7个;全省使用智审的法院数量增至30家;通过智审立案超8000件;标的额超80亿人民币杭州杭州1313家法院家法院湖州湖州3家
4、法院家法院绍兴绍兴2家法院家法院嘉兴嘉兴2 2家法院家法院宁波宁波2 2家法院家法院温州2家法院台州台州2 2家法院家法院丽水2家法院衢州衢州1 1家法院家法院金华1家法院法律法规解析引擎司法文书解析引擎司法逻辑推理引擎司法人机对话引擎司法NLP自学习平台司法知识图谱管理平台9 9种实体种实体1313种关系种关系智能中台应用成效法律智能849934794384982015 2016 2017 2018 20192015-2019最高人民法院受理案件数量(单位:件)40032012201
5、3200010-2019地方各级人民法院受理案件数量(单位:万件)翻了2.7倍案多人少,345件/人/年 并且持续上升简单案件花费大量精力,重复劳动多案件审理周期长,群众满意度不高ABC法官司法公信司法公信提速升效提速升效裁判标准难统一,同案同判缺标尺D法律法律普惠普惠为什么需要法律图谱高精度多源数据结果可解释任务导向复杂-直观信息聚合可解释性强图计算法律智能法律智能图谱特性图谱特性法律图谱和通用图谱的异同 知识图谱是结构化的语义知识库,用于迅速描述各个事物的概念及其相互关系。通常为“实体-关系-实体”的三元组结构形式 司法图谱是实体+事件图,通过实
6、体将不同案件关联起来,沉淀业务规则,进行信息聚合和直观展示,可以更好的建模实体、事件、案件法律图谱构建法律图谱的构建流程历年裁判文书+数据中台办案数据文书结构化实体抽取案件特征抽取法律法规抽取事件抽取司法知识图谱构建图谱构建 图谱融合知识推理知识更新通过对自然语言描述的检索条件进行语义理解,结合底层强大的司法知识图谱挖掘算法,对海量司法数据进行召回处理,将满足条件的案例聚合后进行多维切片,从案由、时间、地域、主题等不同维度进行汇总分析,为法院领导、法官提供不同视角的案例研判分析数据。司法图谱Schema的演进1.0只有实体类节点 实现简单 通用性好 信息量低司法图谱Schema的演进2.0 从
7、文书要素出发 扩展性强 通用性好 案情表示粒度较粗 规模 覆盖全量裁判文书 节点和边的规模均在10亿级别司法图谱Schema的演进3.0 加入案由化的案情描述节点 信息丰富 实现复杂,对信息抽取能力要求较高由文书形成图历年裁判文书+数据中台办案数据文书结构化实体抽取案件特征抽取法律法规抽取事件抽取司法知识图谱构建图谱构建 图谱融合知识推理知识更新通过对自然语言描述的检索条件进行语义理解,结合底层强大的司法知识图谱挖掘算法,对海量司法数据进行召回处理,将满足条件的案例聚合后进行多维切片,从案由、时间、地域、主题等不同维度进行汇总分析,为法院领导、法官提供不同视角的案例研判分析数据。生成式信息抽取
8、构建基于生成式的要素、关系抽取、归一一体模型;与业界SOTA效果可比,但更加简洁灵活MicroMicro f1 f1 scorescore模型模型交通肇事交通肇事危险驾驶危险驾驶业界SOTA79.290.2BERT序列标注82.786.6生成式抽取85.285.290.390.3通过行为类型“利用信息技术实施盗窃”将同类型案件关联通过律师律所案件的关联,可实现案件律师的匹配线索挖掘,通过地点关联,发现发生在“长清区”的偷车盗窃的比较多,可提醒民警与当地群众防范偷车图计算基于图的数据挖掘多维统计分析/预测企业司法画像分析关联企业风险分析辖区历年企业风险分析企业司法风险预测司法图谱检索个人/企业涉
9、诉查询关联企业查询关联案件查询辖区法院办案类型分布举例检索条件:XX企业近三年年涉诉情况查询检索结果:XX企业2018-2020年共涉诉5起,其中买卖合同纠纷3起,金融借款纠纷1起,民间借贷纠纷1起,涉诉金额达3800万元。举例检索条件:XX区去年企业风险分析分析结果:展示辖区内金融相关案由分布及涉诉金融分布,企业规模分布,未执行案件分布等。通过对自然语言描述的检索条件进行语义理解,结合底层强大的司法知识图谱挖掘算法,对海量司法数据进行召回处理,将满足条件的案例聚合后进行多维切片,从案由、时间、地域、主题等不同维度进行汇总分析,为法院领导、法官提供不同视角的案例研判分析数据。基于图游走的类案推
10、荐 类案一定具有共同案由,共同法条 具有同一当事人、律师、法官的案件为类案的概率较高p5p5结果为空比例结果为空比例纯文本算法0.639831%图游走算法0.80890%基于图表示的律师推荐 场景:根据用户的法律提问,推荐合适的律师 模型:构建问题-律师图,在图中学习律师表示,计算问题表示与律师表示的相似程度,进行律师推荐三类图计算方法的对比图数据挖掘 可解释性好 运算复杂度高,对数据质量要求高 当需要挖掘图中节点和边之间的关系和规律时图游走 可解释性好 容易受到超级节点的影响;需要业务的深刻理解 当需要在图中进行遍历和搜索时图表示 特征建模能力强:能够捕捉图结构特征和节点自身特征 可解释性差;动态图处理复杂 当需要处理图中节点和边的特征和结构时,比如节点嵌入感谢聆听Q&A