《全国社会媒体处理大会-智慧司法:郭军军.pptx》由会员分享,可在线阅读,更多相关《全国社会媒体处理大会-智慧司法:郭军军.pptx(46页珍藏版)》请在三个皮匠报告上搜索。
1、项目类别:国家重点研发计划(司法专项) 所属项目:智慧法院智能化服务技术研究及支撑平台开发,面向司法领域的互联网舆情监测与分析技术研究,汇报人:郭军军 博士 时 间:2020年9月6日,1,3,4,5,目录 CONTENTS,2,0.课题总体介绍,1.司法舆情监测背景及意义,1,3,4,5,目录 CONTENTS,2,2.司法舆情监测总体实现框架,1,3,4,5,目录 CONTENTS,2,3.1 司法文书结构化解析,裁判文书网,北大法宝网,268万条司法文书,规则抽取,算法抽取,判决文书要素知识库,11万条聚法案例,自首,坦白,金额,结构化解析,迭代 优化,3.1.1 司法文书解析案件要素抽
2、取,基于规则的案件要素抽取 涵盖54类罪名类型,每种类型数十种要素 通过要素之间的组合,可以完成类案推送、量刑预测等任务 基于序列标注/多标签分类模型的案件要素抽取 利用基于规则的案件要素进行回标及人工辅助标注的文书数据对规则未覆盖到或者覆盖率低的要素进行进一步抽取,3.1.1 司法文书解析基于规则的要素抽取,对特定类型罪名的文书进行停用词过滤 利用TF-IDF算法、POS tagging、句法成分分析、依存成分分析等工具进行特定罪名类型的TOP关键字提取 根据关键字与其上下文之间的表达关系,转化为正则表达式,完成案件要素抽取任务,3.1.1 司法文书解析序列标注的要素抽取,序列标注模型: 将
3、每个案件文书作为一个序列输入模型。 在序列标注任务中,将案件要素与分案件要素的字分别标注区别。 多标签分类模型: 在多标签分类任务中,文书已有的所有要素作为它的多个标签进行标注。 在原来规则难以覆盖全面(如作案工具)、抽取率低(如是否正当防卫)的要素完成进一步的抽取工具。在已有文书上实现准确率93.72%,召回率92.33%,F1值93.02%的性能,Inputs: ”蓝田县人民检察院以蓝检刑诉(2014)114号起诉书指控被告人王某某犯交通肇事罪,于2014年9月22日向本院提起公诉。本院依法适用简易程序,实行独任审判,公开开庭审理了本案。蓝田县人民检察院代理检察员李金阳出庭支持公诉,被告人王某某到庭参加诉讼。现已审理终结。蓝田县人民检察院指控,2014年7月16日10时许,被告人王某某驾驶陕AD6871号重型货车,沿厚三路由西向东行驶至厚镇边庄村五组路段时,因占道且超速行驶,与迎面方向