1、提纲知识图谱在保险业的应用实体与关系的抽取算法信息提取工具文档标注工具01020304知识图谱在保险业的应用智能交互5保单条款信息提取保险经纪对话记录保险业知识图谱智能问答智能客服客户数据保单数据精准推荐自动理赔反欺诈6https:/ Man+Woman=Queen自然语言处理的任务https:/ 类别-序列 文本生成,图像描述生成 序列-类别 文本分类,情感分析关系提取关系提取 序列-序列(同步)分词,词性标注,语义角色标注实体识别实体识别 序列-序列(异步)机器翻译,自动摘要 拼音输入法分类序列标注用IDCNN和CRF做中文实体识别https:/ etc.到底该用哪种网络结构?17信息提取
2、工具分句、分词消歧词性标注词典信息提取工具NLP预处理预处理机器学习模块机器学习模块(高高recall)深度学习模块深度学习模块word2vecLSTM+CNN,BERT特征提取特征提取number_of_tokenssymbols_in_betweenin_same_sentenceverbs_countverbs_count_in_betweentotal_number_of_entitiesother_entities_in_betweenentity_distanceentity_orderbag_of_wordpos_bigrams_in_betweenbag_of_wordpos_
3、in_between分类分类lrsgdknnsvcrandomforestadaboost实体、关系等信息抽取结果基于规则模块基于规则模块(高高precision)主语宾语标志词同义词词库磁性文章主题针对不同文体定针对不同文体定义规则库:义规则库:Subject+Token(“妻子”)+Object+anythingNewFeatures用户手动输入网络爬取维基百科,百度百科,新闻 etc.标注数据标注数据序列标注HMMCRF实体、关系等信息抽取结果信息提取工具展示层数据可视化用户交互搜索探索查询服务层搜索和排序数据查询数据挖掘存储层数据存储模块数据索引模块API同步同步信息提取工具系统集成文
4、本标注工具为什么需要文本标注工具?22大部分机器学习任务是监督监督学习学习运气好:标注数据自动生成点击百度搜索结果淘宝购物车中加东西豆瓣FM上听音乐运气一般,但有小技巧网络爬取远程监督运气差,也没技巧(大部分时间)手动标注中文标注工具23NLP中很多任务是监督学习任务:序列标注(分词,命名实体识别)分类(关系提取,情感识别,意图识别)开源的中文标注数据远没有英文多垂直领域标注需要垂直领域标注需要领域知识领域知识(保险,金融,健康,法律,公安etc.)现有的标注工具:使用太重太复杂只支持英语非开源,只能用公有云技术过时24基于主动学习的智能标注251.用户标注2.后端主动学习算法分为在线和离线两
5、部分:在线学习算法实时更新模型(使用传统较快的算法,如逻辑回归模型和支持向量机)标注数据积累到一定程度量级,离线模型在后端更新其高准确度的深度学习模型3.离线模型更新后,在可接受的时间内对未标注数据做尽可能多的预测,将置信度排序,取置信度最低的一定量数据作为用户待标注数据.4.重复至第一步262728模块化设计数据流设计29可定制化编程ip:localhost,port:8000,database_type:mongodb,type:classificationname:email_spam_classification,model_type:classification,pipeline:n
6、lp_word2vec,linesplit_preprocess,feature_extractor,online_svm_classifier_sklearn,offline_svm_classifier_sklearn,language:zh,wordvec_file:./tests/data/test_embedding/vec.txt,path:./tests/models,org_data:./tests/data/test_email_classify/email_classify_chi.txt,database_name:spam_emails_chi,labels:spam,notspam,batch_num:10,inference_num:20,low_conf_num:10,confidence_threshold:0.95,log_level:INFO,log_file:null不只是一个标注工具30模块化和模块化和API设计:设计::1.机器学习的人机交互界面2.数据管家原始数据,预处理数据,特征工程数据,人工标注数据,算法预测数据etc.上游模块,如爬虫下游模块,如可视化3.模型管家预训练模型,可配置的在线与离线模型,固化模型4.机器学习预测服务全流程的机器学习工具全流程的机器学习工具Thank you!