《自然语言处理在时空数据治理中的应用.pdf》由会员分享,可在线阅读,更多相关《自然语言处理在时空数据治理中的应用.pdf(49页珍藏版)》请在三个皮匠报告上搜索。
1、自然语言处理技术在时空数据治理中的应用易智瑞研究院产品咨询推广部 陈竞男GeoScene结合NLP的探索实践NLP在时空数据治理中的应用潜力目 录自然语言处理技术的概念和发展020301内容总结0401 NLP的概念和发展自然语言处理(Natural Language Processing,简称NLP)是一门集语言学、数学及计算机科学于一体的科学,旨在让计算机能够理解(NLU)和生成(NLG)人类语言。NLP是人工智能的一个重要分支,被誉为“人工智能皇冠上的明珠”,该领域体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。自然语言处理的概
2、念机器翻译NLP应用场景知识图谱搜索理解邮件分类拼写检查(文本纠错)语音识别、舆情分析、推荐系统、文案生成自动问答NLP技术的发展历程20世纪50年代手写规则时代20世纪70年代统计语言模型时代2003年深度学习时代1过渡期-向量法NPLM,word2vec2013年深度学习时代2RNN及类RNN时期(RNN(LSTM))2015年深度学习时代3预训练模型时期Transformer(ChatGPT)三个大的阶段:规则化、统计化、深度学习词嵌入(Word Embedding),即将词映射到一个向量空间,形成词向量用实数把词汇表示成普通的向量形式,就可以在有限维度表达任意词深度学习时期的NLP技术
3、-词嵌入词嵌入模型:Word2vecFasttextGloVe能捕获词语之间的语义和语法关系:近义词的向量会在空间中更靠近,而反义词则会更远离词向量特点:呼喊呼喊歌唱歌唱树木树木花花猫猫狗狗兔兔基本原理:输入大规模无监督语料,考虑单词的上下文信息,采用神经网络模型进行词向量模型训练2017年谷歌在论文Attention is All You Need提出的序列模型是一种优秀的神经网络架构,能够解决并行训练问题以及上下文长程依赖问题深度学习时期的NLP技术-Transformer代表模型:BERTGPT通过对输入序列中的每个词进行注意力权重的计算,来确定该词与其他词的相关程度。这种机制允许模型根
4、据上下文动态地调整对不同元素的关注度,从而更好地捕捉句子中单词之间的句法特征以及语义特征Self-attention机制:命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、时间、机构名、专有名词等。NLP常见任务-命名实体识别 文本分类是指用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。应用场景:情感分析(积极、消极、中性)主题分类(金融、体育、军事、社会)问答任务(是、否)意图识别(天气查询、歌曲搜索、随机闲聊)NLP常见任务-文本分类*图片来源于网络用户评论分析中应用
5、文本分类 序列到序列通常是指序列到序列模型,用于完成序列转换,应用场景包括机器翻译、文本摘要提取、机器问答、语音识别等。NLP常见任务-序列转换02 NLP在时空数据治理中的应用潜力从非结构化文本中自动提取出时间、地址等实体,形成可读性更高的结构化数据泛在时空信息抽取非结构化文本识别文中的地址、时间、事件等实体识别出的地址匹配坐标位置,在地图上展示命名实体识别技术(NER)时间时间:xxx:xxx地点地点:xxx:xxx事件事件:xxx:xxx以自然语言形式进行查询交互自然语言空间查询空间数据库数据子集(查询结果)查找107国道上的所有加油站金泰大厦周围的医院有哪些判断查询类型(位置、距离、缓
6、冲区)地理实体抽取空间关系抽取填充查询语句,如SQL语句返回结果(图形要素或文本属性)构建更灵活的GIS应用系统促进地理信息从专业走向普适抽取和解译GIS空间查询信息地名地址的治理和应用地址标准化和结构化原地址:北京市朝阳区金泰大厦标准地址:北京市朝阳区西坝河南路1号金泰大厦结构化:City=北京市 district=朝阳区 road=西坝河南路roadnumber=1号 poiname=金泰大厦基于词典、规则、深度学习地址信息检索基于中文分词、全文检索指代消解中国科学院,中科院中国科学技术研究院文本相似度计算、基于规则、有监督学习地址语义相似度基于字符串距离、词向量、余弦相似度cos_sim
7、(8,4,2,1,1,4,4,4,4,8,0,2,2,2,4,4,4,4)=0.938知识图谱本质上是一种大型的语义网络时空知识图谱应用辅助知识抽取的自动化流程助力GIS从地理信息服务向具有认知智能特征地理知识服务发展地理知识问答知识图谱与NLP自然语言处理知识图谱知识抽取NLP技术辅助从非结构化资料中抽取知识实体链接将自然语言文本中出现的实体,链接到知识图谱中的对应实体文本生成知识图谱中的结构化信息可以用于辅助自然语言文本的生成任务问答系统NLP技术用于理解用户的问题,并和图检索语言做转换03 GeoScene结合NLP的探索实践地名地址知识图谱地名地址相关需求地址库建设地名地址是重要的文本
8、型时空地理信息来源重要的社会公共信息,是数字城市和智慧城市重要组成部分地址治理地址匹配GeoScene Geocoding Server地理编码产品GeoScene地理编码服务器(GeoScene Geocoding Server)是专门针对中文地址数据所打造的一套地址标准化与地址匹配解决方案,可支撑从地址治理、地址库建设与维护、到地址查询匹配的完整流程,旨在帮助用户构建属于自己的地址库和地理编码服务,实现地址数据的有效利用。地址数据地址标准化治理地址入库与管理标准地址库(Elasticsearch)(Geocoding Server)GeoScene ProGeoScene Enterpri
9、se 业务应用GeoScene 地理编码产品形态智能地址应用工具箱地理编码服务桌面端服务器端GeoScene地理编码功能模块划分地址治理地址治理模块模块地址抽取地址服务模地址服务模块块融合NLP和深度学习的地址治理方案地址分类地址补全纠错API for Python地址库管理地址库管理模块模块地址入库地址追加地址删除地理编码服务发布正/逆/批量地理编码地址输入提示服务端地址治理地址异常判断地址抽取地址补全纠错地址异常上报异常数据上报异常数据查询GeoScene Geocoding Server版本要求:7.10.04.0新增4.0新增地址治理模块采用深度学习和自然语言处理(NLP)等领域的前沿
10、技术,来辅助解决中文地址标准化治理问题功能说明地址治理工具集工具类型工具用途地址抽取(地址结构化)可以从自然文本中抽取地址实体;同时也可以实现将地址文本按照省、市、县、乡等不同级别进行拆分,实现结构化解析。地址分类用户现存的地址数据可能存在多种不规范情形,如行政区划缺失、片段冗余、片段缺失甚至非地址等异常,该功能可辅助完成地址异常类别的判定。地址补全纠错用于应对中文地址描述不规范的情况,可以补全行政区划、纠正错误描述,辅助地址文本的标准化。地址治理-地址异常判断对输入的地址进行异常判断(分类),将异常分类的结果追加补充到原地址数据当中转换为文本分类问题地址治理-地址补全纠错转换为文本seq2s
11、eq问题地址治理-地址结构化地址结构化结果示例对输入的地址进行拆分(抽取),将拆分的结果补充到原地址数据当中。转换为文本NER问题地址库建设模块第二步:地址入库第一步:创建数据库连接文件地址追加地址删除地址库建设相关工具管理和维护用户自有的地址数据地址服务模块地理编码服务地址治理服务地址异常上报服务123地理编码服务功能-单个地理编码返回指定数量的相关匹配结果(最多)空间参考支持:4326,3857,4490地理编码服务功能-批量地理编码大规模数据可批量分块调用地理编码服务功能-逆地理编码输入坐标,返回地址文本以指定的搜索距离(单位:m)为缓冲区,进行空间查询地理编码服务功能-地址输入提示返回
12、指定数量的地址输入建议(提示)智能提示,提供搜索建议,降低用户输入成本搜索下拉框提示内容填充,比如portal 地图查看器的搜索框地址治理服务以服务形式对外提供地址治理能力,方便多端调用包括地址异常判断、地址结构化和地址补全纠错(标准化)4.0新增异常地址上报服务上报异常数据查询异常数据帮助用户建立地址数据的反馈机制,辅助地址数据的纠错和优化4.0新增应用案例1-某市地址数据治理项目需求通过体系化构建地址、组织机构、法人、自然人等数据引用接口,为全市各政务平台提供统一、规范、开放的服务能力建设成果实现130多万地址数据的入库与管理实现标准地址、行政区划数据引用服务提供地址自动补全、校验、纠正等
13、地址治理服务,有效提升各级政务部门填报数据的准确性 标准数据引用和地名地址标准化治理支撑数据存储、模型训练、接口封装提供模型训练工具和标准服务接口整合数据,实现样本设计和标注调用接口,呈现业务功能应用案例1-方案框架设计应用案例1-地址治理效果训练样本:131874条测试数据:14563条训练轮数:107轮Batch_size:128GPU显存:24G 利用率78%训练耗时:7 hour 18 min行政区划补全纠错的准确率达到90%可补全行政区划可更新区划名称可去除冗余片段可修改错误描述应用案例1-地址治理效果地址异常分类统计准确率在80%左右应用案例2-某市地名地址引擎建设核心需求标准库建
14、设地址匹配与上图数据情况标准地址:“一标三实”标准数据(约180w条)待匹配数据:采集的疫情地址数据,需要匹配上图建设成果地址匹配准确率可达90%以上实现“一标三实”地址数据的入库与管理待匹配数据应用案例3-基于文件构建知识库实践案例背景基于企业内部积累的文档资源搭建专属知识库文档资源庞杂,需进行详细的梳理、分类以形成知识数据情况公司现有产品技术文件资料库,包括资源服务器和云盘资源包含wordpptpdftextshpgdb及图片视频等资料实践成果完成文件知识库构建,覆盖产品类、行业类、人员、专项技术类等10大类实体建成知识库应用系统,支持文件检索、关联搜索、智能问答等获取文件列表全路径名称预
15、处理样本标注训练模型分词和词性标注分类模型推理文件分类构建知识库应用系统采用NLP技术对文件进行自动化分类,有效减少人工参与,提升图谱构建效率文件自动分类通用文本治理工具包中文分词词性标注使用jieba分词工具,对文件的全路径进行分词和词性标注与自定义字典库比对,匹配结果作为其类别标注分类样本分类模型训练分类推理分类结果示例关系构建示例智能问答基于模板匹配文件知识库应用系统04 内容总结NLP与时空数据治理NLP=自然语言理解+自然语言生成发展历程:基于规则统计深度学习基础技术:word Embedding,Transformer,Self-Attention机制常见任务:文本分类、机器翻译、命名实体识别、情感分析迁移时空数据治理领域GeoScene与NLP技术的融合地址治理 地址异常判断 地址结构化 地址补全纠错地址库建设 地址入库、追加、删除地址服务 正/逆向/批量地理编码服务 地址治理 异常地址上报地名地址GeoScene Geocoding Server 产品知识图谱构建 信息抽取 实体分类地理知识服务 关键字搜索 实体搜索 关系搜索 智能问答时空知识图谱