《人工智能之信息检索与推荐(2019)(71页).pdf》由会员分享,可在线阅读,更多相关《人工智能之信息检索与推荐(2019)(71页).pdf(71页珍藏版)》请在三个皮匠报告上搜索。
1、图目录图 1 信息检索系统构架.2图 2 范内瓦布什(1890-1974). 3图 3 蒂姆伯纳斯李和他的 NeXT 电脑.4图 4 信息推荐系统架构示意图. 5图 5 深度学习模型.11图 6 多媒体检索的基本流程. 14图 7 基于深度学习的推荐系统框架. 18图 8 信息检索与推荐全球顶尖学者分布.28图 9 信息检索与推荐顶尖学者性别比例.28图 10 信息检索与推荐顶尖学者 h-index 分布.29图 11 信息检索与推荐全球学者迁徙图.29图 12 信息检索与推荐领域中国与各国合作论文情况对比图.30图 13 信息检索与推荐国内顶尖学者分布.31图 14 信息检索与推荐顶尖学者分
2、布国内省份 TOP10.31图 15 信息检索与推荐国内学者 TOP10.32图 16 音乐推荐基于内容的推荐算法.57图 17 音乐推荐基于用户的协同过滤推荐.58图 18 音乐推荐基于商品的协同过滤推荐.58图 19 信息检索与推荐的热点趋势图.60图 20 信息检索技术预见图. 62图 21 推荐系统技术预见图. 63图 22 信息检索领域的六个技术关键词.64图 23 信息推荐领域的六个技术关键词.64表目录表 1 信息检索与推荐领域相关资源. 24表 2 信息检索与推荐领域中国与各国合作论文情况.30表 3 信息检索与推荐发展各时期的关键词表.6011 概述篇我们生活在一个信息时代,
3、并正朝着数字化时代迈进。信息社会化、社会信息化、信息生产与消费促进了信息产业和信息技术的飞速发展, 尤其是互联网的发展。 然而互联网规模和信息资源的迅猛发展带来了信息过载的问题, 一方面人们可以获取海量信息, 另一方面信息获取的成本却提高了,人们不仅需要查询信息,还要剔除自己不需要的信息。因此,信息检索与推荐技术应运而生。 信息检索技术可以帮助用户快速查找所需信息, 满足用户的主流需求, 而推荐技术能够在分析预测用户需求的基础上推送用户们可能需要但又无法获取的有用信息,提供个性化服务。信息检索系统与信息推荐技术的产生和发展有效地提高了用户们获取信息的效率, 优化了信息服务系统。 随着人们对信息
4、化技术的依赖加强, 信息检索与推荐将会朝着更加智能化、个性化、专业化的方向发展,成为人们筛选、浏览信息时的必备工具。1.1 信息检索的概念与发展1.1.1 信息检索的概念信息检索(Information Retrieval,IR)是指信息的表示、存储、组织和访问。信息检索有广义和狭义之分。广义的信息检索,包括信息存储与检索,是指信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户的需要将相关信息准确的查找出来的过程。狭义的信息检索仅指信息查询(Information Search),即用户根据需要,借助检索工具,提出查询要求,数据库匹配出与之有关的资料。信息检索的主要环节包括信息内容
5、分析与编码、 组成有序的信息集合以及用户提问处理和检索输出。其中信息提问与信息集合的匹配、选择是整个环节中的重要部分。当用户向系统输入查询时,信息检索过程开始,接着用户查询与数据库信息进行匹配。返回的结果可能是匹配或不匹配查询, 而且结果通常被排名。 大多数信息检索系统对数据库中的每个对象与查询匹配的程度计算数值分数,并根据此值进行排名,然后向用户显示排名靠前的对象,信息检索框架如图 1 所示1。2图 1 信息检索系统构架1.1.2 信息检索的发展历程信息检索的目的是获取所需信息,而这要基于比较完善的检索技术2,用户需求的变化和信息技术的进步对信息检索的发展有着重要的影响。 根据技术的演化,
6、我们将信息检索发展历程分为三个阶段:(1 1)数字图书馆文档电子化时代)数字图书馆文档电子化时代1954 年,Vannevar Bush(范内瓦布什,图 2)在“Atlantic Monthly”7 月号发表了一篇名为“As We May Think”的文章,这篇文章影响了几代的计算机科学家。文章提到: “未来人们能够实现对海量图书资源(1M)进行快速的访问”。概括出了信息检索在数字图书馆时代的特征,即对文档全文内容的快速检索。范内瓦布什在担任美国科学研究与发展办公室主任期间推进了美国军队研究机构与高校研究机构的合作,正是当时在这种合作关系中发挥最重要影响的三所大学(哈佛大学、麻省理工学院、加
7、州大学伯克利分校)与后来成立的美国国防部高等研究计划署(ARPA)合作开发出了互联网的雏形:ARPANET。3图 2 范内瓦布什(1890-1974)1957 年,Luhn 在论文“A Statistical Approach to Mechanized Encoding and Searching ofLiterary Information”里提到“a writer chooses that level of subject specificity and thatcombination of words which he feels will convey the most meanin
8、g.”这是一种以单词作为索引单元的文档检索方法。20 世纪 60 年代, Gerard Salton 创造了信息检索系统 “SMART”(Saltons Magic AutomaticRetrieval of Text),推进了信息检索相关研究的水平提升。SMART 系统并非搜索引擎,但它具备搜索引擎具有的文本索引、查询处理、结果排序等功能。20 世纪 60 年代后期另外两个研究领域需要提及。 第一个是 Julie Beth Lovins 于 1968 年在麻省理工学院开发的词干算法(Stemming Algorithm);另一个研究涉及评估指标,例如William Cooper 在 1968
9、 年提出的“Cooper”,这个度量标准目前已在多个应用程序中大量使用。在数字图书馆时代, 信息检索技术主要应用于封闭数据集合、 单机模式或专网内的主机-终点模式,在商业应用方面,则是提供软件/解决方案,专网内的查询服务。(2 2)早期互联网时代)早期互联网时代随着信息技术的爆炸式发展,信息检索的发展发生了质的飞跃。Tim Berners-Lee(蒂姆伯纳斯李,图 3)基于尚未被商用的互联网提出了万维网(Web)的原型建议。1991 年8 月,蒂姆伯纳斯李在一台 NeXT 电脑上建立了第一个网站 http:/nxoc01.cern.ch/。他一直坚持将公开和开放作为万维网的灵魂。4图 3 蒂姆
10、伯纳斯李和他的 NeXT 电脑1994 年第一届 WWW(International World Wide Web Conference)会议召开,借助Hyper-text(超链接文本)、Links(链接)和 Connected Web(网络)的万维网能够把不同电脑上的文本、图像、声音等链接起来,使得“链接一切”成为了可能,信息检索由此进入了早期互联网时代,即以链接分析为代表的大规模 Web 搜索。在这个时期, 学术界和业界都发生了深刻变化。 国际上开始细分不同的检索任务的评价方法和探讨大规模 Web 数据的评测标准。 国内在 2003 年召开了第一届全国搜索引擎和网上信息挖掘学术研讨会;20
11、04 年召开了第一届全国信息检索与内容安全学术会议;2006 年 11月 21 日成立了信息检索与安全专委会。业界主要表现为第一代搜索引擎和第二代搜索引擎的出现,国外有 AltaVista、Excite、WebCrawler 和 Yahoo!国内有应用于国防和安全领域的“天罗”,和面向公众提供服务的天网。第二代搜索引擎的代表是 1998 年成立的 Google和 2000 年 1 月创建的中文搜索引擎-百度,在百度之后,多家中文搜索引擎相继出现,例如,中搜、搜狗、搜搜和有道。这个时期信息检索的应用形态的特征是开放的、大规模的、实时的、多媒体的。尤其巨型搜索引擎采集到的公开数据和用户访问日志等非
12、公开数据深刻地影响着这一时期信息检索领域的创新模式。(3 3)Web2.0Web2.0 时代时代在 Web2.0 时代, 用户对 Web 有更深入的参与需求, 这就对信息检索提出了更高的要求。信息搜索的发展开始更加关注用户需求,以实现内容与行为的精准 Web 搜索。这个时期的信息检索实现了内容数据与社会各侧面的电子化数据(万维网、社交网、物联网、地理信息等)的全面融合;尤其是对社交网络数据的采集和大数据处理技术出现了社会化趋势。51.2 信息推荐的概念与发展1.2.1 信息推荐的概念互联网规模和信息资源的迅猛增长带来了信息过载的问题, 如何获取所需信息日益困难。以“信息推送”为服务模式的信息推
13、荐系统,是当前解决信息过载问题的主要手段。信息推荐(Information Recommendation)是指系统向用户推荐用户可能感兴趣但又无法获取的有用信息,它的实现主要依靠推荐系统。信息推荐的系统架构和运行方式吸收了信息检索系统设计中许多有价值的经验, 例如文档处理与查询处理过程与传统信息检索系统的运行原理。 总体而言, 搜索引擎系统由数据抓取子系统、内容索引子系统、链接结构分析子系统和内容检索子系统四个组成部分构成3,如图 4 所示。图 4 信息推荐系统架构示意图1.2.2 信息推荐的发展历程上个世纪最后二十年以来互联网的发展和普及为人们提供了一个全新的信息存储、 加工、传递和使用的载
14、体,网络信息也迅速成为了社会成员获取知识和信息的主要渠道之一。一般认为推荐系统(Recommender System)的研究始于 1994 年明尼苏达大学,GroupLens 研究组推出的 Group Lens 系统,该工作不仅首次提出了协同过滤的思想,并且为推荐问题建立了一个形式化的模型,为随后几十年推荐系统的发展带来了巨大影响。6之后,推荐系统的相关技术得到了进一步发展和重视。1995 年 3 月,卡耐基梅隆大学的 Robert Armstrong 等人在美国人工智能协会提出了个性化导航系统 Web Watcher;斯坦福大学的 Marko Balabanovic 等人在同一会议上推出了个
15、性化推荐系统 LIRA; 1997 年, AT&T实验室提出了基于协作过滤的个性化推荐系统 PHOAKS 和 Referral Web;2000 年,NEC 研究院的 Kurt 等人为搜索引擎 CiteSeer 增加了个性化推荐功能;2003 年,Google 开创了AdWords 盈利模式,通过用户搜索的关键词来提供相关的广告。2007 年开始,Google 为AdWords 添加了个性化元素,不仅仅关注单词搜索的关键词,而且对用户一段时间内的推荐历史进行记录和分析, 据此了解用户的喜好和需求, 更为精确地呈现相关的广告内容; 2009年 7 月, 国内首个推荐系统科研团队北京百分点信息科技
16、有限公司成立, 该团队专注于推荐引擎技术与解决方案, 在其推荐引擎技术与数据平台汇集了国内外百余家知名电子商务网站与资讯类网站,并通过这些 B2C 网站每天为数以万计的消费者提供实时智能的商品推荐。信息推荐系统的演变始终伴随着网络的发展, 第一代信息推荐系统使用传统网站从以下三个来源收集信息: 来自购买或使用过的产品的基础内容数据; 用户记录中收集的人口统计数据; 以及从用户的项目偏好中收集的基于记忆的数据。 第二代推荐系统通过收集社交信息,例如朋友、关注着、跟随者等)。第三代推荐系统使用网上集成设备提供的信息。信息推荐系统刚开始专注于通过过滤来提高推荐准确性, 开发并优化了大多数基于存储器的
17、方法和算法,在这个阶段,混合方法提高了建议的质量。在第二阶段,调整和开发了包括具有先前混合方法的社交信息的算法。 作为一种人机交互系统, 信息推荐系统已经广泛应用于社会生活的各个方面,因此系统地探讨信息推荐系统的发展历程具有重要意义。1.3 信息检索和信息推荐的联系和区别信息的检索与推荐都是用户获取信息的手段, 无论是在互联网上, 还是在线下的生活场景里,这两种方式都大量并存,两者之间的关系是互补的:搜索引擎需要用户主动提供准确的关键词来寻找信息, 因此不能解决用户的很多其他需求, 比如当用户无法找到准确描述自己需求的关键词时,搜索引擎就无能为力了。和搜索引擎一样,推荐系统也是一种帮助用户快速
18、发现有用信息的工具。和搜索引擎不同的是,推荐系统不需要用户提供明确的需求,而是通过分析用户的历史行为给用户的兴趣建模, 从而主动给用户推荐能够满足他们兴趣和需求的信息。因此,从某种意义上说,推荐系统和搜索引擎对于用户来说是两个互补的工具。搜索引擎满足了用户有明确目的时的主动查找需求, 而推荐系统能够在用户没有明确目的的时候帮助他们发现感兴趣的新内容。 在实际生活中也有很多运用。 例如很多互联网产品不仅提供搜索功能,还会根据用户的喜好进行推荐,例如,对提供音乐、新闻或者电商服务的网站,必然要提供搜索功能,当用户想找某首歌或某样商品的时候,输入名字就能搜到;与此7同时,也同时要提供推荐功能,当用户
19、只是想听好听的歌,或者打发时间看看新闻,但并不明确一定要听哪首的时候,给予足够好的推荐,提升用户体验。同时,信息的检索与推荐也有着一定的区别,可以分为以下几个方面:首先是主动与被动的不同。搜索是一个非常主动的行动,用户的需求也十分明确,在搜索引擎提供的结果里,用户也能通过浏览和点击来明确的判断是否满足了用户需求。然而,推荐系统接受信息是被动的,需求也都是模糊而不明确的。其次是个性化程度的高低。 搜索引擎虽然也可以有一定程度的个性化, 但是整体上个性化运作的空间是比较小的, 是当需求非常明确时, 找到结果的好坏通常没有太多个性化的差异。但是推荐系统在个性化方面的运作空间要大很多,虽然推荐的种类有
20、很多,但是个性化对于推荐系统是如此重要,以至于在很多时候大家干脆就把推荐系统称为“个性化推荐”甚至“智能推荐”了。再次就是需求时间不同。 在设计搜索排序算法里, 需要想尽办法让最好的结果排在最前面,往往搜索引擎的前三条结果聚集了绝大多数的用户点击。简单来说,“好”的搜索算法是需要让用户获取信息的效率更高、停留时间更短。但是推荐恰恰相反,推荐算法和被推荐的内容往往是紧密结合在一起的,用户获取推荐结果的过程可以是持续的、长期的,衡量推荐系统是否足够好,往往要依据是否能让用户停留更多的时间,对用户兴趣的挖掘越深入,越“懂”用户,那么推荐的成功率越高,用户也越乐意留在产品里。最后是评价方法不同。搜索引
21、擎通常基于搜索引擎通常基于 Cranfield 评价体系,整体上是将优质结果尽可能排到搜索结果的最前面, 让用户以最少的点击次数、 最快的速度找到内容是评价的核心。而推荐系统的评价要宽泛很多,既可以用诸如 MAP(Mean AveragePrecision)的常见量化方法评价,也可以从业务角度进行侧面评价4。82技术篇随着信息产生媒体和载体的多样化, 网络环境中的信息种类越来越多, 信息总量不断增长,内容复杂多样。如何快速的获取信息,准确的将信息推荐给用户,急需相应的理论和技术来支持,利用相应的理论方法和技术手段汇集、过滤、存储、推荐信息,方能满足用户信息查询和获取的需要,提高信息的利用效率。
22、本章遴选部分信息检索与推挤的相关技术,从技术内容的角度对信息检索和推荐进行介绍。2.1 信息检索部分前沿技术2.1.1 集合论模型2.1.1.1布尔模型布尔模型是基于集合论和布尔代数的一种简单检索模型, 是早期搜索引擎所使用的检索模型5。它的特点是查找那些对于某个查询词返回为“真”的文档。在该模型中,一个查询词就是一个布尔表达式,包括关键词以及逻辑运算符。通过布尔表达式,可以表达用户希望文档所具有的特征,例如必须包含哪些关键词,不能包含哪些关键词等等。例如我们希望查找那些既含有“清华”又含有“大学”的网页,那么查询词可以写作“清华 AND 大学”。由于文档必须严格符合检索词的要求才能够被检索出
23、来, 因此布尔检索模型又被称为 “完全匹配检索”(Exact-Match Retrieval)。传统的布尔检索是将用户查询与文献进行逻辑的 (而非数值的) 比较而获得结果的检索。布尔检索模型的突出优点在于这种结构化的提问方式与用户的思维习惯相一致。 同时, 这种模型把复杂的检索过程简单化, 能够将较复杂的情报提问按其概念组面的逻辑关系描述出来,从而变成可以由计算机执行的逻辑运算, 变成机器根据事先确定的程序进行自动匹配的过程,这种运算上的简单易行是布尔检索系统的又一突出特征。 此外, 用布尔检索进行操作的某些系统允许用户通过给他使用的一个有结构的词典来缩小或扩大检索。 所谓有结构的词典是指对任
24、何一个给定的标引词都存储了与之相关的更一般的(上位)或更精确的(下位)关键词的词典。布尔检索很容易利用这些相关项来改进检索。布尔检索在理论上存在的一些缺陷也是不容忽略的,具体包括下列几个方面。(1)布尔逻辑式的构造不易全面准确反映用户的需求。(2)匹配标准存在不合理的地方,严格的匹配可能导致检出的文档过多或过少,难以控制结果输出量的大小。9(3)对检索结果平等对待,不能按照用户定义的重要性排序输出。(4)对用户的检索技能有较高的要求。2.1.1.2扩展布尔模型布尔检索简单优雅,然而,由于它不支持索引项权重,因此它也不生成答案集的排序,故而输出的规模可能过大或者过小。由于这些问题,现代信息检索系
25、统不再基于布尔模型。实际上,大部分的新系统其核心采用某种形式的向量检索。其原因是向量空间简单、快速,能产生更好的检索质量。 另一种方法是用部分匹配和项权重的功能来扩展布尔模型。 这种方法可以使人们可以把布尔查询表达式与向量。考察一个合取布尔查询 q=kxky。根据布尔模型,一篇仅包含 kx或者 ky其中之一的文档与另一篇不包含其中任何一个的文档都是不相干的。然而,这种决策通常与常识不符。鉴于此,Salton、Fox、Wu 在 1982 年引入了扩展布尔模型6。扩展布尔模型扩展了布尔代数,用代数距离来解释布尔操作符。在此意义上来讲,扩展布尔模型是用向量模型的特征来扩展布尔模型。2.1.1.3模糊
26、集模型用模糊集来表示模糊性与不确定性是有价值的,Ogawa、Morita 等人将其应用于信息检索领域7。文档的信息检索过程实际上涉及文档集的表示、用户查询的表示、相似性匹配及其排序三部分。首先,文中用户查询和文档集的表示均采用下列方式表示:A =xi/A(xi),xi U,对于文档集中的 xi为从检索词论域中提取出来的能够代表整个文档意思的检索词集,A(xi)为提取出来的检索词属于该集合的隶属度,可以理解为每个检索词 xi属于该集的权重。对于用户查询中的 xi的解释同文档集中的 xi,其中的A(xi)同样可以理解为权重,或者是该检索词的兴趣度。其次,基于上述给出的主导隶属度函数关系可知,只要查
27、询中的检索词隶属度小于文档中的检索词隶属度, 那么查询检索词集就包含于文档集, 通过这一点就能找出包含某一查询检索词集的所有文档。 这就是文档和查询的匹配。 也就是说当给出了某查询检索词集, 通过包含度定理计算其包含于文档的程度, 根据这个包含度的大小来对检索出来的文档进行排序。102.1.2 代数模型2.1.2.1深度排序模型排序问题是信息检索和推荐系统等领域的核心问题之一8,例如,搜索引擎需要将网页搜索结果按照与用户的检索目的的符合程度进行排序; 推荐系统需要把候选物品按照用户可能感兴趣的程度进行排序,排序结果的精准度和合理性会直接影响检索和推荐的质量。排序学习传统的排序模型构建过程一般通
28、过人工依据经验, 去调整排序模型中所涉及到的一些参数,但这些经验参数不易调节且易产生过拟合;另一方面,尽管这些不同的排序模型大体上都使得排序效果得到了一定的性能提升, 但如何将不同排序模型融合在一起以构建一个性能更优的统一排序模型,并不易于处理。同时,随着影响排序性能的排序特征的不断增加,排序特征已有成百上千种, 传统的排序模型的构建方法已不再适于处理如此多维和复杂的排序特征。而机器学习方法具有能自动调整参数,融合多个模型的结果,通过正则化的方式避免过拟合等优点。 在如此背景下, 涌现了大量的研究者运用不同的机器学习技术去训练排序模型以解决信息检索中的排序问题, 并由此产生了信息检索与机器学习
29、交叉的一个热点研究领域-排序学习。排序学习(Learning to rank)就是利用机器学习方法在排序学习数据集上进行训练,自动产生排序模型,从而解决排序问题。和传统排序模型相比,排序学习的优势在于对众多排序特征进行组合优化, 对相应的大量参数自动进行学习, 最终得到一个高效精准、更加优化的排序模型9。排序学习方法可以根据其训练方式分为 3 类,包括逐点训练(pointwise),成对训练(pairwise)和列表训练(listwise)。其中,逐点训练的训练目标是优化对于一个文档的相关性分数估计, 大部分的回归和分类机器学习方法都能用来训练逐点训练排序学习。 成对训练排序学习每一次关注两个
30、文档, 给定两个文档, 该排序学习会训练给出两个文档的相对顺序,一些比较流行的成对训练排序学习方法包括 RankNet, LambdaRank and LambdaMART。列表训练排序直接对整个列表进行训练, 目标为直接优化列表的相关性排序, 其训练目标可以是直接优化相关性排序指标,例如 NDCG 等,也可以是最小化刻画想要关注的列表的某一特性的损失函数,例如 ListNet 和 ListMLE 等模型。排序学习方法将机器学习方法引入到信息检索的文档相关性排序问题中, 充分考虑各种排序方法对最终排序结果的影响,通过训练学习排序模型,将各种排序方法视为特征,对文档的相关性做综合的评估。排序学习
31、是一个信息检索与机器学习相结合的研究领域。11深度学习针对排序问题, 传统解决方案大多依赖于人工经验, 由专家根据历史数据和待排序项的特征,通过组合一系列排序规则得到排序公式。随着对排序问题研究的不断深入,目前比较常用的做法是利用机器学习相关技术解决排序问题。 与传统解决方案相比, 基于机器学习的排序模型具有更高的计算效率和排序准确度, 得到的排序结果也具有更强的客观性。 近年来,深度学习(Deep Learning)成为学术研究的热点方向,取得了一系列研究成果。深度学习算法模型与逻辑回归模型、 支持向量机以及决策树类算法等传统机器学习算法模型相比, 主要区别体现在深度学习模型的网络结构包含更
32、多更深的层级, 并且明确强调特征表示学习的重要性。该模型基于神经网络模型,却比简单的神经模型更为复杂,所处理的问题也更为复杂多样。最简单的深度学习模型莫过于多层感知机模型,其实深度指的就是隐层的数量,具有一个隐层的神经网络成为浅层神经网络, 具有两层和两层以上的神经网络模型就可以称为深层神经网络模型也称为深度学习模型,如图 5,将传统的一次非线性变换转换为多次的非线性运算组合构成了深度学习, 深度神经网络模型比传统的神经网络模型具有更强的表示能力10。图 5深度学习模型基于深度学习的排序模型深度排序模型(Deep Ranking Model)中比较有代表性的是神经信息检索(NeuralInfo
33、rmation Retrieval)。用于神经信息检索的排序模型使用的是浅层或深层神经网络来对搜索结果进行排序。对模型进行排名的传统学习采用有监督的机器学习技术和神经网络框架,通过人工定义的信息检索特征进行学习排序。 最近提出的神经模型, 可以在同一个向量空间对查询词和文档词汇之间的距离进行定量计算,距离越近,查询词与对应文档越相关。2.1.2.2向量空间模型向量空间模型认识到布尔匹配太有限,提出了一套可以进行部分匹配的框架11。这是通过对查询和文档中的索引项赋予非二值权值实现的。 这些权值最终用来计算系统中存储的文档和用户查询之间的相似度。 通过对检出文档按照相似度的降序排序, 向量模型考虑
34、和查12询仅有部分匹配的文档。相比由布尔模型检出的文档集,其主要效果在于,排序的文档提供了更精准的答案更符合用户的信息需求。向量空间模型概念简单, 把对文本内容的处理简化为向量空间中的向量运算, 并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。 文本处理中最常用的相似性度量方式是将文档向量与查询向量量化成余弦距离。向量空间模型主要优点是:1)权值索引提高了检索质量;2)它的部分匹配策略检出了近似于查询条件的文档;3)词组的权重不是二元的;4)允许计算文档和索引之间的连续相似程度。但是,向量空间模型也有如下局限性
35、:1)不适用于较长的文件,因为它的相似值不理想(过小的内积和过高的维数);2)检索词组必须与文件中出现的词组精确匹配,不完整词组(子字串会导致“假阳性”匹配);3)语义敏感度不佳;具有相同的语境但使用不同的词组的文件不能被关联起来,导致“假阴性匹配”;4)词组在文档中出现的顺序在向量中间中无法表示;5)假定词组在统计上是独立的,并且权重是直观上获得的而不够正式。2.1.2.3潜在语义索引模型通过索引项集合来总结文档与查询内容会导致糟糕的检索质量,这咎于两点,首先,许多不相干的文档可能包含在答案集中; 其次, 无法检索出未被查询中的关键词索引的相关文档。造成这两点的主要原因是基于关键词集合的检索
36、过程固有的模糊性。概念直接是存在联系的。 但是基于索引项集合来检索文档, 却是基于索引项匹配而不是基于概念匹配。但是一篇文档可能与另一篇文档共享了概念。解决该问题的方法是,潜在语义索引模型。潜在语义索引模型 (Latent Semantic Indexing,LSI)的缩写,中文意译是潜在语义索引,指的是通过海量文献找出词汇之间的关系。 当两个词或一组词大量出现在一个文档中时, 这些词之间就可以被认为是语义相关的12。潜在语义分析(Latent Semantic Analysis)或者潜在语义索引(Latent Semantic Index),是 1988 年 S.T. Dumais 等人提出
37、了一种新的信息检索代数模型,是用于知识获取和展示的计算理论和方法, 它使用统计计算的方法对大量的文本集进行分析, 从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构,来表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的。潜在语义索引具有框架定义完整、优化准则清楚的特点,但是它也存在一些局限性,主要表现在:1)潜在语义的应用取决于具体的文档集合,比较适用于词汇异构度很高的文档集合, 即文档集合中不同的文档采用不同的词汇来描述同一个概念, 但是如果文档中的词汇13异构度较低,则应用潜在语义索引的效果将不太明显;2)潜在语义索引的速度比传统的向量空间方法慢,因为它需要进行高阶矩
38、阵的运算,计算查询字段和每篇文档的相似度;3)奇异值分解存在局限性, 它假设数据的分布是正态分布, 然而类似词频的统计数据并不符合正态分布的条件。2.1.3 概率模型2.1.3.1经典概率模型概率模型由 Robertson 和 Sparck Jones 在 1976 年提出, 他们利用了相关反馈信息逐步求精以期望获得理想的查询结果。概率模型的基本思想是:根据查询 Q 将文档集合中的文档分为两类,与 Q 相关的集合 R,与 Q 不相关的集合 R。对于相同类的文档集,各个索引项的分布相同或相近;对于不同类的文档集,各个索引项分布不同13。由此可见,对文档中各个索引项的分布进行计算, 依据计算出来的
39、分布情况, 我们就可以对文档和查询的相关度进行判定。到目前为止比较常用的概率模型公式是 Robertson 提出的 BM25 公式。BM25 模型是在标准概率公式变体上经过一系列实验诞生的。这些实验是出于这样的观察,反比文档频率;项频;文档长度归一化。BM25 算法通过加入文档权值和查询权值,拓展了二元独立模型的打分函数。这种拓展是基于概率论和实验验证的, 并不是一个正式的模型。 BM25 模型在二元独立模型的基础上,考虑了单词在查询中的权值以及单词在文档中的权值, 拟合综合上述考虑的公式, 并通过实验引入经验参数。概率模型的主要缺点是对文本集的依赖性过强, 而且条件概率值很难估计。 概率模型
40、的一个特例是贝叶斯网络, 该网络以概率的方式定义了关键词的权重随着与其相关的关键词的权重的改变而改变方式。 由于该模型适用于超文本信息系统, 因而该模型的应用越来越广泛。但该模型仍然有它自己的缺点:其计算复杂度很大,因而并不适合很大的网络。2.1.3.2语言模型语言模型在应用于信息检索之前, 已经在语音识别、 机器翻译及中文分词中得到了成功应用,具有准确性高、容易训练、容易维护等优点。语言模型建模方法大致分为两类:一种是完全依赖大规模文本数据,进行统计建模;另一种是基于乔姆斯基的形式语言为基础的确定性语言模型, 该建模方法更加注重语法的分析14。14从基本思路来说, 其他检索模型都是从查询到文
41、档进行考虑, 即给定用户查询如何找出相关文档。然而,语言模型正相反,是一种逆向思维方式,即由文档到查询进行考虑,为每个文档建立不同的语言模型, 判断由文档生成查询的概率是多少, 根据这个概率大小进行排序作为最终搜索结果。应用于 IR 后,语言模型和文档紧密联系,当输入查询 q 后,文档依据查询似然概率或者文档在该语言模型下能产生该查询的概率进行排序。但语言模型面临数据稀疏问题,即查询词不在文档中出现,整个生成概率将为 0,所以语言模型引入了数据平滑,避免零概率出现。常见的平滑方式有两种:Jelinek-Mercer 平滑方法与 Dirichlet 先验的贝叶斯平滑方法。2.1.4 其他模型2.
42、1.4.1多媒体模型随着信息技术的发展, 信息的呈现方式呈现多元化趋势, 信息检索也不再局限于单纯的文字检索,图像、视频等多媒体数据已经成为人们获取与传播信息的主要媒介,从各种形式的媒体源中提取判别性描述的技术问题提上了日程。面对海量多媒体数据, 如何实现快速准确的信息检索, 一直是多媒体研究领域的特点问题。 最早的多媒体检索研究可以追溯到 20 世纪 70 年代末期, 当时主要是依赖人工标注生成媒体数据的文本标签,利用文本匹配完成检索。本世纪初,随着计算机视觉、模式识别、机器学习等技术的进步, 逐步发展出多媒体内容自动标注方法, 用于大规模数据的管理与检索。多媒体信息检索(Multimedi
43、a Information Retrieval,MIR)是计算机科学的研究学科,是指从多媒体数据源中提取语义信息。数据来源可以是直接可感知的媒体,比如音频、图像和视频,也可以是间接可感知的来源,比如文本、语义描述、生物信号以及不可感知的来源。多媒体检索的基本流程,如下图所示15:图 6 多媒体检索的基本流程多媒体检索的研究可以分为三大类, 即媒体内容特征提取技术、 媒体内容表示技术和媒体内容分类技术等。15特征提取特征提取多媒体对象的庞大规模以及它们的冗余和可能的噪声是研究多媒体特征提取技术的动机。 通过特征提取可以实现两个可能的目标, 即媒体内容概述和通过自相关或互相关对模式进行检测。内容表
44、示内容表示多媒体信息检索意味着采用多个信道来理解媒体内容。 每个通道都由特定于媒体的特征转换来描述。内容分类内容分类大部分机器学习算法都可以用于多媒体内容的分类,即判断某一多媒体内容所属类别/标签。不同的方法可能适用于不同的任务,例如,Hidden Markov Model 在语音识别中是最先进的,而 Dynamic Time Warping 是基因序列比对中的最新技术。多媒体检索经历了十几年的发展, 然而检索性能的提升依然受到 “意图鸿沟” 与 “语义鸿沟”的制约。 学术界针对此问题, 提出了一系列查询技术帮助用户清楚地表达检索意图以及反馈技术帮助系统准确地理解用户意图与媒体数据,有效提升了
45、检索性能16。2.1.4.2跨语言检索模型跨语言信息检索随着互联网资源的多语言性和用户所使用语言的日益多样性, 跨语言信息检索成为越来越重要的研究领域。跨语言信息检索(Cross-language Information Retrieval,CLIR)是指用户以一种语言提问, 检出另一种或几种语言描述的信息资源的信息检索技术和方法。 跨语言信息检索中,用户用以表达自己的信息需求,构造检索提问式的语言称为源语言(SourceLanguage),被检索的信息资源所使用的语言称为目标语言(Target Language)。而要实现语言之间的转换, 首先要使计算机能理解自然语言文本的意义, 然后能以自
46、然语言文本来表达给定的意图、思想等。例如自动识别一份文档中所有被提及的人与地点;识别文档的核心议题;在众多合同中,将各种条款与条件提取出来并制作成表;或者通过精心选定的某些特征和文本中的某些元素结合来识别一段文字, 通过识别这些元素可以把某类文字同其他文字区别开来, 比如垃圾邮件同正常邮件等等。 跨语言信息检索是在对自然语言理解的基础之上,其关键问题是要使查询语言与文档语言在检索之前达成一致。 使用户以一种语言提问, 可以检索出另一种语言或多种语言描述的相关信息。例如,输入中文检索式,跨语言检索系统会返回英文、日文等语言描述的信息,而且这些信息不仅仅是文本信息,还可以是其他形式的信息17。16
47、跨语言检索的关键技术在跨语言检索中主要涉及的关键技术有计算机信息检索技术、 机器翻译技术和歧义消解技术。 计算机信息检索技术完成提问与文档之间的匹配, 机器翻译技术完成不同语言之间的语义对等,歧义消解技术则解决翻译过程中的多义和歧义问题。计算机信息检索技术。计算机信息检索技术主要是自动搜索技术、自动标引技术、语言处理技术和自动匹配技术。 检索系统利用网络爬虫进行网络信息的收集, 然后利用自动标引技术对搜集的信息进行标引,使用相应的语言处理技术,实现 2 种语言的相对应,形成索引数据库。用户输入检索式,计算机把检索式与数据库中的索引项进行匹配,按检索式与标引项相关度的大小排序输出检索结果。机器翻
48、译技术。在跨语言检索中,所要解决的问题实际上是一个语言处理问题。不同于单一语种的语言信息检索和机器翻译,也不是两种技术的简单叠加,而是一种有机的融合,有着自身的特点和专门的研究内容。 机器翻译技术实质上是一种能够将一种语言的文本自动翻译成另一种语言文本的计算机程序,核心是保持两种文本(源语言文本和目标语言文本)的语义对等。由于在翻译过程中,源语言文本中的词往往对应目标语言描述的几个词,所以要选择最合适的词或相关处理以达到意义上的一致。 在跨语言检索中, 翻译的准确性直接决定了检索的准确性, 准确性的提高需要利用自然语言处理与机器翻译相结合的技术, 而由于这涉及复杂的计算机语义分析技术,因此机器
49、翻译的效果还远未达到人们所期望的水平。歧义消解技术。 跨语言信息检索涉及到两种语言之间的相互转换, 在此过程中主要会出现的问题是歧义问题18,需要解决自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性问题。在自然语言中,一词多义和一义多词的现象是非常普遍的,对查询进行处理时, 确定检索词的确切含义是非常重要的, 即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示,这需要大量的知识和推理。而对被检索文献而言,要提高查准率,就需要明确文献中出现的检索词的含义,以判断其相关性。跨语言检索的出现是为了满足网络资源语种多样性, 克服用户掌握语言差异所带来的检索语言障碍。 随着
50、信息全球化的进程不断加快, 人们对于跨语言信息检索的需求也越来越迫切。172.2 信息推荐部分前沿技术2.2.1 深度推荐模型深度学习是机器学习领域一个重要研究方向,近年来在图像处理、自然语言理解、语音识别和在先广告等领域取得了突破性进展。 将深度学习融入推荐系统中, 研究如何整合海量的多源异构数据, 构建更加贴合用户偏好需求的用户模型, 以提高推荐系统的性能和用户满意度,成为基于深度学习的推荐系统的主要任务。深度学习的最大优势就是能够通过一种通用的端到端的过程学习到数据的特征, 自动获取到数据的高层次表示,而不依赖于人工设计特征。因此,深度学习在基于内容的推荐中主要被用于从项目的内容信息中提