上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

AITR:2020人工智能之计算机视觉(88页).pdf

编号:75808 PDF  DOCX 88页 7.79MB 下载积分:VIP专享
下载报告请您先登录!

AITR:2020人工智能之计算机视觉(88页).pdf

1、 I 人工智能之计算机视觉报告 Research Report of Computer Vision 2020 年第 8 期 顾问:黄高,李涓子 8 前 言 计算机视觉(Computer Vision, CV)作为人工智能(AI)的核心技术之一,在过去的三十年里发展迅猛, 应用范围遍及工业、 农业、 军事、 国防等多个领域。与人类相比,机器更具优势,它不需要像人类那样依赖可见光,而是利用传感器就能更清楚地看世界。但从发展角度看,计算机视觉技术本身还在发展,还有许多理论、算法尚需完善,计算机视觉的应用范围也还远没有达到普及的程度,此项技术蕴藏的潜能亟待开发利用。 本期 TR 报告我们选取计算机视

2、觉作为主题,围绕计算机视觉的基本概念、技术发展、 人才概况、 产业应用和热点趋势五大方面进行深入挖掘。 报告的论文、国家自然科学基金、趋势数据均来自于清华大学唐杰教授自主研发的“科技情报大数据挖掘与服务系统平台”(简称 AMiner),利用人工智能、大数据分析与挖掘、知识图谱、自然语言处理等技术,并结合文献计量学等情报学方法制作生成。 I 目 录 图表目录. IV 1.1.概述篇概述篇 . 3 1.1 计算机视觉的概念. 3 1.2 计算机视觉经典任务. 3 1.3 计算机视觉的产生与发展. 6 1.4 计算机视觉的机遇与挑战. 6 2.2.技术篇技术篇 . 9 2.1 图像增强. 9 2.1

3、.1 基于多尺度分析的图像增强. 9 2.1.2 数学形态增强. 9 2.1.3 卷积神经网络增强. 9 2.2 图像分类. 10 2.2.1 单标签分类. 10 2.2.2 多标签分类. 10 2.3 图像检测与定位. 11 2.3.1 物体定位. 11 2.3.2 关键点检测. 11 2.4 图像分割. 11 2.4.1 语义分割. 11 2.4.2 实例分割. 12 2.4.3 全景分割. 13 II 2.5 目标识别. 13 2.5.1 3D 目标识别 . 13 2.5.2 点云目标识别. 14 2.6 专利申请情况. 15 2.6.1 全球专利申请概况. 15 2.6.2 中国专利申

4、请概况. 16 2.7 国家自然科学基金支持情况. 17 3.3.人才篇人才篇 . 19 3.1 计算机视觉学者概览. 19 3.1.1 全球学者概况. 19 3.1.2 中国学者概况. 22 3.2 计算机视觉代表性学者介绍. 23 3.3 计算机视觉代表性团队介绍. 50 4.4.应用篇应用篇 . 57 4.1 城市公共安全. 59 4.2 政务民生. 60 4.3 金融服务. 60 4.4 新零售. 61 4.5 产业应用的未来. 62 5 5. .趋势趋势篇篇 . 63 5.1 技术趋势. 63 5.2 国家趋势. 63 5.3 机构趋势. 64 III 5.4 技术发展面临的挑战.

5、65 参考文献. 67 IV 图表目录 图 1 识别任务. 4 图 2 运动分析. 5 图 3 场景重建. 5 图 4 语义分割示例. 12 图 5 实例分割示例. 12 图 6 基于模型的 3D 目标识别方法流程 . 14 图 7 计算机视觉领域专利申请情况. 15 图 8 全球计算机视觉专利 TOP 3 国家年变化趋势 . 16 图 9 中国计算机视觉领域专利申请量 TOP 10 省市 . 16 图 10 中国计算机视觉专利 TOP 3 省市年变化趋势 . 17 图 11 国家自然科学基金分布情况. 17 图 12 国家自然科学基金项目量前十的依托单位. 18 图 13 计算机视觉全球顶尖

6、学者分布. 20 图 14 计算机视觉学者数量 Top 10 国家 . 20 图 15 计算机视觉学者 h-index 分布 . 21 图 16 计算机视觉全球学者迁徙图. 21 图 17 计算机视觉学术机构对比. 22 图 18 中国计算机视觉领域学者分布. 23 图 19 计算机视觉领域技术趋势图. 63 图 20 计算机视觉领域国家趋势图. 64 图 21 计算机视觉领域机构趋势图. 65 表 1 中外国家合作统计. 23 1 报告说明 1.数据来源 本报告中与计算机视觉领域相关的人才数据来均自于 AMiner 系统。系统支持研究者信息抽取、研究者社会网络关系识别、研究者能力图谱、审稿人

7、智能推荐等功能, 提供研究者和研究领域的全面知识, 为科研管理和服务提供有力支撑。平台自 2006 年上线以来,经过十多年的建设发展,已建立运作良好的数据采集及集成更新机制,收录论文超 3 亿篇,专利 1 亿项,学者 1.3 亿位,其中超过 50万的学者被人工标注与审核,吸引了全球 220 个国家/地区 1000 多万独立 IP 的访问,年度访问量 1,800 余万次。 2.学者及研究领域筛选方法 本次报告中的人才和技术篇采用大数据挖掘技术, 对计算机视觉领域内的学者信息进行深入挖掘,参考 h-index、发表论文数、论文被引频次等指标,对学者信息进行筛选,比较和分析了计算机视觉领域人才在全球

8、和国内的分布概况,领域的技术研究发展趋势,以及技术领先国家趋势等。 (1)由计算机视觉顾问组推荐期刊/会议列表和领域关键词,期刊/会议:IEEE 国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)、IEEE 国际计算机视觉大会(IEEE International Conference on Computer Vision, ICCV)、欧洲计算机视觉国际会议(European Conference on Computer Vision, ECCV)、IEEE 模式分析和机器智能学报(

9、IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI)、国际计算机视觉杂志(International Journal on Computer Vision, IJCV)、IEEE 图像处理汇刊(IEEE Transactions on Image Processing, TIP)、计算机视觉和图像理解 (Computer Vision and Image Understanding, CVIU) 、 模式识别 (Pattern Recognition, PR)、模式识别快报(Pattern Recogniti

10、on Letters, PRL);领域关键词:计算机视觉(Computer vision)、图像和视频采集(Image and video acquisition)、图像识别(Image recognition)、模式识别(Pattern recognition)、图像理解(Image understanding) 、 图像分类 (Image classification) 、 目标检测 (Object detection) 、目标跟踪 (Object tracking) 、 语义分割 (Semantic segmentation) 、 实例分割 (Instance segmentation)

11、、卷积神经网络(Convolutional neural networks)、三维视觉(3D 2 vision) 、 光流估计 (Optical flow estimation) 、 景深估计 (Scene depth estimation) 、人脸识别(Face recognition)、图像生成(Image generation)。 (2)通过 AMiner 大数据平台对近 20 年(2000 2019 年)发表在推荐期刊/会议的论文进行采集和清洗,并对论文作者信息进行深度挖掘,从中选出了与计算机视觉领域关键词相关的 50,073 位学者,再按照学者的 h-index 进行排序; (3)

12、综合运用知识图谱、 自然语言处理、 可视化、 文献计量学等技术手段,基于论文和学者数据,分析得出计算机视觉领域的技术研究发展趋势,以及技术领先的国家、机构趋势。 3.代表性学者画像 “学者画像”是 AMiner 平台的核心服务功能之一,其特色在于除了提供专家学者如姓名、单位、地址、联系方式、个人简介、教育经历等个人基本信息之外,还利用团队多年的命名排歧相关技术,建立了较为完善的学者-论文映射关系,提供学者学术评价、研究兴趣发展趋势分析、学者合作者关系网络等分析挖掘信息。 7 1 1. .概述篇概述篇 概述篇 3 1.1 计算机视觉的概念计算机视觉的概念 计算机视觉(Computer Visio

13、n, CV)是指用计算机实现人的视觉功能对客观世界的三维场景的感知、识别和理解1。它是一种典型的交叉学科研究领域,包含了生物、心理、物理、工程、数学、计算机科学等领域,存在与其他许多学科或研究方向之间相互渗透、相互支撑的关系。 1.2 计算计算机机视觉视觉经典任务经典任务 近几十年来,随着计算机硬件、机器学习以及模式识别技术的快速发展,特别是伴随着深度学习技术的崛起,计算机视觉的研究得到了飞速发展。目前,计算机视觉已经在光学字符识别、人脸检测与识别、物体检测等领域的多个大数据集评测中接近或者已经超过了人眼的性能。概括来说,计算机视觉主要有以下几个经典任务。 识别任务 计算机视觉的经典问题是确定

14、图像是否包含特定的物体、特征或活动。识别任务又可以细分为图像分类、标识和目标检测。图像分类指的是将图片归入事先设定的类别中,例如识别图片中的物种识别2;标识指的是获得人或物体的身份信息, 例如人脸识别3-4; 目标检测指的是检测图像中存在的感兴趣的一类事物,例如获得图中车辆、行人的位置信息5。 (a)物种识别任务2 4 概述篇 (b)人脸识别任务4 (c)目标检测任务5 图 1 识别任务 运动分析 这类任务的目的是估计图片序列中物体的运动状态。例如,根据拍摄视频估计相机的运动6,追踪监控视频中的物体7,计算光流即图像上点在下一张图像的位置8等等。 (a)追踪监控视频7 概述篇 5 (b)计算光

15、流8 图 2 运动分析7 场景重建 基于已有的一张或多张图片建立场景的三维模型9。一种简单的情況是确定场景表面的一组点,更复杂一点可以是多面体模型。场景重建可以在不借助运动和扫描的情况下构建三维模型,这在虚拟现实场景下可以获得广泛应用10。 图 3 场景重建10 图像恢复 图像恢复11的目的是去噪。相机成像是通过光线打在光学传感器上实现的。传感器和相对运动都有可能带来噪声。计算机视觉的去噪的方法包括滤波器12和深度学习模型13。 6 概述篇 1.3 计算机视觉的产生与发展计算机视觉的产生与发展 纵观计算机视觉发展历史,其发展与很多学科息息相关13-14,大致可分为以下四个阶段。 第一阶段第一阶

16、段 马尔计算视觉马尔计算视觉 1982 年,大卫马尔(David Marr)的视觉一书在计算机视觉领域中起到了关键性的作用,它标志着计算机视觉正式成为一门独立的学科。马尔的计算视觉分为三个层次:计算理论、表达和算法以及算法实现。马尔认为,大脑的神经计算和计算机的数值计算没有本质区别,而从现在神经科学的进展看,“神经计算”与数值计算在有些情况下还是会产生本质区别。 第二阶段第二阶段 主动视觉与目的视觉主动视觉与目的视觉 学术界几位教授对马尔视觉计算理论提出了反对意见,认为缺乏主动性、目的性和应用性。但由于这段时期没有过多进展,对后续计算机视觉的发展影响不大,因此很多时候没有把这一阶段单独列出介绍

17、。 第三阶段第三阶段 多视几何和分层三维重建多视几何和分层三维重建 其中代表人物包括法国的 O. Faugeras、澳大利亚国立大学的 R. Hartely 和英国牛津大学的 A. Zisserman,研究重点是如何快速、鲁棒地重建大场景。 第四阶段第四阶段 基于学习的视觉基于学习的视觉 最后来到了当代计算机视觉的阶段,基于学习的视觉。在此阶段中,文献大体上分为两个阶段:一是以流形学习为代表的子空间法,二是目前以深度神经网络和深度学习为代表的视觉方法。 1.4 计算机视觉的机遇与挑战计算机视觉的机遇与挑战 自 20 世纪 60 年代开始, 计算机视觉取得了长足的进步, 特别是在图像分类、人脸识

18、别、目标检测、医疗读图等任务上逼近甚至超越了普通人类的视觉能力。计算机视觉的所面临的机遇与挑战主要表现在。 (1)计算机视觉迎来了前所未有的关注和接踵而至的投资热潮,这些关注既来自风险投资公司、互联网公司等,也来自各级政府,据艾媒咨询数据显示,2018 年中国计算机视觉市场规模为 155 亿元,较 2017 年增多了 87 亿元。2019年中国计算机视觉市场规模达到 450 亿元,2020 年达 780 亿元,2021 年将突破1000 亿元,达 1120 亿元(https:/ 概述篇 7 公司所属领域分布中,计算机视觉领域拥有最多创业公司,包括商汤、旷世、云从、依图等众多硬科技公司。其中,商

19、汤、旷世、云从更是登上了美国的“实体清单”,作为推动中国高科技发展的中坚力量,要想在国际舞台上拥有更多的话语权和主动权,就必须手握核心技术,拥有自主产权的高端产品。 (2)计算机视觉是一类相对技术发展较成熟、应用场景多样、误判容忍度有不同要求的可深度发展的领域,很难出现互联网行业那样赢者通吃的局面。在应用层面上,移动互联网/安防领跑,零售/物流跟进,医疗/无人驾驶有待成熟,落地的速度开始出现分化。社交、咨询、游戏、电商等移动互联网场景,以及门禁等安防领域,因为数据比较容易获得,以及对误判容忍度相对较高,发展非常迅速。 预计新零售、 物流、 制造业等企业场景以及家庭安防等家居场景开始成熟。另一方

20、面,无人驾驶及医疗对辨别的准确性要求高,数据复杂程度高,短期很难实现大规模商用。 (3) 尽管美国在计算机视觉领域一直处于前沿, 但中国已悄悄开始 “超车” ,大批华人科学家,如李飞飞、汤晓鸥、孙剑、何恺明等已在学术和产业界居于领跑者地位, 华人计算机视觉领域精英们正在撼动着美国在人工智能领域的领导地位,并逐渐获得了世界的肯定,使中国迎来了巨大的机遇。 概述篇 7 2.2.技术篇技术篇 9 技术篇 计算机视觉的内涵丰富,需要完成的任务众多,关键任务包括:图像增强、图像分类、图像检测与定位、图像分布、目标识别。本篇首先从计算机视觉的关键技术入手, 再通过 AMiner 大数据平台挖掘获取了与领域

21、相关的 66,519 项专利和 1,052 项国家基金支持情况,以此展览计算机视觉技术未来可能的发展方向。 2.1 图像增强图像增强 图像增强处理是数字图像处理技术中的一种重要方法。在实际生活中,图像可能会因拍摄环境恶劣、传输噪声引入等原因导致图像质量降低。图像增强处理可以有效去除图像噪声、增强图像边缘,突出图像中所需的重要信息,去除或弱化不重要的信息,达到改善图像的视觉质量的效果,更适合人的观察或机器的识别15。作为计算机视觉的重要组成部分,图像增强对于提升图像的质量发挥着重要的作用。 2.1.1 基于多尺度分析的图像增强 根据生理学家对人类视觉系统的研究结果,一种“最优”的图像表示方法应该

22、具有多分辨率、局域性、方向性和各向异性的特性16,其基础的支撑区间应为“长条形”,能充分利用图像的几何特征,把这种“最优”的表示称为“多尺度几何分析”(Multiscale Geometric Analysis, MGA)。 图像的多尺度几何分析方法可分为自适应和非自适应两类。 自适应方法是指图像变换的基函数随图像内容变化而变化,它一般先进行边缘检测,再利用边缘信息对原函数进行最优表示,主要有 Bandelet17-18、Beamlet19、Directionlet20、Terolet21等。与之不同的是,非自适应方法是指图像变换的基函数与图像内容无关, 它不需要先验地知道图像本身的几何特征,

23、但是能对特定函数具有较为理想的逼近效果,其代表为 Ridgelet22、Curvelet23、Contourlet24-26、Shearlet27等。 2.1.2 数学形态增强 数学形态学28是图像处理和分析的新理论、 新方法, 它的基本原理是把图像看作一个集合,用“探针”(即某种形状的结构元素)对图像进行求补、移位、交或并的集合运算,这些集合运算就构成了各种不同的数学形态学方法。学者们通过引入数学形态学的知识, 改进传统的图像增强方法, 并运用于灰度图像增强、彩色图像增强和医学图像增强等情境下。 2.1.3 卷积神经网络增强 10 技术篇 近年来, 随着以卷积神经网络 (CNN) 的深度学习

24、技术的发展, 以图像去噪、图像超分辨和图像去模糊等为代表的图像复原与增强、 以及以视觉生成与合成为代表的图像编辑问题都获得了较多的关注。2014 年,Schmidt 等针对图像复原问题, 提出了基于逐次迭代学习的判别学习模型基于半二次分裂算法的级联收缩场(Cascade of Shrinkage Fields, CSF),该方法通过将预测过程展开为迭代学习算法,从训练数据中学习阶段模型参数29。2015 年,Chen 等从反应扩散方程的角度出发,提出了非线性反应扩散(Trainable Nonlinear Reaction Diffusion, TNRD)模型,对每次迭代的滤波器和响应函数进行

25、学习,并从递归神经网络的角度对模型进行了解释30。受 CSF 和 TNRD 启发,Zhang 等设计了一种基于卷积神经网络的深度去噪网络DnCNN(Denoising Convolutional Neural Network)。该模型通过端到端的残差学习,从函数回归角度用卷积神经网络将噪声从噪声图像中分离出来,取得了显著优于其他方法的去噪结果31。 2.2 图像分类图像分类 作为计算机视觉领域的基础性任务,图像分类是目标检测、语义分割的重要支撑,其目标是将不同的图像划分到不同的类别,并实现最小的分类误差。经过近 30 年的研究,图像分类已经成功应用至社会生活的方方面面。如今,在我们的生活中随处

26、可见,例如智能手机的相册自动分类、产品缺陷识别、无人驾驶等等。根据分类任务的目标不同,可以将图像分类任务划分成两部分:(1)单标签图像分类;(2)多标签图像分类。 2.2.1 单标签分类 单标签分类是简单的分类任务,图片的内容相对简单,只包含一个物体或者场景。单标签图像分类是指每张图片对应一个类别标签,根据物体类别的数量,又可以将单标签图像分类划分成二分类、多类别分类。 2.2.2 多标签分类 早期的图像分类方法主要对图像进行二分类或多类别分类,每次只需为图像选择一个类别标签,这是最常见的单标签分类方法。然而,在真实世界中,一幅图像往往不只包含单一的语义,因此,多标签学习方法在实际应用中更具有

27、现实意义, 这也更加符合人的认知习惯。多标签图像分类可以告知我们图像中是否同时包含这些内容,这也能够更好地解决实际生活中的问题。 11 技术篇 2.3 图像检测与定位图像检测与定位 物体检测为许多视觉任务提供了动力,例如实例分割32、姿势估计33-35、追踪36和动作识别37。它在监视38、自动驾驶39和视觉问答40中具有下游应用。物体检测器通过紧密围绕物体的轴对齐边界框来表示每个物体41-46。 然后,他们将物体检测简化为具有大量潜在对象边界框的图像分类。对于每个边界框,分类器确定图像内容是特定的物体还是背景。 单级检测器44-45在图像上滑动可能的边界框(称为锚点)的复杂排列,并在不指定框

28、内容的情况下直接对其进行分类。两级检测器41-42,44-46重新计算每个电位盒的图像特征,然后对这些特征进行分类。 2.3.1 物体定位 目标检测的主要目的是从图片中检测并定位特定的多个目标。 传统检测模型通常采用人工特征提取方法获得目标的特征描述, 然后输入到一个分类器中学习分类规则。传统方法的弊端:一是人工提取特征方法复杂,并需要对检测目标有一定的先验知识;二是分离特征提取和分类训练,若特征提取不够好,训练就难以有好效果;三是高度依赖具体任务,可移植性差,一旦检测目标有较大变动,就要重新设计算法47。卷积神经网络通过卷积运算让计算机自动从图像中提取目标特征,这样获得的特征更自然,并且通用

29、性好,对一定程度的扭曲形变有良好的鲁棒性,并且在图像分类上取得了巨大成功,使得人们开始研究它在计算机视觉其他领域的效果。 2.3.2 关键点检测 关键点检测是许多计算机视觉任务的基础,广泛应用于公共安全、智能人机交互、自动驾驶、步态识别等场景。基于深度学习的人体关键点检测虽然发展时间很短, 但是发展迅猛, 近几年涌现出很多优秀的关键点检测算法, 比如 CPM48、SHN49、CPN50、RMPE34等等。 2.4 图像分割图像分割 对于一张图来说,图上可能有多个物体、多个人物甚至多层背景,希望能做到对于原图上的每个像素点都能预测它是属于哪个部分 (人、 动物、 背景) 。 2.4.1 语义分割

30、 图像语义分割的目标是对图像中每一个像素点进行类别预测, 因此又称为密集像素点预测,语义分割网络的输入一般是 RGB 图像,输出也是图像,输出图 12 技术篇 像中每个像素点的数值为类别编号。 图像中属于同一类别的像素点会被划分为同一颜色表现,不同类别的像素被分割为不同颜色的区块,如图 4 所示,输入图像被分割为行人、自行车、背景三种类别,其中,行人类别使用棕红色表示,自行车类别使用绿色来表示,背景类别使用黑色表示。 图 4 语义分割示例 2.4.2 实例分割 实例分割(下图右下角)其实就是目标检测和语义分割的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标

31、注出图上同一物体的不同个体。如图 5 所示,在一张含有三只不同羊和一条狗的图片上, 实例分割需要识别出不同羊的形状,而语义分割则无需分辨出不同羊的轮廓。相较于语义分割而言,实例分割更接近我们人类对世界的认知,而且允许对场景构成元素直接进行后续处理,如对行人进行动作识别等。实例分割综合了目标检测和语义分割等多个任务,实现起来也具有一定的挑战性,当前最优秀的实例级分割方法是深度卷积神经网络。 图 5 实例分割示例 13 技术篇 2.4.3 全景分割 与之前介绍的语义分割与实例分割不同,全景分割任务(Panoptic Segmentation)要求图像中的每个像素点都必须被分配给一个语义标签和一个实

32、例 id,如果无法确定可以给予空标注。其中,语义标签指的是物体的类别,而实例 id 则对应同类物体的不同编号。与语义分割相比,全景分割的困难在于要优化全连接网络的设计,使其网络结构能够区分不同类别的实例;而与实例分割相比,由于全景分割要求每个像素只能有一个类别和 id 标注,因此不能出现实例分割中的重叠现象。 2.5 目标识别目标识别 目标识别的目的在于判断场景(二维图像、视频或三维图像)中是否存在感兴趣目标, 若存在则对其位置和姿态等信息进行估计51, 它是计算机视觉中非常重要的一个研究方向。 设计一个具有足够的通用性、 稳健性, 且简单实用的系统,能够在各种环境下无需太多约束和人类的干预的

33、情况下自动对场景中的目标进行识别是目标识别研究的目的。 目前目标识别在人类实际的生产和生活中具有非常广泛的应用和实用价值,例如目标跟踪、视频监控、信息安全、自动驾驶、图像检索、医学图像分析、无人机导航、遥感图像分析、国防系统等。 2.5.1 3D 目标识别 3D 目标识别,起初是对一些由简单的几何体组成的三维目标进行识别,例如柱体、立方体、椎体等。但是由于这些简单几何体的表达能力有限,现实世界中绝大多数物体很难由这些简单的几何体组合表示。因此过去的二十多年间,三维目标识别主要是对自由形状的三维目标进行识别32。自由形状是除了在边缘、顶点和拐角处外其余部分都有连续的法线构成的三维形状, 现实世界

34、中的绝大部分目标都可以认为是自由形状的目标,如人体、建筑物、雕塑、汽车等。目前的三维目标识别方法主要有:基于模型的方法;基于外观的方法;基于全局特征的方法。 基于模型的方法 该方法需要待识别物体模型的先验知识,建立模型库。该算法的流程如图 6所示,首先为待识别的目标设计三维模型,并建立模型库;其次通过传感器获取待识别的真实目标的三维数据;然后对三维数据进行分析;最后进行模型匹配。 14 技术篇 图 6 基于模型的 3D 目标识别方法流程 基于外观的方法 该方法是通过目标外观的相似性进行识别,其无需提前建立三维模型。该方法的步骤为: 首先通过训练学习待识别的三维目标在二维图形中呈现的各种姿态;然

35、后通过分析场景二维图形中各个物体的姿态,判断是否存在待识别的目标。 基于全局特征的方法 该方法在目标识别过程中将三维目标作为一个整体, 提取整个三维目标的全局特征进行识别。这类方法速度非常快,在三维形状分类和检索中广泛应用,现有的典型方法有视点特征直方图52、三维几何距离53以及形状分布32等。 2.5.2 点云目标识别 随着计算机视觉技术的快速发展, 基于三维点云数据的目标识别研究受到越来越广泛的关注。 三维点云数据的目标识别一般包括特征表达和特征匹配策略两个部分,而匹配识别算法是关键组成部分,也是目前急需要攻克的难点。物体特征可以分类为全局特征和局部特征, 特征匹配的算法可以分为直接特征点

36、匹配与间接特征点匹配方法。目前,基于三维点云数据的目标识别方法有多种,国内外许多专家学者对此做了大量的深入研究,并取得丰硕的成果。 上世纪八十年代中期, Besl 等提出一种三维形状的配准方法, 称为最邻近迭代(Iterative Close Point, ICP)算法54。ICP 算法的主要思想是利用迭代的原理,找到刚性变换矩阵 T,使得场景中的点 S 和几何模型中的点 M 达到最优匹配。该算法可以准确有效地解决自由形态的点云配准问题, 但其主要针对的是全局匹配,对于局部匹配需要多次平移和旋转,计算量显著增大,准确度也有所降低,效果不佳,且鲁棒性不好,对于有闭塞的情况更难以有效解决。Greg

37、ory C. Sharp 等提出改进的 ICP 方法,使用欧几里得几何学的不变特征结合 ICP 算法进行配准,称之为 ICPIF 算法55。该方法能够有效地解决深度图像配准难的问题,但计 15 技术篇 算量依然比较大。A. Johnson 和 M. Hebert56提出一种“利用旋转图像有效识别杂乱三维场景下的目标”的方法。该方法提出使用旋转图像,模型用曲面网格表示,并由三维点转为二维空间点和参数表示的旋转图像。该方法可靠性好,但过程比较复杂。Mahmoudi 等提出将三维数据降到二维平面,通过三维特征和二维边界点的曲率分布特征实现目标识别57。 2.6 专利申请情况专利申请情况 根据专家推荐

38、的“计算机视觉”领域关键词,从智慧芽专利数据库(https:/ 2000 至 2019 年期间“标题和摘要”中包含领域关键词的申请专利 66,519 件,具体如图 7 错误错误!未找到引用源。未找到引用源。所示。 图 7 计算机视觉领域专利申请情况 过去 20 年,计算机视觉领域的专利申请量整体呈现上升态势,并在 2017 年达到顶峰,2018 年以后领域专利申请热度有所降低,申请量首次出现连续两年下滑。 2.6.1 全球专利申请概况 从拥有专利的国家排名来看,中国(20,830 件)、美国(18,692 件)和日本(5,945 件)是申请计算机视觉领域专利最多的三个国家(见图 8)。中国申请

39、的领域专利数量最多,但是领先地位是在 2011 年以后才开始出现的,并在此之后一直处于领域专利申请数量的首位。 16 技术篇 图 8 全球计算机视觉专利 TOP 3 国家年变化趋势 2.6.2 中国专利申请概况 图 9 中国计算机视觉领域专利申请量 TOP 10 省市 从拥有专利的各省排名来看,北京、广东和江苏等经济发达省市的专利申请数量最多(见图 9)。图 10 是排名前三省市的专利年变化趋势,从图中可以看出, 各省的专利申请数量都呈现稳定的上升态势,尤其是具备较强产业转化能力的广东省,在 2018 年以后甚至超越了人才高度聚集的北京市,成为申请计算机视觉领域专利申请量最多的省份。 17 技

40、术篇 图 10 中国计算机视觉专利 TOP 3 省市年变化趋势 2.7 国家自然科学基金支持情况国家自然科学基金支持情况 根据“计算机视觉”领域关键词,从 AMiner 数据库中查找出 2010 至 2020年国家自然科学基金支持的图数据库相关项目(包含未结题的项目)1,052 个,其中面上项目(451 个,42.87%)和青年科学基金项目(444 个,42.21%)的占比最高,具体分布如下所示。 图 11 国家自然科学基金分布情况 国家自然科学基金项目数量前十的依托单位如图 12 所示。由图可见,中国科学院自动化研究所是项目批准量最多的机构,共计有 60 个,其中面上项目 27 18 技术篇

41、 个,青年科学基金项目 22 个。另外,电子科技大学的青年科技学者表现不俗,是其中唯一一个青年项目数量多于面上项目的机构,展现出较大的发展潜力。 图 12 国家自然科学基金项目量前十的依托单位 19 技术篇 3 3. .人才篇人才篇 19 人才篇 在大数据时代,计算机视觉技术不断迭代更新,覆盖人群和应用场景逐渐扩大, 计算机视觉领域的众多学者专家们也在不断探索与研究。本篇将对本领域学者的分布情况和代表性学者进行简要介绍。 计算机视觉领域学者筛选的具体方法如下:首先,通过 AMiner 大数据平台挖掘计算机视觉领域学术会议及期刊:IEEE 国际计算机视觉与模式识别会议(IEEE Conferen

42、ce on Computer Vision and Pattern Recognition, CVPR)、IEEE 国际计算机视觉大会(IEEE International Conference on Computer Vision, ICCV)、欧洲计算机视觉国际会议(European Conference on Computer Vision, ECCV)、IEEE 模式分析和机器智能学报 (IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI)、国际计算机视觉杂志(International Journa

43、l on Computer Vision, IJCV) 、 IEEE 图像处理汇刊 (IEEE Transactions on Image Processing, TIP) 、计算机视觉和图像理解(Computer Vision and Image Understanding, CVIU)、模式识别 (Pattern Recognition, PR) 、 模式识别快报 (Pattern Recognition Letters, PRL)的近 20 年论文,提取论文中所有学者信息,以此分析学者的分布情况。从中选出与计算机视觉领域关键词相关学者 22,883 位,再按照学者的 h-index 进行

44、排序, 最后对其中排名靠前的部分学者进行简要介绍。领域关键词由计算机视觉顾问组给出, 具体包括计算机视觉 (Computer vision) 、 图像和视频采集 (Image and video acquisiton) 、 图像识别 (Image recognition) 、 模式识别 (Pattern recognition) 、图像理解(Image understanding)、图像分类(Image classification)、目标检测(Object detection) 、 目标跟踪 (Object tracking) 、 语义分割 (Semantic segmentation) 、

45、实例分割 (Instance segmentation) 、 卷积神经网络 (Convolutional neural networks) 、三维视觉(3D vision)、光流估计(Optical flow estimation)、景深估计(Scene depth estimation) 、 人脸识别 (Face recognition) 、 图像生成 (Image generation) 。 3.1 计算机视觉学者计算机视觉学者概览概览 3.1.1 全球学者概况 学者地图学者地图 学者分布地图对于计算机视觉领域学者调查、 分析各地区竞争力现况尤为重要, 图 13 为计算机视觉领域全球顶尖学

46、者分布情况。 其中, 颜色越趋近于红色,表示学者越集中;颜色越趋近于绿色,表示学者越稀少。在全球范围内,计算机 20 人才篇 视觉的顶尖学者主要分布于东亚、北美以及欧洲,此外,南美、澳大利亚等地亦有部分学者分布。 图 13 计算机视觉全球顶尖学者分布 国家对比国家对比 根据 AMiner 平台数据分析不同国家“计算机视觉”领域学者的数量,具体分析方法为根据论文作者的国家信息,将论文分类到各个国家中,从而统计出每个国家的学者数量。图 14 展示了领域学者数量前 10 的国家,由图可知,中国位居全球第一,随后为美国、英国、日本、德国等。 图 14 计算机视觉学者数量 Top 10 国家 学者学者h

47、-index 分布分布 21 人才篇 h-index 是衡量一位学者影响力的重要指标之一, 利用 AMiner 大数据平台统计计算机视觉领域排名前 2000 位学者的 h-index,具体分布如下图所示。其中,h-index 在 3040 之间的人数最多为 1,413 人,占总学者数量的 70.65%;h-index超过 60 的学者为 227 人,占总学者数量的 11.35%(图 15)。 图 15 计算机视觉学者 h-index 分布 学者迁徙学者迁徙 图 16 计算机视觉全球学者迁徙图 AMiner 可以对计算机视觉领域学者的迁徙量进行分析,如图 16 所示。全球计算机视觉领域流动总量最

48、高的是美国,遥遥领先于排名第二的中国,随后为英270050506060以上人数h-index 22 人才篇 国、德国和法国等。此外,美国、德国、法国的人才流入大于人才流出,领域人才有所聚集; 而中国和英国的人才流入量小于人才流出, 出现领域人才流失现象。 机构对比机构对比 通过 AMiner 平台挖掘论文中的作者单位信息,将论文映射到各个单位机构中, 统计每个机构的论文发表数量,并按照论文发表数量从高到低对机构进行了排序,如图 17 所示。 图 17 计算机视觉学术机构对比 从上图可以看出, 中国、 美国、

49、 日本、 英国和德国拥有的顶尖科研机构最多。其中,中国科研机构发表的论文数量最多,排名前三的机构分别为中国科学院、浙江大学和清华大学。美国科研机构紧随其后,发表论文总数位居世界第二,其中排名前三的科研机构分别为卡内基梅隆大学、麻省理工学院和明尼苏达大学。 3.1.2 中国学者概况 中国学者分布中国学者分布 中国计算机视觉领域人才分布如图 18 所示,领域学者大部分聚集于北京地区。与此同时,江苏、上海、辽宁、湖北、广东等地同样分布着可观数量的计算机视觉领域学者。北京地区学者主要聚集在以北大、清华、亚洲微软研究院为首的海淀人才汇集地,人才密度可谓在世界范围内都首屈一指,为该领域的发展提供了强大的人

50、才保障。此外,香港、深圳、广州等城市在发展计算机视觉产业上 23 人才篇 各具优势及特色,从研发成果产业化的角度看,香港有较顶尖的人才储备,而深圳有强大的科创队伍,广州则具备很强的产业化能力。 图 18 中国计算机视觉领域学者分布 中外合作情况中外合作情况 中国与其他国家在计算机视觉领域的合作情况可以由 AMiner 大数据平台分析得到,在上述期刊/会议中合作论文数量 TOP10 的关系如表 1 所示,论文数量是表现两国合作关系的重要指标,中美合作的论文数遥遥领先,体现出中美两国在本领域的密切合作关系。引用数量是衡量论文被认可度和质量的重要指标,中国与瑞士合作论文的平均引用数量最高,论文质量较

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(AITR:2020人工智能之计算机视觉(88页).pdf)为本站 (奶茶不加糖) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部