智能影像深度报告-PDF版

您的当前位置：上海品茶 > 人工智能 > 智能影像

报告分类

一级分类：

对外贸易电子行业 5G产业人工智能智能制造视频直播电子商务互联网行业分析基建投资地产开发消费行业医疗健康汽车行业金融证券投资市场区块链全球化其它会议报告

二级分类：

AI产业智能机器人手机云计算虚拟现实智能安防智能家居识别行业智能影像机器视觉智能终端

维深：2023年XR显示屏幕系列研究报告——开篇：通往沉浸之路（31页）.pdf
点击查看更多维深：2023年XR显示屏幕系列研究报告——开篇：通往沉浸之路（31页）.pdf精彩内容。

0人已浏览 2023-11-20 31页 5星级
OPPO &amp IDC：2023折叠屏巿场趋势洞察白皮书-“高效安全+移动影像”-便捷商务新体验（22页）.pdf
便捷商务新体验“高效安全移动影像”本研究由 OPPO 发起折叠屏市场趋势洞察白皮书1折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验目录 Table of Contents一、市场趋势：折叠屏将为智能手机市场的增长带来新支点 .2AI 技术发展推动移动办公走向普及，移动设备市场需求痛点随之变化.4直板机市场同质化现象延续，消费市场亟需个性化审美.6二、技术挑战：使用环境对软硬件技术的专属方案提出需求 .8移动办公场景涉及复杂交互，对系统的稳定性、安全性提出更高需求.8折叠屏的工业设计存在特殊性.9产品设计需充分满足消费者个性化需求.11三、行业前沿：硬件技术大跨步飞跃，软件系统精细化发展 .12安全技术不断进步，满足商务场景需求.12软件系统灵活度不断提升，帮助用户提升效率.13影像技术不断升级.14四、手机、平板和数码相机三位一体 .15安全.16效率.17影像.18五、IDC 预测：AI 驱动场景，推进折叠屏手机走向普及 .192目录一、市场趋势：折叠屏将为智能手机市场的增长带来新支点中国智能手机市场在各大品牌间的激烈竞争之下趋于饱和，许多消费者已经拥有了一部能够满足日常使用需求的智能手机。加之硬件技术不断进步，促使智能手机产品使用寿命不断延长，在更好满足用户使用需求的同时，抬高了消费者换机周期的上限。与此同时，产品的同质化导致品牌在满足消费者需求方面缺乏创新。过去几年中，智能手机的设计元素不断走向统一，直板机的造型风格趋于相似。大量厂商对技术参数和性能的追求超越了对消费者个性化、实用性、体验性需求的关注。在硬件和软件功能方面，大部分手机都具备相似的通话、社交媒体应用、互联网浏览等基本功能。市场亟待新的需求刺激拉动增长。折叠屏手机作为兼具大屏幕、便携性等特点的智能手机，极大拓宽了在用机方式上自由发挥的余地，将场景创新的可能性拉升到了新的维度。横折手机屏幕的拓展可以同时展示多个应用程序或文档，为用户在多任务处理、视频会议办公的过程带来极大便利，扩大后的屏幕还可以为文件浏览、视频播放、游戏、线上听课等活动带来更好的视觉体验。竖折手机突破了机身长度对便携性的限制，使用户在穿戴方面更加灵活，与时尚元素的相容性更高。3目录折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验IDC 预测，中国折叠屏手机市场规模将在 2027 年接近 1,500 万台，年复合增长率高达 37.8%，将在中国手机整体市场增长有待提振的大背景下异军突起。用户需求产生于具体的使用场景，对需求的满足需要结合用户在场景中的具体行为与所处环境。IDC 对场景化的研究涵盖教育学习、移动办公、休闲娱乐、运动健康、家居控制、智能出行，折叠屏手机的产品优势在这些场景中均能有所发挥。本章内容将对折叠屏在这些场景中的效用进行总结，并对前沿技术落地的主要场景展开论述。教育学习折叠屏手机的大屏幕和高级处理器可以提供更加舒适的学习和教学环境。例如，通过下载电子书、在线课程和教育应用程序，用户可以在折叠屏手机上进行高效的学习和教学。移动办公折叠屏手机的特性可以更好地满足商务人士在办公、会议和出差等场景下的使用需求，其大屏幕可以同时展示多个应用程序或文档，同时对于单个文档的展示也具有更加良好的视觉效果。休闲娱乐折叠屏手机的大屏幕和优质显示效果使其成为观看电影、电视剧、球赛等视频内容的理想设备。扩大的屏幕可以增加游戏内的视野，配合高级处理器提供更加流畅、逼真的游戏体验。运动健康竖折手机在折叠状态下尺寸更小，极大减小了用户在运动过程中贴身携带时的负担，为用户记录运动信息提供便利，也方便了用户在运动过程中与外界保持联系。家居控制大屏为家居控制平台软件的用户界面提供了更加充分的显示空间，使 UI 设计得以更加贴合设备在房间中的排布，使用户控制智能家居的过程更加直观。智能出行大的屏显在展示地图时具有得天独厚的优势，使路线与不同交通方式搭配的展示具备更强的可读性；此外，当用户作为交通工具的乘坐者参与出行行为时，大屏可以为用户提供更加畅快的影音体验。来源：IDC,2023来源：IDC,2023图 1 中国折叠屏手机市场规模及增长率表 1 折叠屏手机在不同场景中的应用2023F20222025F2026F2024F2027F 市场规模 YoY增长率整体市场增长率30252015105150%-100%-150%-50%0P0%单位：百万台增长率3.3116.1.1S.8&.9.9%6.09.211.713.514.8-13.3%-3.6%1.0%0.7%0.5%0.3%9.1%折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验4目录AI 技术发展推动移动办公走向普及，移动设备市场需求痛点随之变化移动设备的普及与网络技术的发展为移动办公奠定了良好的基础，促使高端产品向商务定位的倾向性不断增强。近年来，移动办公的普及率越来越高，尤其在年轻员工中。这种工作模式允许员工根据具体情况灵活选择在办公室或家中、出差地等远程工作地点处理工作。对于企业而言，通过使用移动设备进行会议、培训等，企业可以节省差旅费用和时间成本。过往阻碍这一模式进一步普及的主要原因在于远程沟通手段仅解决功能性层级信息传递的需求，难以达到面对面“共情”的效果。然而，这一情形正随智能化手段的落地悄然改变。AI 技术的发展正在重塑移动办公环境。在远程沟通方面，视频会议的质量受到网络带宽限制，AI 技术对编解码算法的优化可以根据网络、设备环境实时调节信号传输方案，保障员工间沟通的流畅性。在效率方面，AI 赋能下的沟通纪要、语言/方言转译功能赋予线上环境以得天独厚的优势，AI 助理也正越来越多地参与到用户的工作过程当中。AI 技术推动消费者的工作习惯向移动办公的模式转变，与这一模式相适应的硬件设备不断占领市场。IDC 数据显示，中国手机市场 SoC 集成 AI 引擎的设备占比呈上升态势。即使在低端市场满足基本功能性需求的机型大量占领市场的情况下，AI 加速引擎的集成亦在 2022 年增长至接近四成的水平。来源：IDC,2023图 2 中国手机市场 SoC 集成 AI 引擎设备占比集成AI引擎仅CPU GPU200202022100 %占比21.49.68.41.76.9c.1h.3a.6.4x.6%5目录折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验移动办公场景下的消费者需要更加灵活的办公设备。横折屏手机可以同时展示多个应用，为用户同时管理多任务进度提供了极大的便利。对于专注于一项工作或一个文档的情形，横折屏提供的显示面积可以赋予用户优越的浏览体验。移动办公场景的普及化将推动横折屏手机市场快速增长。IDC 数据显示，中国手机市场横折屏手机出货量涨势迅猛，至 2022 年下半年，每半年市场规模已超百万，年增长率频频超过 100%，是不容忽视的增量市场。移动办公场景的普及化同时也在刺激平板市场的增长。作为介于笔记本电脑与手机之间的终端设备，平板电脑兼顾屏显优势与便携性需求。在手机设备处理能力不断提升的今天，平板市场的增长反映出消费者对屏显面积的需求。IDC 数据显示，中国平板市场在过去几年中持续稳定增长，市场规模至 2022 年已增长至接近 3,000 万台，年复合增长率 6.4%。来源：IDC,2023来源：IDC,2023图 3 中国手机市场出货量及增长率横折屏图 4 中国平板市场出货量及增长率1.51.20.90.60.3500%-500%-300%-100000%市场规模 YoY增长率单位：百万台增长率21H221H122H222H123H525 %5%0%-5%市场规模 YoY增长率单位：百万台增长率2002020220.6622.2422.4123.3828.4629.960.620.561.321.24479.9%-0.3%0.8%4.3!.8%5.23.3%-15.73.10.0%折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验6目录以固定工位为中心的集中办公模式正逐渐消解，员工生活与工作之间的分界日渐模糊，消费者需随时随地应对工作需求。厂商需要在安全性、稳定性、灵活性等方面满足消费者全方位需求。直板机市场同质化现象延续，消费市场亟需个性化审美智能手机的设计元素在过去几年一直处于一种相对同质化的状态，各大品牌的设计风格较为相似，产品间的竞争主要集中于技术参数和性能，差异化并不明显。大部分手机都具备相似的通话、短信、互联网浏览、社交媒体应用等基本功能，真正能够引起消费者关注的创新并不多见。同时，大部分品牌都采用类似的定价策略、促销活动和捆绑销售策略等，进一步加剧了市场的竞争压力。同质化的市场使消费者难以找到符合自己需求的差异化产品。而手机市场消费者对差异化审美的追求是一个较为普遍的现象。一些消费者可能更喜欢与众不同的外观设计，以彰显自己的个性和品味。一些消费者可能更喜欢根据自己的喜好和需求来定制手机界面和功能，以获得更个性化的使用体验。消费者倾向于利用独特的外观和功能为自己的生活增添色彩。直板机过往长时间的趋同进一步使消费者对新兴元素的敏感度与尝试意愿有所提升。IDC 研究显示，中国手机市场消费者人群中，品味达人占比高达 18.3%，个性化高端市场潜力巨大，且对整体消费人群具有不可忽视的导向性作用。来源：IDC,2023图 5 中国手机市场消费者人群细分稳重体面型12.7%高端/档次实用/价格自主/先驱追随/传统18.3%品味达人型26.8%理性自主型42.2%节俭从众型7目录折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验竖折屏手机在外观设计上更加轻薄，方便携带。同时，展开时拥有宽大的屏幕，折叠时则变成小巧的形态，这种巧妙的设计给消费者带来了全新的使用体验。竖折屏手机在外形上具有更高的时尚感和个性化，在外壳、颜色、材质等方面进行创新，推出不同风格的竖折屏手机，满足不同消费者的审美需求。竖折屏手机以其独特的外观设计、时尚气质、便携性和个性化等特点，成功地迎合了消费者追求个性化审美的需求。厂商不断创新和推出新款竖折屏手机，为消费者提供了更多选择。这种趋势将有助于竖折屏手机市场进一步发展和壮大。竖折屏手机在满足消费者个性化审美方面具有显著优势。其独特的设计和时尚气质使其成为消费者追求个人品味和独特性的重要工具。IDC 数据显示，中国手机市场中竖折屏手机的出货量在 20212022 年持续激增，至 2023 年上半年市场规模达到百万级别，增长势头旺盛。独特的设计风格和高品质的制造工艺是吸引时尚潮流族人群的重要因素。就这一方面而言，产品端做到独树一帜的品牌将在新一轮的市场增长中获得行业领导力。厂商需要在影像设备、存储空间、外观定制化等方面充分满足消费者的使用需求。来源：IDC,2023图 6 中国手机市场出货量及增长率竖折屏1.210.80.60.40.220000%000%-5000%0P00000000!H221H122H222H123H1 市场规模 YoY增长率单位：百万台增长率0.210.002-91.00.4!,793.7&9.6.0%0.560.821.048目录场景中的时间、空间、情境使消费者对终端设备的需求不断具象化，手机作为个人随身设备，对各个场景均有所参与。因此，高端设备需要从效率、安全、影像等角度全方位满足用户与场景相结合的使用需求，对设计、材料、技术提出多重挑战。同时，折叠屏机身又具备一定的特殊性，厂商需要提出针对性地解决方案。移动办公场景涉及复杂交互，对系统的稳定性、安全性提出更高需求移动办公以企业资源的线上化为基础，这意味着企业数据的线上化与员工沟通的线上化。网络稳定性对于线上办公而言至关重要，一旦网络出现故障或不稳定，可能会导致企业业务的停顿、数据丢失以及信息安全风险等问题。线上办公需要建立稳定可靠的连接，以保证数据的传输速度和网络的稳定性。网络安全是线上办公的重要组成部分。企业需要完善的安全防护体系，包括数据加密、访问控制、安全审计等功能，以保护企业的核心数据和业务系统。办公设备作为企业安全防护系统中的重要环节，需保证组织系统数据和重要信息免受非授权登录与修改，支持远程办公环境下的网络安全、数据安全、应用业务安全。二、技术挑战：使用环境对软硬件技术的专属方案提出需求9目录折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验消费者数据与信息安全不仅直接关系到每一个普通民众的切身利益，更是社会和国家稳定发展的重要基础。消费者产生的数据属于他们自己，企业应该获得合法授权才能使用这些数据。这不仅有助于确保数据的安全，还有助于建立消费者信任，从而推动数字经济的健康发展。消费者隐私权是一项不容侵犯的道德问题和数字经济可持续发展的前提。通话私密性是智能手机参与商务场景的第一道门槛。折叠屏手机的屏显面积为其参与办公场景带来得天独厚的优势，但需以系统稳定性与安全隐私方面达到商务级别防护水平为前提。在过往许多情形中，折叠屏手机需要应用程序做出单独的软件适配，为系统的稳定性与安全性带来了额外的不确定因素。厂商需在安全性、稳定性方面充分发力，保证其折叠屏手机产品在商务场景中具备足够的竞争力。折叠屏的工业设计存在特殊性折叠屏手机物理形态更加紧凑，对硬件堆叠要求较高。为了在有限的内部空间内实现高质量的屏幕显示和折叠功能，工程师需要精心设计并优化硬件堆叠布局。主板和电池等关键组件必须实现精确的放置，以确保在折叠和展开状态下都能正常工作。同时还需要保证足够的抗冲击性和耐折性，以应对手机在日常使用中可能遇到的意外情况。影像设备影像设备元器件向折叠屏手机的集成对工业设计提出挑战，需在减重的同时保证影像质量。智能手机的兴起对数码相机形成了一定的替代，现在市面上的智能手机，拍摄效果已经赶上并超过当时的定焦数码卡片机。智能手机在操作上的便捷性使用户得以方便地拍摄照片，用户也早已养成了利用手机记录生活的习惯。自媒体的兴起导致了媒介资源的分散化，使信息的传播不再局限于传统的大众媒体。人们可以通过个人博客、社交媒体、短视频平台等多种渠道发布和传播信息，使信息的传播更加自由和便捷。作为折叠屏手机重要客群的潮流人群往往更加热衷于追求时尚、潮流和个性化，他们通常会利用自媒体来表达自己的个性和独特性，同时随着第三方 cookie 的终结和消费者隐私立法的兴起，客户越来越意识到共享数据的价值，并对其使用方式（如数据隐私）保持警惕。折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验10目录也可以利用自媒体来与朋友和粉丝分享自己的潮流生活方式和时尚观念。自媒体渠道允许这一群体高频次分享潮流搭配、参与潮流话题讨论、表达自己的时尚态度，并与潮流博主互动。AI 技术在手机端的落地对这一需求形成了进一步的刺激。在内容生产方面，AI 技术使能人像修改，以及点缀元素的添加，为自媒体参与者提供了更加丰富的表达方式。对于内容的管理，AI 助理能够基于人像、地点等要素对照片、视频资料进行快速整理，提升了用户在素材管理方面的效率。高端智能手机均对这类 AI 任务的硬件加速有所布局，同时在影像设备方面充分保证用户能够实时产出高质量的影像作品。折叠屏对轻薄化的要求对影像设备的集成形成限制。折叠屏手机为了实现折叠功能，通常会采用较小的内部空间。这使得摄像头模组的尺寸和位置受到限制，可能会影响镜头的光学性能、传感器尺寸等参数。厂商需在镜头技术和图像处理算法等方面另辟蹊径，以弥补因空间限制而带来的不足。电池续航轻薄化设计对电池空间形成限制，为保证折叠的灵活度，以及折叠后机身的厚度依然能够为消费者所接受，电池需要在体积、形状、位置等方面做出妥协。然而，对于折叠屏手机而言，横折手机展开时屏幕面积加倍，竖折手机存在外屏，显示面积的增加带来更大的处理需求与耗电量，对电池续航的要求更高。工程师需要在满足手机便携性需求的同时，保证电池具备足够的续航能力。折痕处理折叠屏手机屏幕折叠的位置容易出现折痕，并且有的手机折痕较深，会在屏幕上留下“鼓包”，特别是在使用一段时间后尤其明显。对于折叠屏手机的使用者来说，折痕的存在可能会影响观影、玩游戏等使用体验。在观看电影或玩游戏时，折痕可能会影响画面的整体连贯性和视觉效果，导致视觉疲劳或不适感。对大屏浏览需求较大的用户往往更加看重屏幕的视觉体验，因而对屏显的瑕疵更为敏感。与此同时，铰链和屏幕的耐久性和防护性决定折叠屏手机的可靠性。厂商需要充分挖掘铰链及其它相关技术潜力，以提升折叠屏手机的耐久性和用户体验。折叠屏手机独特的外观使在吸引时尚潮流族方面具备天然的优势，唯有在影像方面做到足够水平的跟进，方能使这一优势得到完全的发挥。11目录折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验产品设计需充分满足消费者个性化需求手机外观与交互模式的个性化是消费者在选择手机时的重要考虑因素之一，尤其对于品味达人型人群，在购机过程中更加看重产品在这一方面的表现。消费者希望自己的手机能够与众不同，展现出自己的个性和品位。对于手机厂商而言，在设计和制造手机时，应该充分考虑到消费者的需求和偏好，从而满足用户对个性化审美的追求，提升用户的购买和使用体验。AI 技术的应用将终端设备对消费者个性化诉求的满足拉升至新的维度。AI 助手使人们可以通过语音、手势等方式与终端设备进行交互，让消费者能够更加轻松地使用终端设备，从而增强对设备的亲近感和依赖度。与此同时，AI 技术使能终端设备更好地理解和分析消费者的需求和行为，通过对消费者搜索记录、购买记录等数据的分析，预测消费者的兴趣爱好、需求趋势，为消费者推荐更加精准的商品或服务。手机厂商在 SoC 算力基础层面提供充分支持的同时，还需要在外观与交互层面实现实现创新，以顺应消费者个性化需求的大潮。折叠屏手机不仅在造型方面具备天然的特殊性，还可以利用外屏实现自定义主题、壁纸和铃声，充分满足用户个性化的审美需求。同时，折叠屏手机的外屏在使用方面还支持多种智能服务，为用户在使用方面的个人发挥提供了更大的空间。用户可以通过外屏快速查看信息，或快速调用相机、录音机、语音助手、智能家居等应用程序。厂商在设计外观及硬件布局时需要充分考虑外屏的潜在价值，并在软件应用上针对外屏进行针对性开发，充分满足消费者的个性化使用需求。12目录三、行业前沿：硬件技术大跨步飞跃，软件系统精细化发展折叠屏手机的设计和生产过程需要高度关注硬件堆叠和布局的优化，以确保手机具备高品质、高可靠性和高耐用性。过往折叠屏手机在触屏反馈、软件适配、充电续航等方面的基础体验弱于普通直板手机。但随着技术的发展，折叠屏手机产品的用户体验正不断改善。安全技术不断进步，满足商务场景需求手机系统在安全方面所面临的挑战包括恶意软件的攻击，以及对数据安全和隐私的保护。随着移动设备的普及和技术的不断发展，恶意软件和漏洞的数量也不断增加，应用程序的代码质量、逻辑设计、用户授权模式等方面均会影响手机的安全性。许多应用程序存在安全漏洞和恶意代码，导致用户数据的泄露、手机的被控制等严重安全问题。业内厂商在设计和开发手机操作系统时，均采用多层次的安全机制、沙箱技术、访问控制等，以增强操作系统的安全性。并对旗下手机操作系统保持着持续的更新和修复，以消除新识别的漏洞和缺陷。尤其对于产品谱系丰富的大型厂商，更加注重13目录折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验对多型号、多版本的安全管理。应用层面对应用程序的审核和管理不断加强，严格的应用审核机制与自动化检测工具不断发现和修复应用程序中的安全漏洞和恶意代码。同时，对用户提供系统修复工具和自动化修复程序，方便用户进行主动修复。用户手机往往存储大量的个人数据，例如照片、视频、联系人、短信、邮件等，手机设备对办公与商务场景的参与更是将信息的敏感度拉升到了更高的层级，这些数据的安全性和隐私保护是手机安全中的重要问题。而手机需要与网络连接进行通信，难以规避监听、干扰、攻击的风险，这些问题都需要通过技术手段来解决，网络通信的安全性是手机安全中的重要一环。软件系统灵活度不断提升，帮助用户提升效率折叠屏手机对屏幕的拓展为效率的提升带来了更多的可能性。屏显面积的扩大允许多个应用同时与用户发生交互，不仅方便用户同时完成多个进程，还为不同应用间的协同创造了新的模式，比如拖拽文件，或将照片发到微信或者便签。不仅简化了多任务处理的流程，还能提高用户的效率和体验。多任务操作的技术难点在于应用程序兼容性，不是所有的应用程序都支持自由浮窗功能，因此需要花费大量资源与应用程序开发厂商协商解决兼容性问题。在系统资源方面需要设计一种有效的机制来管理程序对内存、CPU 的占用，保证一个应用程序的崩溃或者异常退出不会影响到其他应用程序的窗口。还需要在 UI 方面设置有效的机制来帮助用户在多个任务之间进行切换和管理，充分考虑用户的使用习惯和操作便捷性，防止误触等问题的出现。这些难题需要研发团队进行深入研究和探讨，结合实际应用场景和用户需求来寻找解决方案。行业内领先的多任务窗口方案已充分实现对多个应用程序的同时操作，并在操作的便捷性、灵活性、直观性、可定制等方面有所创新。在便捷性方面，支持通过手势或者点击菜单键快速切换不同的应用程序窗口，用户可以快速地在不同应用程序之间进行切换。在灵活性上，允许不同的应用程序窗口自由地调整大小和位置，使用户得以按照自己的使用习惯来排列窗口，提升使用体验。同时，多任务窗口方案的SSL/TLS 协议下的加密通信技术使用户的隐私的安全性在网络通讯中得以保障，厂商通过加密存储和传输工具、访问控制等安全机制，保护用户数据的机密性和完整性。折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验14目录设计具备简单直观的特点，使用户快速理解和掌握操作方法。还支持用户根据自己的喜好和需要来定制多任务窗口方案，可以按照自己的使用习惯来调整窗口大小、位置、透明度等参数。影像技术不断升级手机影像技术所面临的技术挑战包括暗光、逆光、远摄、广角等场景下的画质表现。在暗光环境下，手机需要更高的 ISO 和更长的曝光时间来获取更多的光线，从而生成明亮的图像，但这会导致图像的噪点增加和细节丢失。逆光环境下，手机需要平衡逆光和背景的光线，从而产生自然的图像。远摄和广角场景下，手机需要具备高性能的镜头和传感器，以便捕捉细节和呈现广阔的视野。色彩还原、细节保留、动态范围等方面的影像质感也是手机影像所追求的重要方面。手机需要准确地还原色彩，呈现物体本身的颜色。同时保持细节的丰富性，在图像中保留足够多的细节，以便用户可以在图像中看到更多的信息。并保证动态范围的宽广性，最大程度拓宽最亮和最暗的对比度范围。手机影像技术面临着多方面的挑战，手机厂商需要不断创新和完善技术以应对这些挑战。手机厂商在算法上不断进行差异化探索和创新，以提升影像处理的效率和效果，一方面注重画面细节的刻画，另一方面力求增加画面亮度与色彩表现力。AI 技术持续优化手机影像，提升手机摄影的体验，赋能手机厂商实现“超广角广角长焦”三颗大底 CMOS 高端影像，使得照片在清晰度和色彩呈现方面不断实现新的突破。与此同时，手机厂商与专业相机制造商不断开展合作，不仅提升手机的成像质量，为手机摄影带来更多可能。手机厂商通过技术创新不断提升手机摄影的体验。未来，随着技术的不断进步和发展，手机影像技术将会取得更多的突破和创新。15目录四、手机、平板和数码相机三位一体在 ColorOS.13.2.上，通过对原生分屏架构的革新，OPPO.创造出了分屏更自由，商务办公更高效的全景虚拟屏解决方案，解决了分屏难、信息遮挡的问题。并采用通过国密二级认证的最强安全芯片，保护用户的指纹、系统核心密钥、传感器状态、手机激活状态等机密信息，推出与三段式开关结合的 VIP.模式，防止商务人士出现信息泄漏的问题。此外，面向折叠屏严峻的空间限制，Find.N3 搭载的与索尼联合研发的次世代“折叠像素”技术为小尺寸传感器赋予以小博大的旗舰影像实力，让折叠屏影像具备旗舰影像的强大硬件实力。折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验16目录安全Find.N3.的安全芯片放弃了与主系统共用硬件、仅在逻辑上做隔离的做法，转而在手机中额外加入了一整套具备独立运算、存储能力的“小电脑”，使得国密认证安全芯片可以完全独立于主平台 SoC.运行，让加密、认证计算和密钥存储等工作在物理上完全隔离于主系统之外。借助国密认证安全芯片，Find.N3.为商务场景带来了满足可知可控需要的全新 VIP模式。通过三段式物理按键，用户可一键关闭摄像头、麦克风、定位敏感权限，让应用无法获取机密信息。VIP.模式由 Find.N3.中的国密认证安全芯片保护，可杜绝恶意应用攻破安卓系统后重新开启敏感权限，从容实现敏感对话防窃听，商业机密不外泄。Find.N3.在实现前台文件的隐藏之上，还实现了从隐藏到锁定。通过与主系统物理隔离、拥有独立存储系统的国密认证安全芯片，将机密文件、个人生物识别信息、设备锁定状态与端云传输都锁定在安全芯片中。由于密钥单独存放，经过国密认证安全芯片加密的信息能够有效防止攻击者窃取。N3 预定用户中对 VIP 模式存在需求的占比达 30%安全模式充分防止敏感信息泄漏芯片级安全加密，安全芯片锁万物信号安心，性能可靠17目录折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验效率全景虚拟屏，从根源解决无法分屏与分屏效率低的问题。.“全景虚拟屏”框架允许用户将任意 2-3.个应用在这块虚拟屏上组合使用。ColorOS.上这套拥有 18.项专利技术加持的自研多任务窗口方案，历经了三次产品方案的变更，可以做到在无需三方应用针对性适配下，应用分屏的成功率由传统的 50%一举提升至 99%。用户原本在其他折叠屏上无法分屏的应用在 ColorOS.上也可以正常分屏，自此以后，就几乎没有分不了的屏。除了分屏更轻松之外，全景虚拟屏更是带来了史无前例的多应用大屏并行显示，进入多分屏时应用不再需要为了塞入有限的显示空间而缩减自己的显示面积，而是作为一个个独立显示的画面，超越屏幕物理限制，突破传统多任务以相同层级并行展示多个的做法，不再限制应用显示的内容，每一处细节都能被用户一览无余，在7.8.英寸的屏幕上，感受到近乎 15.英寸的大屏体验。OPPO Find N3 系列手机，首销销售额达到上代产品 2.7 倍全景虚拟屏真正实现多任务追焦工作流生态破壁，实现文件随心开无缝交互，打造文件任意门为移动办公带来二次革命在应用大屏适配方面，ColorOS 积极与 QQ、爱奇艺、优酷、拼多多、京东、小红书、快手、同花顺、剪映、钉钉、网易云音乐、腾讯新闻等众多国民级 APP 达成深度定制合作。折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验18目录影像OPPO Find N2/N3 Flip 系列手机在 2023 年前三季度出货量高达 552,030 台市场份额在竖折屏手机市场中占比接近三分之一旗舰影像首次登陆折叠人像镜头首次登陆小折叠和 iPhone 共同开启“第四代传感器技术”时代“超光感潜望长焦”拥有 1/2 英寸大地传感器与 f/2.6 大光圈，为暗光人像拍摄提供充足创作空间。潜望模组中，镜片融合超低反镀膜与 BG 旋涂制备技术确保光学品质。D-cut 镜头设计在相同高度下提供 23%的更大进光量。强大的传感器结合先进的光学设计，使 Find.N3 的“超光感潜望长焦”在 3X 和 6X 焦段中都可提供卓越的清晰度与光影表现力。“超光影图形引擎”通过计算实现更真实的光影过度，为二维的照片打造出空间感、立体感、临境感。利用 OPPO 先进的 RAW 域计算架构，在拍摄中同步记录高达1200 万的光子点矩阵信息，并逐个对像素进行亮度标定，从而更有参考性地映射出正确的光影关系和真实的光影层次，并通过 ProXDR 显示在 Find.N3 的内外屏上都提供超越传统亮度限制的光影表现。“自然色彩引擎”是 OPPO 与哈苏自然色彩联合为计算摄影置身定制的色彩解决方案。与传统单一的色彩模式不同，自然色彩引擎提供了一套可覆盖所有拍摄场景、所有亮度环境的通用型色彩管理体系，搭配 OPPO 自研的自动对焦与自动白平衡算法，使用户无需从复杂的色彩模式中进行选择，即能获得真实如人眼所见的色彩。19目录人工智能技术的不断落地推动移动办公场景走向普及，移动设备对办公与商务活动的参与度不断提升。折叠屏手机作为移动设备，在便携性方面与传统办公设备相比具备优势，在屏显面积上又优于传统智能手机，因而将在移动办公的大潮中迎来市场规模的增长。然而，消费者工作方式的改变不仅对办公设备的多样性与灵活性提出要求，还需要新的设备在安全性与稳定性上与传统设备同样可靠。作为与移动办公场景紧密相关的设备，折叠屏手机在安全方面的性能将成为消费者进行购买选择时的重要考量因素。AI 技术在手机相机、相册管理中的应用也使拍摄更加智能化，极大提升了用户对图像类内容产出的效率。加之自媒体平台的兴起为内容提供了充分的传播渠道，用户对线上社交的需求从未如今天一般高涨。不仅对于年轻人群，产出高质量影像作品的需求横跨多个年龄段。用户对手机影像的需求将逐渐发展为行业对产品的基本需求。五、IDC 预测：AI 驱动场景，推进折叠屏手机走向普及IDC 预测，企业的办公面积将在未来几年中发生明显的缩减，中国至 2025年将有超过 40%的会议转移到线上开展。折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验20目录品味达人型用户占中国手机市场消费群体总数近五分之一，该人群对手机的设计需求也在不断提高，包括更轻薄便携的尺寸、更美观时尚的外观、更个性化定制的界面等。整体手机市场消费者的需求越来越全面，注重手机的性能、品质、功能等多方面表现。折叠屏手机产品所处的发展阶段已不再单纯追求轻薄，尤其对于高端产品，需从安全、效率、影像等多角度为用户提供全方位性能体验。国际数据公司（IDC）是在信息技术、电信行业和消费科技领域，全球领先的专业的市场调查、咨询服务及会展活动提供商。IDC 帮助 IT 专业人士、业务主管和投资机构制定以事实为基础的技术采购决策和业务发展战略。IDC 在全球拥有超过 1100 名分析师，他们针对 110 多个国家的技术和行业发展机遇和趋势，提供全球化、区域性和本地化的专业意见。在 IDC 超过 50 年的发展历史中，众多企业客户借助 IDC 的战略分析实现了其关键业务目标。IDC 是 IDG 旗下子公司，IDG 是全球领先的媒体出版，会展服务及研究咨询公司。IDC 中国（北京）：中国北京市东城区北三环东路 36 号环球贸易中心 E 座 901 室邮编：100013 86.10.5889.1666 idc idc凡是在广告、新闻发布稿或促销材料中使用 IDC 信息或提及 IDC 都需要预先获得 IDC 的书面许可。如需获取许可，请致信。翻译或本地化本文档需要 IDC 额外的许可。获取更多信息请访问，获取更多有关 IDC GMS信息，请访问 https:/ 2022 IDC。未经许可，不得复制。保留所有权利。折叠屏市场趋势洞察白皮书：“高效安全移动影像”便捷商务新体验

0人已浏览 2023-11-15 22页 5星级
武大&华为：LuoJiaSet&LuoJiaNet产业应用白皮书（2022）（193页）.pdf
引言：随着大数据、人工智能等技术的发展，基于深度学习的遥感影像解译与监测技术表现出了一定的优势。由于遥感对地观测与智能处理的战略价值，国外在2020 年将基于人工智能的遥感技术列为敏感技术并限制出口，形成新一轮封锁态势。各类国内外开源深度学习框架，虽然能适用于通用图像处理，但目前尚无顾及遥感大幅面、多通道、知识融合特性的深度学习框架和相应任务驱动的大规模遥感影像样本库。武汉大学在国家自然科学基金委重大研究计划集成项目“大规模遥感影像样本库构建及开源遥感深度网络框架模型研究”（项目编号：92038301）的支持下，与华为昇腾 AI 团队合作，双方共享知识产权，共同研发了全球首个遥感影像智能解译专用深度学习框架 LuoJiaNET 和业界最大遥感影像样本库LuoJiaSET，并在华为昇思社区上线。为了进一步推进科研成果的产业落地，武汉大学与华为技术公司联合发布大规模遥感样本库 LuoJiaSET 及遥感深度学习框架 LuoJiaNET 产业应用白皮书，以期形成“全栈”自主可控的智能遥感生态。本白皮书分为 6 部分，包括国内外技术的发展现状及趋势、LuoJiaSET 样本库平台功能介绍、LuoJiaNET 框架安装部署及遥感特性介绍、LuoJiaNET 典型应用模型介绍、LuoJiaNET 典型行业应用介绍、以及 LuoJiaSET 与 LuoJiaNET的发展与展望。白皮书亮点摘要：1.遥感智能化处理的云平台，仍有较大提升空间。当前遥感影像样本存在分类体系不统一、样本数量不足、时空分布不均、标注效率不高等问题，需建立统一的遥感影像样本分类体系，研发支持众包协同的样本标注工具，建立完善的版权保护体系，形成分类统一、类型完备、具有自适应扩展能力的遥感影像样本库；同时主流开源深度学习框架与模型主要针对的是普通影像，即普通的小像幅室内/外影像；现有遥感智能解译与监测系统大多由通用图像识别的深度神经网络改造，一般只考虑了影像二维空间的可见光图像特征，顾及遥感光谱特性、地学先验知识、数据与框架协同等重要因素，支持遥感地学特性的框架仍是空白。武汉大学与华为技术公司联合研发的 LuoJiaSETT 与LuoJiaNET 构建了从底层硬件到样本框架、再到面向智能测图任务的上层应用模型的全链条自主可控智能化处理云平台。2.LuoJiaSET 样本库可提供样本的统一规范化接口。LuoJiaSET 是遥感领域满足 OGC 标准的大规模遥感影像样本库，其制定了支持全球范围的遥感影像样本分类标准、标注规范，建立涵盖不同遥感任务的统一分类体系，形成样本要素的采集要求、内容和流程规范，可支持多级别、多类型遥感影像样本库的采集、制作、管理、共享、应用。目前，形成了包含 82个面向遥感智能解译的样本数据集、总数超过 500 万张的样本库。LuojiaSET 构建了100类的细粒度地表覆盖数据集Luojia-FGLC（Fine Grain Land Cover,）、国际上最大范围的航空高光谱与高分辨率数据集 Luojia-HSSR(High Spatial and Spectral Resolution)和第一个基于公开地理信息的省域大范围典型地表覆盖数据集 Luojia-HBD4（Hubei Dataset of 4 Land Cover Types)，有效支撑了国家自然科学基金委“智能遥感处理大赛”等项目。3.LuoJiaNET 框架充分融合遥感特性。LuoJiaNET 由武汉大学 LuoJiaNET 框架团队与华为昇腾 AI 团队联合打造而成，是遥感领域首个自主可控的遥感专用机器学习框架。针对遥感数据像幅尺寸大、数据通道多、尺度变化大等特性，具备内存可扩展、尺度通道灵活创建、数据通道自主优选、框架与数据协同处理的特点。可兼容已有深度学习框架，并提供用户友好的、可拖拽的交互式网络结构搭建界面的方法。能屏蔽不同硬件设备间差异，同时管理多样化的遥感影像样本库，实现遥多源感影像样本的高效读写与存储管理。其与国产人工智能硬件昇腾 NPU 深度融合，使智能计算软硬件充分协同，形成融合探测机理与地学知识的统一计算图表达、编译优化、图算融合、自动混合并行的新一代遥感智能解译框架，可进行遥感样本的自动提纯与增广，同时充分融合遥感地学知识。4.LuoJiaNET 框架提供 5 大类遥感基础应用模型。为了验证 LuojiaNET 遥感专用深度学习框架的有效性，发挥其优势，构建了基于 LuojiaNET 框架的典型应用解译模型，包括：（1）场景分类模型；（2）目标检测（侧重细粒度）；（3）语义分割模型（含多光谱/高光谱）；（4）多视三维生成模型；（5）变化检测模型。系列模型可兼容华为昇腾 AI 硬件架构，并对其性能、效果与主流的框架 PyTorch、Tensorflow 等构建的模型进行对比分析。此外，提供了大幅面影像处理、遥感知识嵌入的核心解决方案。5.LuoJiaSET 与 LuoJiaNET 框架为遥感行业应用提供支撑。LuoJiaNET 与 LuoJiaNET 为上海数慧、武汉汉达瑞科技公司、航天宏图信息技术股份有限公司、珈和科技等行业单位提供遥感基础应用模型，共同构筑自主可控开源遥感生态。在公测的一个月时间内，已有超 3000 人次的下载量，多家大型公司将 LuoJiaSET 与 LuoJiaNET 作为遥感人工智能基础软件平台。目录 1 概述 1 1.1 编写目的.1 1.2 项目背景.1 1.3 国内外发展现状及趋势.2 1.3.1 遥感影像样本数据集构建方法.2 1.3.2 深度学习框架与模型.6 1.3.3 顾及遥感数据及任务特性的深度神经网络优化理论与方法.10 1.3.4 遥感影像处理云平台.13 2.LuoJiaSET 样本库平台 15 2.1 样本共享服务平台基础功能.15 2.1.1 用户注册登录.15 2.1.2 数据集显示.16 2.1.3 数据集详情查询.18 2.2 样本共享服务平台查询下载流程.20 2.2.1 数据集包含类别查询.20 2.2.2 样本元数据信息查询.22 2.2.3 订单提交.23 2.2.4 管理员订单审核.24 2.2.5 订单文件下载.24 2.3 样本数据库.25 2.3.1 数据集数量查询.25 2.3.2 样本数量查询.25 3.LuoJiaNET 框架 27 3.1 安装部署.27 3.2 大幅面处理特性与功能.38 3.2.1 遥感大幅面影像四叉树索引功能.38 3.2.2 遥感大幅面影像专用 IR 功能.41 3.2.3 遥感大幅面影像算子分解功能.43 3.3 遥感先验知识并行计算.58 3.3.1 遥感先验知识提取.58 3.3.2 遥感先验知识自动并行.76 4.LuoJiaNET 典型应用模型 92 4.1 场景分类.92 4.1.1 任务简介.92 4.1.2 分类网络简介.92 4.1.3 测评结果.94 4.1.4 总结.97 4.2 目标检测.98 4.2.1 任务简介.98 4.2.2 目标检测网络简介.98 4.2.3 测评结果.100 4.2.4 总结.113 4.3 地物分类.113 4.3.1 高光谱地物分类（一）.113 4.3.2 高光谱地物分类（二）.128 4.3.3 高空间分辨率地物分类（一）.137 4.3.4 高空间分辨率地物分类（二）.141 4.4 变化检测.147 4.4.1 任务简介.147 4.4.2 变化检测网络简介.148 4.4.3 测评结果.151 4.5 多视三维.157 4.5.1 双目立体.157 4.5.2 多视密集匹配.163 4.6 知识嵌入.170 4.6.1 任务简介.170 4.6.2 知识嵌入网络简介.170 4.6.3 测评结果.171 4.6.4 总结.178 5.LuoJiaNET 的典型行业应用 179 5.1 上海数慧自然资源大脑解决方案.179 5.2 武汉汉达瑞遥感影像智能化处理平台.179 5.3 航天宏图城市土地变化检测平台.180 5.4 珈和科技地事通智慧农业 SaaS 服务平台.180 6.进一步发展与展望 182 6.1 LuoJiaSET 发展及展望.182 6.2 LuoJiaNET 发展及展望.183 7.致谢 184 1 概述 1.1 编写目的白皮书介绍了遥感影像样本库 LuoJiaSET 及专用深度学习框架 LuoJiaNET的整体使用方法；同时介绍 LuoJiaNET 基础上的五大类应用模型测试情况，包括遥感场景检索、目标检测、地物分类、变化检测、多视角三维重建等；此外，介绍了当前 LuoJiaSET 与 LuoJiaNET 在典型行业应用方面的成果。预期读者包括机器学习系统设计开发人员、遥感影像样本库管理平台开发人员、深度学习模型开发人员等。1.2 项目背景随着大数据、人工智能等技术的发展，基于深度学习的遥感影像解译与监测技术表现出了一定的优势。但在实际应用中，遥感影像智能处理框架和信息服务能力相对滞后，仍未形成与人脸识别等类似的可广泛实用化的智能系统。无论是公开的遥感影像样本库，还是深度学习框架与模型，也尚不能满足空间稀疏表征与融合处理的需求。当今人工智能时代，专用的遥感深度学习框架与模型是连通硬件、软件、应用场景的枢纽与关键。由于遥感对地观测与智能处理的战略价值，美国在2020 年将基于人工智能的遥感技术列为敏感技术并限制出口，对我国形成新一轮封锁态势。鉴于目前我国尚无顾及遥感特性的深度学习框架，研究面向遥感应用、具备自主知识产权的专用深度学习框架模型技术，占领遥感人工智能生态链的制高点已显得尤为紧迫。武汉大学面向国家科技重大需求，在国家自然科学基金重大研究计划项目“大规模遥感影像样本库构建及开源遥感深度网络框架模型研究”（项目批准号：92038301）支持下，与华为昇腾 AI 团队合作，历时一年半，围绕空间信息稀疏表征与融合处理新理论、新技术与新成果综合集成和演示验证的实际效果评估需求：（1）提出了遥感影像数据集分类标准和标注规范，研发了互联网协同样本标注系统，构建了多种类、百万规模的标注数据和标准数据集及其发布平台-LuojiaSET。该样本库有不少于 500 万公开的、可扩展与精化遥感影像样本，包含第一个大规模细粒度地表覆盖样本集和大范围高光谱航空影像样本集；（2）针对遥感影像特点和应用需求，研发了遥感影像处理的深度神经网络开源架构、模型与网络优化方法，形成尺度通道灵活创建、数据通道自适应优选、多层级联合优化的遥感深度学习框架-LuojiaNET。它是国际上首个针对遥感信息机器学习的专用框架，有效地解决了遥感影像大幅面、多通道数据的特征提取等问题。（3）提出了遥感数据及任务特性的深度神经网络优化方法，包括高效的网络结构自搜索、地学知识嵌入等。LuoJiaNET 不仅可以支持通用GPU 的大幅面处理，还可以支持全国产昇腾 NPU 硬件，使遥感智能信息提取的底座“全栈”自主可控。1.3 国内外发展现状及趋势 1.3.1 遥感影像样本数据集构建方法近年来，随着深度学习的应用，出现了遥感任务的样本数据集，包括场景分类样本集（如表 1 中的 UC-Merced、NWPU-RESISC45、AID 等）、地物目标检测（飞机、轮船等）样本集（如表 2 中的 DOTA、DIOR、xView 等）、单要素/多要素语义分割样本集（如表 3 中的 GID、Massachusetts）、变化检测样本集（如表 4 中的 SCDN、SZTAKI）等。从表 1-4 可看出，遥感影像样本数量少，地物要素分类和变化检测样本集严重不足，且样本集分类体系各异、采集方法不同、样本尺寸不一、影像分辨率多样。遥感影像受传感器、季节变化等因素影响，呈现“同物异谱、异物同谱”现象。现有大部分样本集并未提供成像时间、区域范围等信息。且大都是全色或 RGB 彩色图像，缺少高光谱、红外、SAR 影像样本，使得在解译与监测方法忽略了其它类型影像特性。同时，缺少多视三维重建样本，导致其未充分顾及多视角成像方式。表 1.场景分类常用公开遥感影像数据集表 2.目标检测常用公开遥感影像数据集表 3.常用的遥感影像语义分割公开数据集表 4.常用的遥感影像变化检测公开数据集在分类体系方面，构建遥感影像样本库，首先要解决分类体系问题。然而，由于遥感任务的复杂性，不同样本集分类体系不尽相同。以土地覆盖分类为例，联合国粮农组织（FAO）、美国地质调查局（USGS）、欧洲环境署均提出各自的土地覆盖分类体系，其中 FAO 分类体系（LCCS）形成了国际标准 ISO 19144，中国据此制定了国家标准地理信息分类系统（GB/T 30322）。此外，还针对土地利用分类制定了土地利用现状分类(GB/T 21010-2017)，针对地理国情监测制定了基础性地理国情监测内容与指标（CH/T 9029-2019）行业标准。但不同分类体系间在分类命名、类别层级、类别语义以及兼容性方面有较大差异，没有一种体系能完全满足所有需求，如土地覆盖分类体系适于地物要素分类样本，但缺少目标检测样本的类别描述（如“飞机”、“车辆”等）。此外，再大量的样本库，都难做到分类完备，囊括所有的特征类别。不可预见的类别常会出现开集问题（预测类别在样本库所含类别之外），导致解译体系无法灵活扩展，难以服务于大范围应用。在样本标注与构建方面，遥感影像标注的专业性强，需具备地学知识和专业软件操作技术。首先，从样本标注工具角度，通用的标注工具（如 LabelMe、LabelImg）可用于小尺寸全色、RGB 影像的目标检测或语义分割标注，但大尺寸的遥感影像需切割成小尺寸进行标注，且不支持高光谱样本制作；同时，通用标注工具无法实现特定任务的标注，如遥感变化检测、全要素地物分类等；此外，地理信息软件（如 ArcGIS 和 QGIS）虽支持多光谱影像标注，但导出标签一般为矢量，输入模型前需转换格式。对于像素级标注，通常用专业软件（如 ENVI、ERDAS）人工采集，采用面向对象方法分割形成地物要素分类样本。其次，从样本标注方法角度，分人工与半自动标注。人工标注包括专业人员和众包标注方式，前者质量高但效率低，后者效率高但质量参差不齐。大规模普通影像样本（如ImageNet）制作将两者结合，即众包标注后再经专业人员审核。在遥感领域，一方面样本标注需专业基础，另一方面众包标注工具缺乏，样本制作限于专业人员，并未发挥众包优势，且缺乏样本版权保护。因此亟需半自动标注方法，通过已训练模型（如目标检测模型）初步采集，再用标注工具完善版权等信息。此外，部分地物提取软件（如 EasyFeature 等）也可用于半自动样本制作，但缺乏样本采集的众包平台，导致成本高、效率低。在样本的地理空间采样策略方面，合理的采样策略对构建大范围（区域及全球）遥感影像样本库至关重要，但目前已有样本集（特别是地物要素分类样本）是基于局部区域的少量影像构建，导致类别覆盖度不高、样本分布不均（包括时空分布不均和类内样本数量不均）。地理空间中某一类别要素的空间分布可能是不均匀的，例如东南亚水系丰富，而中亚草原荒漠较多。均匀抽样会导致各要素的样本不均衡，使机器学习模型对少数类别错误分类。为此需研究顾及地貌景观类别的样本分布策略，以优化样本分布，保证稀有类别样本数量足够，每个地理空间区域有足够样本量。在样本组织管理方面，多数遥感影像样本集由遥感社区的研究人员制作，或遥感组织根据竞赛任务制作，其样本数量有限。通常以数据文件方式组织，存储在个人服务器、公共资源托管（如 GitHub 等）和云存储平台（如华为云、Google Drive 等），并提供链接供下载使用。虽然大部分数据集提供了描述信息，且部分综述文章介绍了各类样本集，但遥感领域仍没有统一平台，有效管理不同样本集并提供快速索引方式。此外，大多数遥感任务使用单一数据集训练模型，造成泛化性不佳等问题。以目标检测为例，不同样本集均有“飞机”目标，模型若能利用不同成像质量、季节和区域的样本训练，则会强化泛化能力。因此，迫切需要搭建开放平台，存储和管理多类型、多尺度、多级别的遥感影像样本库。综上所述，当前遥感影像样本存在分类体系不统一、样本数量不足、时空分布不均、标注效率不高等问题，不能满足多类型、多级别、多尺度的智能解译与监测需求，且公开样本集缺乏有效动态扩充机制和管理方式，不利于样本集综合利用和动态维护。因此，需建立统一的遥感影像样本分类体系，研发支持众包协同的样本标注工具，建立完善的版权保护体系，形成分类统一、类型完备、具有自适应扩展能力的遥感影像样本库，为遥感影像解译与监测提供数据基础。1.3.2 深度学习框架与模型自 2012 年 ImageNet 挑战赛以来，面向普通图像处理的深度神经网络框架和模型获得迅猛发展。在遥感领域，影像处理模型主要由普通影像预训练模型迁移获得，并未从框架与模型集成遥感影像解译与动态监测所需特性。目前开源深度学习框架种类繁多，项目组前期调研的国内外开源深度学习框架如图 1-1。国内中科院计算所推出了人脸识别深度学习框架 Dragon，清华大学发布了计图（Jittor），华为、旷世、一流科技等互联网企业相继开源了MindSpore、MegEngine 以及 OneFlow 等框架。在国外，早期蒙特利尔理工学院开源了 Theano、伯克利大学研发了 Caffe，日本首选网络研发了当时领先的 Chainer 框架,Google、Facebook、Amazon 等先后开源了 Tensorflow、PyTorch、MxNet 等框架。虽然通用深度学习框架数目众多，但构建框架的核心技术正呈收敛态势。主要包括：控制流与数据流、以及操作符与张量；计算图优化与自动梯度计算；执行引擎、编程接口、部署运维及分布式训练等。图 1-1 国内外主要开源深度学习框架对比在控制流与数据流方面，神经网络数据依赖关系表示为有向无环图，该图设计了表达式的求值先后关系，可并行执行。函数式编程能挖掘表达式间的数据依赖关系。随着并发处理需求增多，函数式编程的深度学习框架正占据主流。以 Tensorflow、PyTorch、MXNet 为代表的框架开始侧重计算图的函数式求解方式，对完整模型一次性求解。在操作符与张量表达方面，传统深度学习框架，例如 Caffe 使用层（Layer）这种粗粒度结构的双向执行逻辑，在前向传播时，程序执行从零开始的递增循环；在反向传播时，程序逆向做递减循环。Tensorflow 将有向无环图的两个基本元素：操作符和张量分开表示。这种细粒度表示更加符合有向图计算思想，开发的灵活性更强。由于细粒度代码对编译器要求较高，多数框架也支持较粗粒度的操作符，例如卷积、池化、矩阵乘操作符等。因此，粗细结合的灵活算子是深度学习框架的发展趋势。此外，对张量计算的支持，也可通过 C 模板元编程提高效率。例如 TensorFlow 等框架使用 Eigen 库，MXNet 采用自研的 Mshadow 库。在计算图优化方面，定义网络结构的有向无环图后，深度学习框架利用编译器技术对图优化重写。计算图优化包括编译器优化、无用代码与公共子表达式消除、操作符融合、类型/形状推导及内存优化等。这些优化方法在Tensorflow、Pytorch、MXNet 等框架均有体现。在自动梯度计算方面，深度学习框架有两种构建方式，一种是静态图，例如 Caffe 和 Tensorflow，另一种是 Chainer 和 Pytorch 框架推出的动态图。静态图计算效率高、易优化，但灵活性、易用性不如动态图。无论基于静态图还是动态图的框架，自动逆拓扑序推导链式法则的反向传播计算图已成标配。用户只需描述前向传播，反向传播由框架推导完成。在执行引擎、编程接口、分布式训练与迁移部署方面，Tensorflow/Pytorch 等通过协调 CPU 和 GPU 设备提高计算效率与资源利用率。框架底层基于 C 开发，同时提供 Python 等前端接口。从开发到部署遵从“离线训练、在线识别”原则。模型训练依赖分布式平台，例如 Hadoop 或 Spark 支撑，使用数据并行的策略扩大处理任务和规模。然而设备数量不断增加，会导致通信开销增长，出现模型效率损失等缺陷。因此，将计算矩阵分块的模型并行策略，及 GPU 接力训练的流水线并行策略受到了重视。目前，主流开源框架都能支持数据并行，但模型并行和流水线并行仍较困难。此外，在框架部署与运维方面，普遍使用 Docker 和 Kubernetess 结合，Tensorflow 也推出托管工具 Serving，便于线上部署与运维。同时，随着开放神经网络交换标准（ONNX）的推出，多框架切换也得以满足，Tensorflow、PyTorch 等框架都支持 ONNX 标准。在基础模型设计方面，蒙特利尔大学率先在 GPU 上实现 AlexNet，并在ImageNet 取得超过第二名 10%的精度；牛津大学设计了 VGG-Net 使 top5错误率降至 7.5%；谷歌推出的 GoogleNet，使识别精度大幅度提升；何恺明等人提出 ResNet，使 top5 错误率降低至 4.5%；康奈尔大学、清华大学与Facebook FAIR 实验推出 DenseNet，使相同精度下计算量大幅降低；中国科学技术大学与 MSRA 开源了 HRNet，刷新了 MS-COCO 数据集三项纪录。在模型结构自动搜索（NAS）方面，数据驱动的搜索主要包含基于强化学习、演化计算与基于梯度的方法。基于强化学习方法通过代理模型指导网络搜索方向，常用代理模型有循环神经网络与近端策略优化等。基于演化计算方法将模型体系结构编码为字符序列，根据验证集的性能评估，执行交叉和变异操作，生成新的高性能结构。其中网络架构参数与模型参数分别基于演化与随机梯度下降方法迭代更新。基于强化学习和演化计算方法法具有出色性能，但对计算的要求很高。基于梯度的方法能显著提升效率，利用概率平滑使搜索空间可微，因而能够端对端优化。这些模型及搜索方法是针对小尺寸影像训练或搜索的模型，未顾及大幅遥感影像“像素-目标-场景”多层级要素提取、变化发现等任务的特性。通过对比国内外开源深度学习框架和模型可以发现，为平衡计算性能和灵活性需求，主流深度学习框架都有其优缺点。然而，主流开源深度学习框架与模型主要针对的是普通影像，即普通的小像幅室内/外影像；现有遥感智能解译与监测系统大多由通用图像识别的深度神经网络改造，一般只考虑了影像二维空间的可见光图像特征，顾及遥感光谱特性、地学先验知识、数据与框架协同等重要因素，支持遥感地学特性的框架仍是空白。1.3.3 顾及遥感数据及任务特性的深度神经网络优化理论与方法 1.3.3.1 顾及遥感数据及遥感任务的高效网络结构自搜索优化理论网络结构搜索方法最先在计算机视觉领域被提出。其流程为：定义搜索空间，通过搜索策略找出候选网络结构，对网络结构进行评估，根据反馈进行下一轮搜索。Baker 等人和 Zoph 等人于 2016 年分别提出基于强化学习的网络结构搜索方法，开拓了网络搜索方法的先河。该类方法在图像分类任务上基本可以击败同量级的网络，但需要花费大量的 GPU 计算资源和训练时间。此后，Real 等人引入进化算法解决网络结构搜索问题。相较于强化学习算法，进化算法搜索得更快，且能得到更小的模型。2018 年，Liu 等人提出了基于梯度的方法，将网络候选操作使用softmax函数进行混合，把搜索空间变成连续空间、目标函数成为可微函数，从而可以使用基于梯度的优化方法找寻最优结构，大大减少了计算资源消耗。此后，在加速手段方面，有层次化表示、权重共享、变现预测等。网络结构搜索在语义分割、模型压缩、数据增强等任务上都有应用。然而，现有的网络结构搜索方法往往仅针对某一种任务类型，无法满足遥感目标识别的多任务需求。在遥感领域，网络结构搜索方法的研究尚处于起步阶段。国内学者们目前刚开始探索该方法，尚未应用到遥感领域；国外有少量网络结构搜索方法在遥感领域的研究。具体地，Bahri 等人、Wei 等人在遥感影像场景分类问题上尝试了网络结构搜索方法；Dong 等人使用网络结构搜索解决极化合成孔径雷达影像分类问题；Zhang 等人将网络结构搜索应用于遥感影像语义分割。特别地，Wang 等人提出了一种任务驱动的网络结构搜索框架，支持自适应地处理场景分类加地物分类两种任务，该方法在面向多种任务的方向上做出了一定尝试，但其任务种类仍不足以满足遥感目标识别任务的多样性需求。亟需研究满足目标检索与场景分类、目标检测、地物要素分类、变化检测、多视三维重建等多种遥感解译与监测的网络结构搜索方法。1.3.3.2 地学知识嵌入的遥感深度学习优化理论与方法深度学习方法通过降低输出结果与标签的损失来优化网络参数。相比之下，人脑作为面向知识的高级智能系统，可以通过知识推理做出可靠性高、可解释性强的决策。因此，亟需研究地学先验知识的表达及嵌入，主要包括以下三个方面：（1）地学本体建模与地学知识图谱创建作为对特定领域中概念及其相互关系的形式化表达，本体(Ontology)具有强大的表示、推理和共享知识的能力，因而被引入到地学领域以构建地学本体模型。知识图谱则由本体实例化而来，是由图数据结构表示的知识载体，描述了客观世界的事物与关系。知识图谱最早被用于介绍语义网搜索技术，随后出现了 DBpedia，YAGO 等大型通用知识图谱。知识图谱的创建分为自顶向下和自底向上的方法，具备图结构组织、抽象的概念与关系、实体间的关系连接等特征。目前地学领域尚无大规模可用的知识图谱，亟需开展面向遥感智能解译和知识服务的地学本体建模和地学知识图谱创建工作。（2）基于地学知识图谱表示学习的遥感影像场景分类基于地学知识图谱表示学习的遥感影像场景分类可将遥感影像包含的丰富语义信息融入学习过程，进而提高分类准确率。受语义空间中词向量的平移不变性特征的启发，Bordes 等人提出了 TransE 模型，TransE 模型训练参数少，易于计算而且能有效地对知识图谱包含的实体和关系进行表示，但缺乏对复杂关系的处理能力。在表示学习方法方面，Fan 等人提出了 DKRL 模型在利用实体的描述信息上进行了尝试。目前，针对地学领域知识图谱进行表示学习的探索仍处于萌芽期，亟需研究适用于地学领域的知识图谱构建和表示学习方法。（3）耦合地学知识图谱和深度语义分割网络的遥感影像语义分割地学知识图谱基于知识建模、推理和共享，能够建立模拟人类感知过程的知识模型来实现遥感影像的智能解译。以地理对象图像分析方法（GEOBIA）为代表，基于地学知识图谱的遥感影像解译方法相继出现。上述方法与深度学习方法相比，分类精度较差。Alirezaie 等人提出了一种地学知识图谱推理协助深度语义分割网络的方法，增强可解释性的同时提高了分类精度。综上所述，结合知识驱动和数据驱动的优势，构建耦合地学知识图谱与深度学习的方法是实现遥感影像解译的必由之路。1.3.4 遥感影像处理云平台面向遥感大数据的云计算技术平台方面，诞生了美国谷歌地球引擎 GEE（Google Earth Engine）、美国航空航天局的 NEX（NASA Earth Exchange）、笛卡尔实验室的 Geoprocessing Platform、澳大利亚的地球科学数据立方体（Geoscience Data Cube）、微软的行星计算机（Planetary Computer），以及中国科学院“地球大数据科学工程”（CASEarth）的“地球大数据挖掘分析系统（EarthDataMiner）云服务”、航天宏图所开发 PIE-Engine、武汉大学与华为昇腾 AI 联合研发的 LuoJiaNET 等（如图 1.3）。图 1.3 遥感云计算平台遗憾的是，虽然现有遥感云计算平台已取得了较大进展，但在实际进行智能化分析和信息挖掘时，由于大规模遥感影像样本库的缺乏、深度学习智能处理框架相对滞后，未形成从底层硬件到样本框架、再到面向智能测图任务的上层应用模型的全链条自主可控生态。截止目前，现有平台仍存在以下局限：（1）底层 AI 硬件主要依赖国外进口。现有通用人工智能硬件，主要依赖于美国英伟达（NVIDIA）公司生产的图形处理单元(GPU)。俄乌冲突期间，英伟达公司联合 AMD、Intel 公司对俄罗斯全面禁售 GPU 产品。此外，深度学习所依赖智能计算加速库 cudnn，不对外开源，卷积 conv 等算子也有显存容量限制，直接制约了大幅面遥感影像智能处理。武汉大学与华为技术有限公司联合研发了遥感处理框架 LuoJiaNET，从底层硬件解决了上述问题，但在全链条的可控性方面，仍有待进一步增强。（2）遥感影像样本库仍需增强可控性。2019 年底，美国宇航局（NASA）和盖茨基金会等联合资助的 Radiant Earth Foundation 推出 Radiant ML Hub平台,方便研究人员访问其发布的地球观测训练数据集。2020 年欧空局（ESA）立项了 AIREO 项目，旨在制定社区规范和最佳实践，以可发现、可访问、互操作、可重用的方式共享对地观测训练数据集。与 NASA、ESA 相比，我国现有遥感影像样本库分类不完备、传感器种类单一、时空分布零散、规模和扩展性有限，造成深度学习模型泛化能力不足，无法支撑大时空跨度海量遥感影像精准解译。（3）遥感深度学习框架不能自主可控。现有遥感深度学习处理主要依赖于国外的框架，例如 PyTorch、Tensorflow 等。一般只考虑了通用的图像处理模式，不能完全适应于多类型、多尺度、多级别的遥感影像测图处理任务。此外，PyTorch 框架转向支持自研 AI ASIC 硬件；Tensorflow 转向 JAX 框架，底层支持谷歌 TPU 硬件，致使深度学习框架可控性差，且无法满足遥感测图任务。（4）遥感解译缺乏自主知识产权模型。现有遥感云平台在执行解译任务时，所使用的模型通常由计算机视觉模型改造而来，例如DeepLab等地物分类模型。缺乏直接面向遥感测图任务、具备融合“场景-目标-像素”多层级的解译方法，不能直接输出地理信息系统制图综合所需的地物矢量要素。此外，在地物矢量入库方面，缺乏有效的地物要素识别、自动制图综合与人机协同提取机制，致使作业效率低下。2.LuoJiaSET 样本库平台 2.1 样本共享服务平台基础功能 2.1.1 用户注册登录（1）平台新用户注册测试方案：在已迁移的 LuoJiaSET 平台用户注册界面，进行用户注册。测试结果：可成功注册登录，并在数据库中添加对应的用户字段。注册用户：lliv （2）平台原有用户登录测试方案：在原有 LuojiaSET 平台注册的用户，在迁移后的平台登陆，查看是否通过用户数据库验证。测试结果：经过测试，在原有 LuojiaSet 平台注册的用户可以通过数据库验证，并成功登录。测试用户：admin、demo 2.1.2 数据集显示（1）数据集总量：83 项（2）各任务类型数据集数量：场景分类：34 项地物分类：13 项目标识别：26 项变化检测：8 项多视三维：2 项 2.1.3 数据集详情查询测试方案：在数据集详情界面，查看各数据集的元数据是否正确显示，并查询各数据集各类别统计信息是否正确显示。元数据信息包括：1)数据集文件大小 2)数据集中包含样本数量 3)数据集影像文件尺寸 4)数据集影像文件影像类型 5)数据集影像分辨率 6)数据集影像波段数 7)数据集影像文件类型格式 8)数据集获取传感器 9)数据集联系人姓名 10)数据集联系人联系方式 11)数据集联系人地址 12)数据集联系人所属工作单位测试结果：可顺利对现有全部的数据集元数据信息访问：DOTA:AID:2.2 样本共享服务平台查询下载流程 2.2.1 数据集包含类别查询在查询服务界面，选择某一任务类型，并在数据集名称查询栏中，筛选某一个数据，查看类别下拉框中出现的类别名称是否与元数据表中的类别信息一致。以目标识别中的 DOTA（version=1.5）为例。数据集共包含类别 16个，包括 Container_Crane,Harbor,Bridge,Plane,Helicopter,Storage_Tank,Swimming_Pool,Tennis_Court,Basketball_Court,Roundabout,Ground_Track_Field,Large_Vehicle,Baseball_Diamond,Small_Vehicle,Soccerball_Field,Ship 等类别。其中可获取各个类别的详细数量：类别名称类别英文名称数量集装箱起重机 Container_Crane 156 港口 Harbor 8118 桥 Bridge 2541 飞机 Plane 10622 直升机 Helicopter 713 储存罐 Storage_Tank 8286 游泳池 Swimming_Pool 2757 网球场 Tennis_Court 3188 篮球场 Basketball_Court 672 环形交叉路口 Roundabout 622 田径场 Ground_Track_Field 476 大型车辆 Large_Vehicle 27357 棒球场 Baseball_Diamond 625 小型车辆 Small_Vehicle 169838 足球场 Soccerball_Field 487 小船 Ship 43738 2.2.2 样本元数据信息查询在样本查询结果界面，点击某一条返回结果，查看样本详情弹出框中是否包含样本缩略图，以及样本 ID、类别、传感器、数据集、样本尺寸、分辨率、版本、空间范围等字段的元数据信息是否正确显示。如图所示：2.2.3 订单提交以非游客身份登录共享服务平台，完成查询测试后，在样本查询结果界面，点击结果前的勾选框，选择一组样本后，点击提交查询，查看是否弹出使用协议对话框，且对话框中是否正确包含勾选的样本所在数据集信息及引用信息；完成上述操作后，点击订单列表菜单栏，查看是否生成了对应的样本下载订单。在迁移后的平台通过选择样本属性条件筛选，查询对应的样本集合：提交样本订单，管理员查询并通过订单审核。通过样本查询，可顺利提交订单，并在个人订单列表中显示订单详情信息。个人订单查看页面;2.2.4 管理员订单审核管理员登陆订单审核界面，通过点击审核按钮，通过订单审核，后台下载订单中的样本，并压缩上传至 OBS 服务器，并发送邮件为用户提供数据信息。如图所示：2.2.5 订单文件下载测试用户登录个人订单查看页面，点击下载按钮，可完成样本数据下载。结果如下图：2.3 样本数据库 2.3.1 数据集数量查询统计 OBS 中各个任务类型的数据集数量，并与数据库中记录的数据集数量信息统计比较：现迁移后的平台共包含数据集 83 个，其中：任务类型 OBS 数据集数量数据库数据集数量场景识别 34 34 目标识别 26 26 变化检测 8 8 地物分类 13 13 多视三维 2 2 2.3.2 样本数量查询在迁移后的平台样本查询界面对各个任务类型和各个类别的样本数量进行查询，核对查询结果是否与原有数据相对应。结果如下表：任务类型样本影像数量场景分类 2184116 目标检测 232721 地物分类 1915179 变化检测 41479 多视三维 16614 3.LuoJiaNET 框架 3.1 安装部署（1）多源遥感影像 I/O 库编译执行命令:bash build_gdal.sh 编译获得如下 GDAL 文件：在 GDAL_Linux/bin 或 GDAL_Win/bin 执行命令./gdalinfo-formats，即可查询多源I/O所支持的格式。经测试，所有第三方库（参见：https:/ 等主要遥感影像类型的 I/O 操作（见 2.3.1 节调用情况,python 端测试用例在https:/ 多平台编译流程 CPU 下编译安装 MinGW，执行命令：build.bat，编译过程如下图：验证是否成功：python-c import luojianet_ms;luojianet_ms.run_check()输出如下，则说明安装成功：GPU 下编译执行命令：bash build.sh-e gpu-j 6，编译过程如下图：验证是否成功：python-c import luojianet_ms;luojianet_ms.run_check()输出如下，说明安装成功：NPU 下编译执行命令：bash build_npu.sh e ascend j 6，编译过程如下图：验证是否成功：import numpy as np from luojianet_ms import Tensor import luojianet_ms.ops as ops import luojianet_ms.context as context context.set_context(device_target=Ascend)x=Tensor(np.ones(1,3,3,4).astype(np.float32)y=Tensor(np.ones(1,3,3,4).astype(np.float32)print(ops.add(x,y)输出如下，说明安装成功：(3)前端平台部署测试模型构建以 ResNet 模型为例进行测试，使用可视化建模拖拽式建模，建模图像图下图：模型构建之后使用 LuojiaNet 后端将模型 Json 数据转换为 python 文件，转换后模型代码如下：代码成功生成，模型构建流程成功。模型训练在 LuojiaNet 前端云平台上上传填写表单并上传 Resnet-18 模型文件，表单填写如下所示：模型文件上传如下所示：流程完毕后，用户已成功将模型代码上传至数据库之中，可在训练订单界面进行训练订单创建任务，新建训练订单界面如下图所示，使用 Resnet-18 模型对 AID 数据库创建场景检索任务：点击确定后，后台数据库中获得订单信息，等待管理员进行审核：管理员通过审核后，显示“训练进行中”，则说明训练已在后台正常进行，此时前端页面如下图所示：后端 ModelArts 控制台任务显示如下图所示：训练完毕后可在前端进行训练结果的 ckpt 等文件下载以及训练日志下载，具体如下图所示：结果下载：日志下载：成功进行结果及日志下载后，说明模型训练成功。训练完成之后，用户可以根据此训练订单在推理界面新建推理任务。模型推理选择第二步训练好的模型进行推理，模型训练后 CKPT 文件选择界面如下图所示：选择完成后自动生成推理任务表单，表单项如下图所示：推理任务初始信息完成后，用户可上传需要进行推理的数据，数据上传页面如下图所示：如图，上传 input.png 作为测试图像，点击确定后任务推送至华为 ModelArts 进行推理任务，此时 ModelArts 控制台任务信息显示如下：推理完成后可在前端下载，Resnet-18 执行场景检索后所得结果为 json 格式，数据信息如下图所示：获取 json 后，说明模型推理成功，至此，整个构建-训练-推理流程测试完毕。3.2 大幅面处理特性与功能 3.2.1 遥感大幅面影像四叉树索引功能(1)模块的导入与使用 LuoJiaNET 安装测试成功后，即可在 python 训练脚本中直接导入遥感大幅面四叉树索引功能模块，其使用方式如下：from luojianet_ms.geobject import get_objects#Get the minimum bounding rectangle data of one-specified class.#paramin device_num,the number of device for training(max=8).#paramin device_id,the current device ID.#paramin image_path,big_input image path.#paramin label_path,big_input label path.#paramin n_classes,num classes of labels.#paramin ignore_label,pad value of ground features.#paramin seg_threshold,segmentation settings.#paramin block_size,basic processing unit for big_input data.#paramin max_searchsize,max output data size(max_searchsize x max_searchsize).#return out,image-label objects in Numpy dtype.data_objects=get_objects(args.device_number,args.device_id,image_path,label_path,args.num_classes,args.ignore_label,150,4096,800)image_objects,label_objects=data_objects0,data_objects1 image_objects 和 label_objects 得到的大幅影像目标对象数据展示如下：在得到当前大幅影像的所有目标对象数据之后，即可进行网络模型的数据加载和训练。（2）测试结果随机抽取 GID 数据集的 120 张作为训练集，剩下 30 张作为测试集，在打乱顺序的情况下对整幅影像进行读取和训练，目标地物对象的尺寸大小统一为 800 x 800，使用DeepLabV3 模型训练 300 个 epoch，采用总体精度（OA）、平均交并比（MIoU）这两个指标进行评价，其测试结果的定量评估如下：从结果看，与传统的切分方法相比，在模型训练中引入的遥感大幅面四叉树索引功能模块，能够将地物分类结果提高 2-3%，极大消除了地物分类任务中的“分块效应”。3.2.2 遥感大幅面影像专用 IR 功能（1）TVM 编译链接 TVM 源码基于 TVM0.8 Release 版，可以采用两种方式进行编译 1）直接下载仓库内的 tvm 代码并编译。所有需要对源码修改的位置已经修改完毕，编译过程可参考 TVM 官网。2）基于自己的 TVM 版本进行修改。具体修改位置如下：python 部分，基础路径为 tvm/python/tvm:-relay/op/nn/nn.py-relay/op/nn/_nn.py-relay/op/strategy/cuda.py-relay/op/strategy/generic.py-topi/cuda/conv2d.py-contrib/cudnn.py-relay/op/_tensor_grad.py c 部分，基础路径为 tvm/src:-relay/op/nn/convolution.cc-relay/op/nn/convolution.h-runtime/contrib/cudnn/conv_backward.cc-runtime/contrib/cudnn/cudnn_utils.h （2）推理和训练 FCN32s 1）对数据集 label 进行预处理，将 RGB 图像转成单通道图像命令行输入 python label.py，需要修改数据集目录 2）根据 GPU 显存修改算子分解的块数 N，保证能够正常计算 3）训练 python tvm_train_fcn_gid.py 1 log.txt 2&!将输出写入文件方便记录 4）根据训练好的模型在测试集上进行推理 python tvm_infer_fcn_gid.py （2）测试结果随机抽取 120 张作为训练集，剩下 30 张作为测试集，在打乱顺序的情况下分别采用算子分解方法对整图进行训练，裁剪成 10001000 大小后再进行训练，以及使用最近滤波器降采样到 680720 大小后再进行训练，各训练 100 个 epoch。采用像素精度（PA）、平均像素精度（MPA）、平均交并比（MIoU）、加权平均交并比（FWIoU），测试结果的定量评估如下：3.2.3 遥感大幅面影像算子分解功能（1）FCN8s 算子分解调用方式如下：（a）网络结构定义 import luojianet_ms.nn as nn from luojianet_ms.ops import operations as P class FCN8s(nn.Module):def _init_(self,n_class):super()._init_()self.n_class=n_class self.conv1=nn.SequentialCell(nn.Conv2d(in_channels=3,out_channels=64,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(64),nn.ReLU(),nn.Conv2d(in_channels=64,out_channels=64,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(64),nn.ReLU()self.pool1=nn.MaxPool2d(kernel_size=2,stride=2)self.conv2=nn.SequentialCell(nn.Conv2d(in_channels=64,out_channels=128,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(128),nn.ReLU(),nn.Conv2d(in_channels=128,out_channels=128,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(128),nn.ReLU()self.pool2=nn.MaxPool2d(kernel_size=2,stride=2)self.conv3=nn.SequentialCell(nn.Conv2d(in_channels=128,out_channels=256,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(256),nn.ReLU(),nn.Conv2d(in_channels=256,out_channels=256,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(256),nn.ReLU(),nn.Conv2d(in_channels=256,out_channels=256,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(256),nn.ReLU()self.pool3=nn.MaxPool2d(kernel_size=2,stride=2)self.conv4=nn.SequentialCell(nn.Conv2d(in_channels=256,out_channels=512,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(512),nn.ReLU(),nn.Conv2d(in_channels=512,out_channels=512,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(512),nn.ReLU(),nn.Conv2d(in_channels=512,out_channels=512,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(512),nn.ReLU()self.pool4=nn.MaxPool2d(kernel_size=2,stride=2)self.conv5=nn.SequentialCell(nn.Conv2d(in_channels=512,out_channels=512,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(512),nn.ReLU(),nn.Conv2d(in_channels=512,out_channels=512,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(512),nn.ReLU(),nn.Conv2d(in_channels=512,out_channels=512,kernel_size=3,weight_init=xavier_uniform),nn.BatchNorm2d(512),nn.ReLU()self.pool5=nn.MaxPool2d(kernel_size=2,stride=2)self.conv6=nn.SequentialCell(nn.Conv2d(in_channels=512,out_channels=4096,kernel_size=7,weight_init=xavier_uniform),nn.BatchNorm2d(4096),nn.ReLU(),)self.conv7=nn.SequentialCell(nn.Conv2d(in_channels=4096,out_channels=4096,kernel_size=1,weight_init=xavier_uniform),nn.BatchNorm2d(4096),nn.ReLU(),)self.score_fr=nn.Conv2d(in_channels=4096,out_channels=self.n_class,kernel_size=1,weight_init=xavier_uniform)self.upscore2=nn.Conv2dTranspose(in_channels=self.n_class,out_channels=self.n_class,kernel_size=4,stride=2,weight_init=xavier_uniform)self.score_pool4=nn.Conv2d(in_channels=512,out_channels=self.n_class,kernel_size=1,weight_init=xavier_uniform)self.upscore_pool4=nn.Conv2dTranspose(in_channels=self.n_class,out_channels=self.n_class,kernel_size=4,stride=2,weight_init=xavier_uniform)self.score_pool3=nn.Conv2d(in_channels=256,out_channels=self.n_class,kernel_size=1,weight_init=xavier_uniform)self.upscore8=nn.Conv2dTranspose(in_channels=self.n_class,out_channels=self.n_class,kernel_size=16,stride=8,weight_init=xavier_uniform)self.upscore_pool3=nn.Conv2dTranspose(in_channels=self.n_class,out_channels=self.n_class,kernel_size=4,stride=2,weight_init=xavier_uniform)self.score_pool2=nn.Conv2d(in_channels=128,out_channels=self.n_class,kernel_size=1,weight_init=xavier_uniform)self.upscore4=nn.Conv2dTranspose(in_channels=self.n_class,out_channels=self.n_class,kernel_size=8,stride=4,weight_init=xavier_uniform)self.shape=P.Shape()self.cast=P.Cast()self.add1=P.Add()self.add2=P.Add()self.add3=P.Add()def set_model_parallel_shard_strategy(self,device_num):self.conv2d_strategy=(1,1,1,device_num),(1,1,1,1)self.bn_strategy=(1,1,1,device_num),(1,),(1,),(1,),(1,)self.relu_strategy=(1,1,1,device_num),)self.maxpool_strategy=(1,1,1,device_num),)self.add_strategy=(1,1,1,device_num),(1,1,1,device_num)self.conv1.cell_list0.conv2d.shard(self.conv2d_strategy)self.conv1.cell_list1.bn_train.shard(self.bn_strategy)self.conv1.cell_list1.bn_infer.shard(self.bn_strategy)self.conv1.cell_list2.relu.shard(self.relu_strategy)self.conv1.cell_list3.conv2d.shard(self.conv2d_strategy)self.conv1.cell_list4.bn_train.shard(self.bn_strategy)self.conv1.cell_list4.bn_infer.shard(self.bn_strategy)self.conv1.cell_list5.relu.shard(self.relu_strategy)self.pool1.max_pool.shard(self.maxpool_strategy)self.conv2.cell_list0.conv2d.shard(self.conv2d_strategy)self.conv2.cell_list1.bn_train.shard(self.bn_strategy)self.conv2.cell_list1.bn_infer.shard(self.bn_strategy)self.conv2.cell_list2.relu.shard(self.relu_strategy)self.conv2.cell_list3.conv2d.shard(self.conv2d_strategy)self.conv2.cell_list4.bn_train.shard(self.bn_strategy)self.conv2.cell_list4.bn_infer.shard(self.bn_strategy)self.conv2.cell_list5.relu.shard(self.relu_strategy)self.pool2.max_pool.shard(self.maxpool_strategy)self.conv3.cell_list0.conv2d.shard(self.conv2d_strategy)self.conv3.cell_list1.bn_train.shard(self.bn_strategy)self.conv3.cell_list1.bn_infer.shard(self.bn_strategy)self.conv3.cell_list2.relu.shard(self.relu_strategy)self.conv3.cell_list3.conv2d.shard(self.conv2d_strategy)self.conv3.cell_list4.bn_train.shard(self.bn_strategy)self.conv3.cell_list4.bn_infer.shard(self.bn_strategy)self.conv3.cell_list5.relu.shard(self.relu_strategy)self.conv3.cell_list6.conv2d.shard(self.conv2d_strategy)self.conv3.cell_list7.bn_train.shard(self.bn_strategy)self.conv3.cell_list7.bn_infer.shard(self.bn_strategy)self.conv3.cell_list8.relu.shard(self.relu_strategy)self.pool3.max_pool.shard(self.maxpool_strategy)self.conv4.cell_list0.conv2d.shard(self.conv2d_strategy)self.conv4.cell_list1.bn_train.shard(self.bn_strategy)self.conv4.cell_list1.bn_infer.shard(self.bn_strategy)self.conv4.cell_list2.relu.shard(self.relu_strategy)self.conv4.cell_list3.conv2d.shard(self.conv2d_strategy)self.conv4.cell_list4.bn_train.shard(self.bn_strategy)self.conv4.cell_list4.bn_infer.shard(self.bn_strategy)self.conv4.cell_list5.relu.shard(self.relu_strategy)self.conv4.cell_list6.conv2d.shard(self.conv2d_strategy)self.conv4.cell_list7.bn_train.shard(self.bn_strategy)self.conv4.cell_list7.bn_infer.shard(self.bn_strategy)self.conv4.cell_list8.relu.shard(self.relu_strategy)self.pool4.max_pool.shard(self.maxpool_strategy)self.conv5.cell_list0.conv2d.shard(self.conv2d_strategy)self.conv5.cell_list1.bn_train.shard(self.bn_strategy)self.conv5.cell_list1.bn_infer.shard(self.bn_strategy)self.conv5.cell_list2.relu.shard(self.relu_strategy)self.conv5.cell_list3.conv2d.shard(self.conv2d_strategy)self.conv5.cell_list4.bn_train.shard(self.bn_strategy)self.conv5.cell_list4.bn_infer.shard(self.bn_strategy)self.conv5.cell_list5.relu.shard(self.relu_strategy)self.conv5.cell_list6.conv2d.shard(self.conv2d_strategy)self.conv5.cell_list7.bn_train.shard(self.bn_strategy)self.conv5.cell_list7.bn_infer.shard(self.bn_strategy)self.conv5.cell_list8.relu.shard(self.relu_strategy)self.pool5.max_pool.shard(1,1,1,device_num),)self.conv6.cell_list0.conv2d.shard(self.conv2d_strategy)self.conv6.cell_list1.bn_train.shard(self.bn_strategy)self.conv6.cell_list1.bn_infer.shard(self.bn_strategy)self.conv6.cell_list2.relu.shard(self.relu_strategy)self.conv7.cell_list0.conv2d.shard(self.conv2d_strategy)self.conv7.cell_list1.bn_train.shard(self.bn_strategy)self.conv7.cell_list1.bn_infer.shard(self.bn_strategy)self.conv7.cell_list2.relu.shard(self.relu_strategy)self.score_fr.conv2d.shard(self.conv2d_strategy)self.upscore2.conv2d_transpose.shard(self.conv2d_strategy)self.score_pool4.conv2d.shard(self.conv2d_strategy)self.upscore_pool4.conv2d_transpose.shard(self.conv2d_strategy)self.score_pool3.conv2d.shard(self.conv2d_strategy)self.upscore8.conv2d_transpose.shard(self.conv2d_strategy)self.add1.shard(self.add_strategy)self.add2.shard(self.add_strategy)self.add3.shard(self.add_strategy)self.upscore_pool3.conv2d_transpose.shard(self.conv2d_strategy)self.score_pool2.conv2d.shard(self.conv2d_strategy)self.upscore4.conv2d_transpose.shard(self.conv2d_strategy)def call(self,x):x1=self.conv1(x)p1=self.pool1(x1)x2=self.conv2(p1)p2=self.pool2(x2)x3=self.conv3(p2)p3=self.pool3(x3)x4=self.conv4(p3)p4=self.pool4(x4)x5=self.conv5(p4)p5=self.pool5(x5)x6=self.conv6(p5)x7=self.conv7(x6)sf=self.score_fr(x7)u2=self.upscore2(sf)s4=self.score_pool4(p4)f4=self.add1(s4,u2)u4=self.upscore_pool4(f4)s3=self.score_pool3(p3)f3=self.add2(s3,u4)u3=self.upscore_pool3(f3)s2=self.score_pool2(p2)f2=self.add3(s2,u3)u2=self.upscore4(f2)return u2（b）数据加载并行切分：if split_size is not None:if isinstance(split_size,int):num_h,num_w=split_size,split_size elif isinstance(split_size,tuple or list):num_h,num_w=split_size column_img=data column_lbl=label column_img_slice=column_img str(x)for x in range(num_h*num_w)column_lbl_slice=column_lbl str(x)for x in range(num_h*num_w)slice_patches_op=vision.SlicePatches(num_h,num_w)data_set=data_set.map(operations=slice_patches_op,input_columns=data,output_columns=column_img_slice,column_order=column_img_slice label name,num_parallel_workers=8)data_set=data_set.map(operations=slice_patches_op,input_columns=label,output_columns=column_lbl_slice,column_order=column_img_slice column_lbl_slice name,num_parallel_workers=8)（2）FCN8s 多卡并行切分调用方式如下：parallel_mode=ParallelMode.SEMI_AUTO_PARALLEL dataset_strategy=(1,1,1,rank_size),(1,1,rank_size)context.reset_auto_parallel_context()context.set_auto_parallel_context(parallel_mode=parallel_mode,gradients_mean=True,dataset_strategy=dataset_strategy,device_num=device_num,enable_alltoall=True)if context.get_auto_parallel_context(parallel_mode)in ParallelMode.SEMI_AUTO_PARALLEL,ParallelMode.AUTO_PARALLEL:net.set_model_parallel_shard_strategy(device_num)命令行中执行：mpirun n 8 python main_train.py，运行过程如下：（3）运行结果（a）实现细节在数据预处理时，以 120 张 6 个类别的 GID 数据为训练集，其余为验证集，验证模型精度。GPU 型号为 Navidia Tesla V100，单卡显存 32Gb，8 卡并行处理。在进行训练时，采用的损失函数为多类交叉熵 CE 损失，优化器选择为 SGD。初始学习率统一固定为 1.28，batch size 设置为 1，训练共 600 轮，每次均以原始像幅的 GID 数据作为输入。此外在训练中由于背景类是除上述 5 类地物的其他地物类别，因此背景类需要参与到网络训练过程，网络最终输出类别为 6，并参与最终的定量评价。（b）评价指标在实验中，采用的定量指标采用多个类别的平均交并比(mIoU)。（c）定量实验结果表 1 FCN8s 精度结果框架 mIoU FCN8s（切分）59.80 FCN8s（大幅面）63.20 FCN8s 采用切分与原始大幅面处理方法，在 GID 分类数据集上的定量结果见表 1，从结果看出，采用大幅面算子等价分解处理的方法，以原始像幅的影像作为输入，其在验证集上的平均交并比为 63.20%，与传统切分策略相比，mIoU 提升约 4%，处理结果达到预期目标。下图为相应的可视化结果，采用大幅面整幅载入方法可保持较好的空间上下文信息，“分块效应”得以消除。(a)切分 (b)大幅面 (c)真值大幅面影像算子分解测试结果 3.3 遥感先验知识并行计算 3.3.1 遥感先验知识提取当前 LuoJiaNET 可支持 41 种遥感影像先验知识提取的方法，包括植被指数、水体指数、建筑物纹理与颜色特征、SAR 影像指数等多源遥感影像先验知识提取方法。列表如下：表 3.1 植被指数类序号名称公式来源备注 1 Normalized Difference Vegetation Index(NDVI)NDVI=（NIR-R）/(NIR R)Deering D W.RANGELAND REFLECTANCE CHARACTERISTICS MEASURED BY AIRCRAFT AND SPACECRAFTSENSORSM.Texas A&M University,1978.输入影像：RGB NIR（四波段）2 Ratio Vegetation Index(RVI)RVI=NIR/R Jordan C F.Derivation of leafarea index from quality of light on the forest floorJ.Ecology,1969,50(4):输入影像：RGB NIR（四波段）663-666.3 Difference Vegetation Index(DVI)DVI=NIR-R Jordan C F.Derivation of leafarea index from quality of light on the forest floorJ.Ecology,1969,50(4):663-666.输入影像：RGB NIR（四波段）4 Enhanced Vegetation Index(EVI)EVI=2.5*(NIR R)/(NIR 6.0*R-7.5*B 1)Liu H Q,Huete A.A feedback based modification of the NDVI to minimize canopy background and atmospheric noiseJ.IEEE transactions on geoscience and remote sensing,1995,33(2):457-465.输入影像：RGB NIR（四波段）5 Soil-adjusted Vegetation Index(SAVI)SAVI=(NIR R)/(NIR R L)*(1 L)L 0,1 Huete A R.A soil-adjusted vegetation index(SAVI)J.Remote sensing of environment,1988,25(3):295-309.输入影像：RGB NIR（四波段）6 Modified Soil Adjusted Vegetation Iindex(MSAVI)MSAVI=(2*NIR 1 sqrt(2*NIR 1)*2 Qi J,Chehbouni A,Huete A R,et al.A modified soil adjusted vegetation indexJ.Remote sensing of environment,1994,48(2):119-126.输入影像：RGB NIR（四波段）8*(NIR R)/2 7 Transformed Vegetation Iindex(TVI)TVI=sqrt(NIR-R)/(NIR R) 0.5 Deering D W.Measuring forage production of grazing units from Landsat MSS dataC/Proceedings of the Tenth International Symposium of Remote Sensing of the Envrionment.1975:1169-1198.输入影像：RGB NIR（四波段）8 Wide Dynamic Range Vegetation Index(WDRVI)WDRVI=(*NIR R)/(*NIR R)0.1,0.2 Gitelson A A.Wide dynamic range vegetation index for remote quantification of biophysical characteristics of vegetationJ.Journal of plant physiology,2004,161(2):165-173.输入影像：RGB NIR（四波段）9 Renormalized Difference Vegetation Index(RDVI)RDVI=(NIR R)/sqrt(NIR R)Roujean J L,Breon F M.Estimating PAR absorbed by vegetation from bidirectional reflectance measurementsJ.Remote sensing of Environment,1995,51(3):375-384.输入影像：RGB NIR（四波段）10 Optimization of OSAVI=Rondeaux G,Steven M,Baret F.输入影像：Soil-Adjusted Vegetation Indices(OSAVI)(NIR R)/(NIR R )const =0.16 Optimization of soil-adjusted vegetation indicesJ.Remote sensing of environment,1996,55(2):95-107.RGB NIR（四波段）表 3.2 水体指数类 11 Normalized Difference Water Index(NDWI)NDWI=(G NIR)/(G NIR)McFeeters S K.The use of the Normalized Difference Water Index(NDWI)in the delineation of open water featuresJ.International journal of remote sensing,1996,17(7):1425-1432.输入影像：RGB NIR（四波段）12 Modified Normalized Difference Water Index(MNDWI)MNDWI=(G MIR1)/(G MIR1)徐涵秋.利用改进的归一化差异水体指数(MNDWI)提取水体信息的研究D.,2005.多光谱/高光谱按波段输入 13 Combined Index for Water CIWI=NDVI NIR C 莫伟华,孙涵,钟仕全,等.MODIS 水体指数模型(ClWI)研究及其应输入影像：RGB NIR identification(CIWI)C=100 用J.遥感信息,2007(5):16-21.（四波段）14 Enhanced Water index(EWI-y)EWI-y=(G NIR MIR1)/(G NIR MIR1)闫霈,张友静,张元.利用增强型水体指数(EWI)和 GIS 去噪音技术提取半干旱地区水系信息的研究J.遥感信息,2007(6):62-67.多光谱/高光谱按波段输入 15 Normalized Difference Pond Index(NDPI)NDPI=(MIR1 G)/(MIR1 G)Lacaux J P,Tourre Y M,Vignolles C,et al.Classification of ponds from high-spatial resolution remote sensing:Application to Rift Valley Fever epidemics in SenegalJ.Remote Sensing of Environment,2007,106(1):66-74.多光谱/高光谱按波段输入 16 New Water Index(NWI)NWI=(B (NIR MIR1 MIR2)/(B (NIR MIR1 MIR2)丁凤.一种基于遥感数据快速提取水体信息的新方法J.遥感技术与应用,2012,24(2):167-171.多光谱/高光谱按波段输入 17 Modified CIWI(MCIWI)MCIWI=NDVI NDBI,NDBI=(MIR 杨宝钢,陈昉,罗孳孳.基于 MODIS 的改进型组合水体指数(MCIWI)提取复杂水体信息的试多光谱/高光谱按波段输入 NIR)/(MIR NIR)验J.西南大学学报:自然科学版,2011,33(1):112-119.18 Gaussian Normalized Water Index(GNDWI)GNDWI=(NDWI NDWI-)/NDWI-为所有像素NDWI 的均值，为所有像素的标准差沈占锋,夏列钢,李均力,等.采用高斯归一化水体指数实现遥感影像河流的精确提取J.中国图象图形学报,2013,18(4):421-428.多光谱/高光谱按波段输入 19 False NDWI(FNDWI)FNDWI=(FG NIR)/(FG NIR)FG=G S*(CNIR-NIR)CNIR=40,S=1(默认值)周艺,谢光磊,王世新,等.利用伪归一化差异水体指数提取城镇周边J.地球信息科学学报,2014,16(1):102-107.多光谱/高光谱按波段输入 20 Simple Ratio of Water index(SRWI)SRWI=G/MIR1 王晴晴,余明.基于简单比值型水体指数(SRWI)的水体信息提取研究J.福建师范大学学报:自然科学版,2014,30(1):39-44.多光谱/高光谱按波段输入 21 Automated Water Extraction Index AWEInsh=4*(G MIR1)(0.25*NIR 2.75*Feyisa G L,Meilby H,Fensholt R,et al.Automated Water Extraction Index:A new 多光谱/高光谱按波段输入 (AWEI)MIR2);AWEIsh=B 2.5*G 1.5*(NIR MIR1)0.25*MIR2 technique for surface water mapping using Landsat imageryJ.Remote Sensing of Environment,2014,140:23-35.22 Enhanced Water Index(EWI-w)EWI-w=(G-MIR1 m)/(G MIR1)*(NDVI n)m=0.1,n=0.5 Wang S,Baig M H A,Zhang L,et al.A simple enhanced water index(EWI)for percent surface water estimation using Landsat dataJ.IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2015,8(1):90-97.多光谱/高光谱按波段输入 23 Water Index 2015(WI2015)WI2015=1.7204 171*G 3*R 70*NIR 45*MIR1-71*MIR2 Fisher A,Flood N,Danaher T.Comparing Landsat water index methods for automated water classification in eastern AustraliaJ.Remote Sensing of Environment,2016,175:167-182.多光谱/高光谱按波段输入 24 Weighted WNDWI=(G-Guo Q,Pu R,Li J,et al.A 多光谱/高 Normalized Difference Water Index(WNDWI)*NIR (1 )*MIR1)/(G NIR (1)*MIR1)0.45,0.55 weighted normalized difference water index for water extraction using Landsat imageryJ.International journal of remote sensing,2017,38(19):5430-5445.光谱按波段输入 25 Multi-band Water Index(MBWI)MBWI=2*G R NIR MIR1 MIR2 Wang X,Xie S,Zhang X,et al.A robust Multi-Band Water Index(MBWI)for automated extraction of surface water from Landsat 8 OLI imageryJ.International Journal of Applied Earth Observation and Geoinformation,2018,68:73-91.多光谱/高光谱按波段输入 26 Water Index 2019(WI2019)WI2019=(1.75*G R 1.08*MIR1)/(G MIR1)黄远林,邓开元,任超,等.一种新的水体指数及其稳定性研究J.地球物理学进展,2020,35(3):829-835.多光谱/高光谱按波段输入 27 Augmented Normalized ANDWI=(B G R NIR MIR1 Rad A M,Kreitler J,Sadegh M.Augmented Normalized 多光谱/高光谱 Difference Water Index(ANDWI)MIR2)/(B G R NIR MIR1 MIR2)Difference Water Index for improved surface water monitoringJ.Environmental Modelling&Software,2021,140:105030.按波段输入表 3.3 建筑物纹理、颜色特征 28 Normalized Difference Building Index(NDBI)NDBI=(MIR1-NIR)/(MIR1 NIR)Zha Y,Gao J,Ni S.Use of normalized difference built-up index in automatically mapping urban areas from TM imageryJ.International journal of remote sensing,2003,24(3):583-594.多光谱/高光谱按波段输入 29 Morphological Building Index(MBI)(1)()=1(band()(2)(,)=(,)(3)(,)=(,)(,0)=Huang X,Zhang L.A multidirectional and multiscale RGB影(4)(,)=(, (,)式中：(5)=,(,)=()/) 1;D 为计算建筑物剖面时的方向数。morphological index for automatic building extraction from multispectral GeoEye-1 imageryJ.Photogrammetric Engineering&Remote Sensing,2011,77(7):721-732.像 30 Local Binary Pattern(LBP)(,)=8=1()()2()=1,00,otherwise Ojala T,Pietikainen M,Harwood D.Performance evaluation of texture measures with classification based on Kullback discrimination of distributionsC/Proceedings of 12th international conference on pattern recognition.IEEE,1994,1:582-585.RGB影像 31 Gray Level Co-occurrence Matrix(GLCM)(1)=1=1(,)2(2)=1=02(=(,)(3)=1=1(,)1 ()2(4)=1=1(,)log(,)(5)COR=1=1()(,)Haralick R M,Shanmugam K,Dinstein I H.Textural features for image classificationJ.IEEE Transactions on systems,man,and cybernetics,1973(6):610-621.RGB影像 32 Gabor filter(1)(,;,)=exp(2 2222)exp(2 )(复数)(2)(,;,)=exp(2 2222)cos(2 )（实数）(3)(,;,)=exp(2 2222)sin(2 )（虚数）=cos sin=sin cos Dunn D,Higgins W E,Wakeley J.Texture segmentation using 2-D Gabor elementary functionsJ.IEEE Transactions on Pattern Analysis and Machine Intelligence,1994,16(2):130-149.RGB影像 33 GIST(,)=cat(,)m(,),(,)Friedman A.Framing pictures:The role of knowledge in automatized encoding RGB影像 and memory for gistJ.Journal of experimental psychology:General,1979,108(3):316.34 Histogram of Oriented Gradient (HOG)(,)=(,)gamma (,)=( 1,)(1,)(,)=(, 1)(,1)(,)=(,)2 (,)2(,)=tan1(,)(,)Dalal N,Triggs B.Histograms of oriented gradients for human detectionC/2005 IEEE computer society conference on computer vision and pattern recognition(CVPR05).Ieee,2005,1:886-893.RGB影像 35 RGB(HSV)Histogram()=(=)=,0 ()=0()(直方图归一化)Acharya T,Ray A K.Image processing:principles and applicationsM.John Wiley&Sons,2005.RGB影像表 3.4 SAR 影像指数 36 Polarization Salinity Index(PSI)=HV02 HH02HV02 HH02 刘全明,成秋明,王学,李相君.河套灌区土壤盐渍化微波雷达反演 J.农业工程学报,2016,32(16):109-114.RADARSAT-2,etc 37 Radar Forest Degradation Index(RFDI)=HH0 HV0HH0 HV0 Ningthoujam R K.Retrieving Forest Characteristics from High-Resolution Airborne S-Band Radar DataD.University of Leicester,2016.Sentinel-1,etc 38 Biomass Index(BMI)=HH0 VV02 Pope K O,Rey-Benayas J M,Paris J F.Radar remote sensing of forest and wetland ecosystems in the Central American tropicsJ.Remote Sensing of Environment,1994,48(2):205-219.Sentinel-1,etc 39 Volume Scattering Index(VSI)=HV0HV0 Bouvet A,Mermoz S,Le Toan T,et al.An above-ground biomass map of African savannahs and woodlands at 25 m resolution derived from ALOS PALSARJ.Remote sensing of environment,2018,206:156-173.ALOS PALSAR,etc 40 Canopy Structure Index(CSI)CSI=VV0HH0 VV0 Haldar D,Patnaik C,Mohan S,et al.Jute and tea discrimination through fusion of SAR and optical dataJ.Progress In Electromagnetics Research B,2012,39:337-354.ALOS PALSAR,etc 41 Radar Vegetation Index(RVI)=8HV0HH0 VV0 2HV0 Kim Y,Jackson T,Bindlish R,et al.Radar vegetation index for estimating the vegetation water content of rice and soybeanJ.IEEE ALOS PALSAR,etc Geoscience and Remote Sensing Letters,2011,9(4):564-568.（1）RGB 影像 Python 端使用方法：C 端使用方法：以上为 LBP 纹理计算的 Python 端和 C 端的调用方式。主要利用 OpenCV 读取 RGB影像，调用 LBP 纹理计算，其中 N 表示 LBP 计算模式。0 表示原始 LBP 计算，1 表示圆形LBP 计算，2 表示旋转不变 LBP，3 表示均匀模式 LBP（Uniform LBP）。该函数的输出为单通道的纹理特征。其余纹理、滤波、建筑物特征提取算子用法类似。结果展示：图 1 输入 RGB 影像，输出为单波段的 LBP 纹理特征（原始 LBP）（2）多光谱影像（RGB NIR）Python 端使用方法：C 端使用方法：以上为归一化植被指数（NDVI）的 Python 端和 C 端的调用方式。主要利用 OpenCV读取 RGB NIR 的多光谱影像，然后调用 NDVI 计算算子。该函数的输出为单通道的植被指数特征。其余 RGB NIR 的多光谱影像算子用法类似。结果展示：图 2 输入 RGB NIR 的多光谱影像，输出为单波段的 NDVI 特征（3）高（多）光谱影像 Python 端使用方法：C 端使用方法：以上为增强的归一化水体指数（ANDWI）的 Python 端和 C 端的调用方式。主要利用 OpenCV 读取 Landsat8 的多光谱影像，然后调用 ANDWI 计算算子。该函数的输出为单通道的水体指数特征。其余的多光谱（高光谱）影像算子用法类似，高光谱可通过光谱特征选择、降维等操作获取相应波段作为输入即可。结果展示：图 3 按波段输入多（高）光谱影像，输出为单波段的 ANDWI 特征（3）SAR 影像 Python 端使用方法：C 端使用方法：以上为极化盐度指数（PSI）的 Python 端和 C 端的调用方式。主要利用 OpenCV 读取极化 SAR 的影像，然后调用 PSI 计算算子。该函数的输出为单通道的盐碱度特征。其余的极化 SAR 影像算子用法类似。结果展示：图 3 按波段输入极化 SAR 影像，输出为单波段的 PSI 特征 3.3.2 遥感先验知识自动并行（1）数据集 WHU-RS19 数据集 WHU-RS19 场景识别数据集影像来源于谷歌卫星影像上获取的遥感影像，数据包含 19个场景类。图像的输入尺寸为 600600 像素，共计 1005 张，其中每个类别有 50 张。数据包含的主要区域为中国的城市地区。在实验验证时，按照 3:1 的比例划分训练集与验证集，包括训练集 804 张，验证集 201 张。（2）实现细节 1）Python 端代码定义在 luojianet_ms/python/luojianet_ms/ops/operations/下，到对应类型 py 文件，在 nn_ops.py 定义了神经网络类型相关函数存储搬运函数：class MemOP(Primitive):prim_attr_register def _init_(self):Initialize MemOP self.init_prim_io_names(inputs=x,outputs=output)在luojianet_ms/python/luojianet_ms/ops/operations/_init_.py 中对应的算子类别中添加算子名 MemOP。导入注册好的算子原语，方便算子使用，注意的是需要添加在对应的算子类别和_all_中两处地方添加算子名 MemOP。2）C 端代码定义在 luojianet_ms/core/ops/*.h 文件中声明算子类与接口函数文件 mem_op.h 与mem_op.cc mem_op.h#ifndef LUOJIANET_MS_CORE_OPS_MEM_OP_H_#define LUOJIANET_MS_CORE_OPS_MEM_OP_H_#include#include#include#include#include ops/primitive_c.h#include ops/op_utils.h#include abstract/abstract_value.h#include utils/check_convert_utils.h namespace luojianet_ms namespace ops constexpr auto kNameMemOP=prim:kMemOP;/constexpr auto kNameMemOP=MemOP;/brief Computes MemOP(Rectified Linear Unit activation function)of input tensors element-wise./Refer to Python API ref luojianet_ms.ops.MemOP for more details.class MS_CORE_API MemOP:public PrimitiveC public:/brief Constructor.MemOP():PrimitiveC(kNameMemOP)InitIOName(x,output);/brief Destructor.MemOP()=default;MS_DECLARE_PARENT(MemOP,PrimitiveC);/brief Init.void Init();/namespace ops /namespace luojianet_ms#endif /LUOJIANET_MS_CORE_OPS_MEM_OP_H_ mem_op.cc#include ops/mem_op.h#include#include#include#include#include#include ops/op_utils.h#include utils/check_convert_utils.h#include abstract/primitive_infer_map.h namespace luojianet_ms namespace ops namespace abstract:ShapePtr InferShape(const PrimitivePtr&primitive,const std:vector&input_args)MS_EXCEPTION_IF_NULL(primitive);auto prim_name=primitive-name();(void)CheckAndConvertUtils:CheckInteger(input numbers,SizeToLong(input_args.size(),kGreaterEqual,1,prim_name);(void)CheckAndConvertUtils:CheckArgs(prim_name,input_args,0);auto x=input_args0-BuildShape();MS_EXCEPTION_IF_NULL(x);auto shape_element=x-cast();MS_EXCEPTION_IF_NULL(shape_element);return shape_element;TypePtr InferType(const PrimitivePtr&prim,const std:vector&input_args)MS_EXCEPTION_IF_NULL(prim);auto prim_name=prim-name();(void)CheckAndConvertUtils:CheckInteger(input numbers,SizeToLong(input_args.size(),kEqual,1,prim_name);MS_EXCEPTION_IF_NULL(input_args0);auto x_type=input_args0-BuildType();(void)CheckAndConvertUtils:CheckTensorTypeValid(input_x,x_type,common_valid_types,prim_name);return x_type;/namespace AbstractBasePtr MemOPInfer(const abstract:AnalysisEnginePtr&,const PrimitivePtr&primitive,const std:vector&input_args)auto type=InferType(primitive,input_args);auto shape=InferShape(primitive,input_args);return abstract:MakeAbstract(shape,type);REGISTER_PRIMITIVE_EVAL_IMPL(MemOP,prim:kPrimMemOP,MemOPInfer,nullptr,true);/namespace ops /namespace luojianet_ms 在 core/base/core_ops.h 中添加：constexpr auto kMemOP=MemOP;inline const PrimitivePtr kPrimMemOP=std:make_shared(kMemOP);core/ops/grad 中添加 mem_op_grad.h、mem_op_grad.cc:mem_op_grad.h#ifndef LUOJIANET_MS_CORE_OPS_MEME_OP_GRAD_H_#define LUOJIANET_MS_CORE_OPS_MEME_OP_GRAD_H_#include#include#include#include#include ops/primitive_c.h#include ops/op_utils.h#include abstract/abstract_value.h#include utils/check_convert_utils.h namespace luojianet_ms namespace ops constexpr auto kNameMemOPGrad=prim:kReLUGrad;class MS_CORE_API MemOPGrad:public PrimitiveC public:MemOPGrad():PrimitiveC(prim:kPrimMemOPGrad-name()InitIOName(x,output);MemOPGrad()=default;MS_DECLARE_PARENT(MemOPGrad,PrimitiveC);void Init();/namespace ops /namespace luojianet_ms#endif /LUOJIANET_MS_CORE_OPS_MEME_OP_GRAD_H_ mem_op_grad.cc#include ops/grad/mem_op_grad.h#include#include#include#include#include#include abstract/param_validator.h#include ops/op_utils.h#include utils/check_convert_utils.h#include abstract/primitive_infer_map.h namespace luojianet_ms namespace ops namespace abstract:ShapePtr InferShape(const PrimitivePtr&primitive,const std:vector&input_args)MS_EXCEPTION_IF_NULL(primitive);auto prim_name=primitive-name();const int64_t input_num=2;(void)CheckAndConvertUtils:CheckInteger(input number,SizeToLong(input_args.size(),kEqual,input_num,prim_name);for(const auto&item:input_args)MS_EXCEPTION_IF_NULL(item);auto dout=CheckAndConvertUtils:CheckArgs(prim_name,input_args,0);auto out=CheckAndConvertUtils:CheckArgs(prim_name,input_args,1);abstract:CheckShapeSame(prim_name,out,dout);auto x=input_args0-BuildShape();MS_EXCEPTION_IF_NULL(x);auto shape_element=x-cast();MS_EXCEPTION_IF_NULL(shape_element);return shape_element;TypePtr InferType(const PrimitivePtr&prim,const std:vector&input_args)MS_EXCEPTION_IF_NULL(prim);auto prim_name=prim-name();const int64_t input_num=2;(void)CheckAndConvertUtils:CheckInteger(input number,SizeToLong(input_args.size(),kEqual,input_num,prim_name);MS_EXCEPTION_IF_NULL(input_args0);auto dout=CheckAndConvertUtils:CheckArgs(prim_name,input_args,0);auto out=CheckAndConvertUtils:CheckArgs(prim_name,input_args,1);(void)abstract:CheckDtypeSame(prim_name,out,dout);auto x_type=input_args0-BuildType();MS_EXCEPTION_IF_NULL(x_type);if(!x_type-isa()MS_EXCEPTION(TypeError)The prim_name s input must be tensor type but got ToString();return x_type;/namespace AbstractBasePtr MemOPGradInfer(const abstract:AnalysisEnginePtr&,const PrimitivePtr&primitive,const std:vector&input_args)auto type=InferType(primitive,input_args);auto shape=InferShape(primitive,input_args);return abstract:MakeAbstract(shape,type);REGISTER_PRIMITIVE_EVAL_IMPL(MemOPGrad,prim:kPrimMemOPGrad,MemOPGradInfer,nullptr,true);/namespace ops /namespace luojianet_ms 在 core/base/core_ops.h 中添加：constexpr auto kMemOPGrad=MemOPGrad;inline const PrimitivePtr kPrimMemOPGrad=std:make_shared(kMemOPGrad);gpu 端实现:在 ccsrcbackendkernel_compilergpunn 添加 luojianet_ms/ccsrc/backend/kernel_compiler/gpu/nn/mem_op_grad_gpu_kernel.cc luojianet_ms/ccsrc/backend/kernel_compiler/gpu/nn/mem_op_grad_gpu_kernel.h luojianet_ms/ccsrc/backend/kernel_compiler/gpu/nn/mem_op_gpu_kernel.h luojianet_ms/ccsrc/backend/kernel_compiler/gpu/nn/mem_op_gpu_kernel.cc backend/kernel_compiler/gpu/cuda_impl 添加：luojianet_ms/ccsrc/backend/kernel_compiler/gpu/cuda_impl/mem_op_impl.cuh luojianet_ms/ccsrc/backend/kernel_compiler/gpu/cuda_impl/mem_op_impl.cu luojianet_ms/ccsrc/backend/kernel_compiler/gpu/cuda_impl/mem_op_grad_impl.cuh luojianet_ms/ccsrc/backend/kernel_compiler/gpu/cuda_impl/mem_op_grad_impl.cu python 端 luojianet_ms/python/luojianet_ms/ops/_grad 添加反向：luojianet_ms/python/luojianet_ms/ops/_grad/grad_nn_ops.py bprop_getters.register(P.MemOP)def get_bprop_mem_op(self):Grad definition for ReLU operation.input_grad=G.MemOPGrad()def bprop(x,out,dout):dx=input_grad(dout,out)return(dx,)return bprop luojianet_ms/python/luojianet_ms/ops/operations/_grad_ops.py class MemOPGrad(Primitive):Performs grad of MemOP operation.prim_attr_register def _init_(self):Initialize MemOPGrad self.init_prim_io_names(inputs=y_backprop,x,outputs=output)def _call_(self,y_backprop,x):raise NotImplementedError 并行计算添加：luojianet_ms/ccsrc/frontend/parallel/auto_parallel/operator_costmodel.h using TanhCost=SqrtCost;using EluCost=SqrtCost;using ReLUCost=SqrtCost;using MemOPCost=SqrtCost;using SigmoidCost=SqrtCost;luojianet_ms/ccsrc/frontend/parallel/step_auto_parallel.cc MEMOP luojianet_ms/ccsrc/frontend/parallel/ops_info/ops_utils.h constexpr char MEMOP=MemOP;luojianet_ms/ccsrc/frontend/parallel/ops_info/ops_info_head_files.h#include frontend/parallel/ops_info/mem_op_info.h luojianet_ms/ccsrc/frontend/parallel/dynamic_creator.h REGISTER(MemOPInfo);luojianet_ms/ccsrc/frontend/parallel/ops_info/mem_op_info.h luojianet_ms/ccsrc/frontend/parallel/ops_info/mem_op_info.cc luojianet_ms/ccsrc/frontend/parallel/auto_parallel/rec_core/rec_parse_graph.h TANH,OperatorType:kRecReLU,MEMOP,OperatorType:kRecReLU,3）在 LuoJiaNET 上采用 ResNET-50 网络。在进行训练时，每个样本大小保持原始比例，随机裁剪为 224x224 像素，以适应残差网络输入影像尺寸。采用的损失函数为 cross entropy 标签平滑损失，优化器选择为 SGD，初始学习率设置为 0.1，最大学习率为 0.1，采用 warm-up 训练策略，批次数设置为 64，训练时采用 fp32 浮点精度训练，共 1600 个轮次直至收敛。遥感先验知识采用 GLCM 灰度共生矩阵特征作为先验知识，与归一化后的影像堆叠为 4 通道的影像作为残差网络输入。训练环境为 Tesla V100，32Gb 显存，8 张显卡并行训练。在进行推理时，每个样本保持原始大小。（3）实验结果实验对比三种结果，分别为基准网络（ResNET-50）、加入先验知识( GLCM)的常规并行策略的网络（ AutoParallel）、加入 GLCM 与显存搬运（MemOP）后的分布式并行网络（ GLCM）。表 1 精度结果对比 Methods top1-acc top5-acc ResNET-50 0.865 0.985 AutoParallel( GLCM)0.895 0.980 AutoParallel( GLCM MemOP)0.870 0.990 从表 1 能看到，融入 GLCM 遥感先验知识后，可以使 top-5 精度保持相当的情况下，top-1 精度提升约 3%，验证了遥感先验知识融合的有效性；在增加 GLCM 同时采用显存搬运的并行策略，使 top-5 精度提升至 0.99，top-1 精度提升至 0.87。与基线网络 ResNET-50 相比，表明设计的遥感先验知识自动并行策略能显著提升网络精度，达到了预期目标。4.LuoJiaNET 典型应用模型 4.1 场景分类 4.1.1 任务简介（1）使用 LuoJiaNET 完成经典深度学习场景分类网络 VGG、ResNet、SENet 的搭建与训练，将 LuoJiaNET 框架应用到遥感影像场景分类任务中；（2）将 LuoJiaNET 和主流的深度学习框架 PyTorch、TensorFlow 进行对比，测试LuoJiaNET 在场景分类任务中的性能表现。4.1.2 分类网络简介 VGG VGG 是 Oxford 的 Visual Geometry Group 的组提出。该网络是在 ILSVRC 2014 上的相关工作，主要工作是证明了增加网络的深度能够在一定程度上影响网络最终的性能。VGG 有两种结构，分别是 VGG16 和 VGG19，两者并没有本质上的区别，只是网络深度不一样。VGG 网络是第一个在每个卷积层使用更小的 33 卷积核对图像进行卷积，并把这些小的卷积核排列起来作为一个卷积序列，仅使用多个 33 卷积核可以模仿较大卷积核那样对图像进行局部感知。因此其能在分类任务上取得较好的效果。图 2 VGG 网络图 ResNet ResNet 网络是参考了 VGG19 网络，在其基础上进行了修改，并通过短路机制加入了残差单元，如图 3 所示。变化主要体现在 ResNet 直接使用 stride=2 的卷积做下采样，并且用 global average pool 层替换了全连接层。ResNet 的一个重要设计原则是：当 feature map 大小降低一半时，feature map 的数量增加一倍，这保持了网络层的复杂度。从图 3中可以看到，ResNet 相比普通网络每两层间增加了短路机制，这就形成了残差学习，其中虚线表示 feature map 数量发生了改变。图展示的 34-layer 的 ResNet，还可以构建更深的网络如 ResNet50,ResNet101,ResNet152。当网络更深时，其进行的是三层间的残差学习，三层卷积核分别是 1x1，3x3 和 1x1，一个值得注意的是隐含层的 feature map 数量是比较小的，并且是输出 feature map 数量的 1/4。图 3 ResNet 网络图 SENet SENet 是一个非常经典的分类网络，它通过构建 SEblock 实现特征的通道选择，且SEblock 能够嵌入到现有的任何全卷积网络中，实现特征在通道维度的筛选和增强。SENet 主要由特征提取模块、SEBlock 以及分类器构成。SEBlock 即为 Squeeze-and-Excitation Block，该模块通过利用全连接层以及 sigmoid 生成每个通道的权重来对通道进行增强和筛选，输入的特征首先通过挤压和重采样操作，将特征图在空间维度 H，W 上聚集起来，产生一个通道描述符。这个描述符包含了通道特征反应的全局分布，使得全局信息得到充分的利用。接下来是一个激励操作，在这个过程中，每个通道的权重都是基于门控机制来学习的。分类器即为最终的全连接层，与 VGG、ResNet 等常见的网络一致。图 4 SEBlock 示意图 4.1.3 测评结果（1）数据集 PatternNet 数据集 PatternNet 由武汉大学于 2018 年发布，是一个用于遥感图像分类的大规模高分辨率遥感数据集。该数据集共包含有 38 个类，每个类有 800 张大小为 256256 像素的图像。该数据集质量高，截止目前为止已久有 215 个引用，超过了其余遥感影像分类数据集的引用量。我们从该数据集中每个类别随机选择 50 张作为测试集对模型精度进行验证和评价。（2）实现细节我们分别在主流的深度学习框架 PyTorch 和我们的 LuoJiaNET 上复现了上面三种分类网络，在后文中分别简写为 VGG、ResNet、ResNet_SE。为了进行公平的对比，网络均在同一硬件上进行训练和测试。GPU 型号为 GeForce GTX 3090(24G)、CPU 型号为 Intel(R)Core(TM)i9-7900X CPU 3.30GHz。使用的 pytorch 框架为 v1.8.1，LuoJiaNET 版本为 v1.0.0，TensorFlow 版本为 v2.4.0。在进行训练时，每个样本大小为 256256 像素的小块，采用的损失函数为 cross entrophy 损失，优化器选择为 SGD，初始学习率设置为 1e-4，最大学习率为 0.1，采用warm-up 训练策略，避免过拟合，批次数设置为 8，训练共 200 个轮次，共计约 7.5 万次迭代。在进行推理时，每个样本保持原始大小。（3）评价指标在实验中，采用的定量指标如下：a.准确率（Precision）统计分类的准确率，计算方式如下：= (1)其中，TP为预测正确的类别，FP 为预测错误的类别。b.召回率（Recall）统计分类结果占全部准确结果的百分比，计算方式如下：= (2)其中，TP 表示预测正确的类别，FN 表示误检测的类别.c.显存占用（Memory）记录了模型在训练或者推理过程中所需要的显存占用。d.运行时间（Time）记录了模型在训练或者推理过程中处理一个样本所需要的时间。（4）实验结果由于每个分类网络所包含的子集众多，所以这里仅选择使用最广泛的网络进行对比测试。其中LuojiaNet表示为LuojiaNET，TensorFlow表示为TF，pytorch表示为Pytorch。表 2 精度结果对比 Methods Precision Recall top1-acc top5-acc VGG16(LuojiaNET)0.894 0.896 0.918 0.955 VGG16(TF)0.891 0.890 0.902 0.950 VGG16(PyTorch)0.891 0.892 0.903 0.952 ResNet50(LuojiaNET)0.941 0.960 0.967 0.979 ResNet50(TF)0.937 0.961 0.965 0.977 ResNet50(PyTorch)0.940 0.959 0.965 0.977 ResNet50_SE(LuojiaNET)0.976 0.962 0.983 0.997 ResNet_SE(TF)0.969 0.967 0.981 0.995 ResNet50_SE(PyTorch)0.970 0.964 0.981 0.994 从表 1 能看到，相比于 PyTorch 以及 TensorFlow 复现的网络，使用 LuoJiaNET 复现的网络在精度上有略微提升，提升不明显的原因可能是所使用的数据集相对简单。表 3 时间与显存占用对比 Methods Training Inference Memory(MB)Time(ms)Memory(MB)Time(ms)VGG16(LuojiaNET)5621 51.9 3517 24.9 VGG16(TF)7523 58.3 3715 25.5 VGG16(PyTorch)6313 63.2 3673 26.3 ResNet50(LuojiaNET)12757 266.1 4285 93.9 ResNet50(TF)15431 300.3 4703 90.3 ResNet50(PyTorch)13431 350.7 4610 94.2 ResNet50_SE(LuojiaNET)18931 420.7 4539 143.5 ResNet50_SE(TF)21345 507.8 6741 145.2 ResNet50_SE(PyTorch)20257 532.5 6756 167.8 从表 2 可以看出，在训练时，模型越复杂（表现在网络的层数、是否使用注意力等方面）LuojiaNet 与其余两种框架下的结果差距越明显，且这个差距随模型复杂程度增大而增大，原因可能是 LuojiaNet 在拟合网络参数时所保留的参数精度与另外两种不同，该原因也会影响网络的精度；在测试时，由于不存在梯度回传，所以差距较小；因此猜测训练时显存和时间差距主要由梯度回传修正网络模型参数时产生。4.1.4 总结基于 LuoJiaNET 框架，已经完成了遥感影像分类网络的典型应用。相比于主流深度学习框架 PyTorch、TensorFlow，LuoJiaNET 在训练过程中的显存占用低，在推理速度上也略优于另外两种。同时当使用相同的数据以及网络模型进行测试时，LuojiaNet 框架下的网络精度略优于另外两种，造成这种现象的原因可能是 LuojiaNet 在进行训练与推理是模型参数保存的精度较高。4.2 目标检测 4.2.1 任务简介（1）使用 LuoJiaNET 完成目标检测深度学习网络 Faster-RCNN、Mask-RCNN 的搭建、训练与推理实验，将 LuoJiaNET 框架应用到遥感影像目标检测任务中；（2）测试 LuoJiaNET 在目标检测任务中的性能表现，并将 LuoJiaNET 和主流的深度学习框架 PyTorch 进行对比，测试在精度、训练时间、显存消耗方面的表现。4.2.2 目标检测网络简介 Faster-RCNN 目标检测网络 Faster-RCNN 是 Kaiming He 等人在 2016 年提出的端到端的两阶段目标检测算法，也是目前落地最成功的深度学习模型之一，是目标检测领域最经典的模型之一。Faster-RCNN 将目标检测任务分成了两个阶段，首先第一阶段，利用深度网络找出图像中可能存在物体的区域，产生 Region Proposal；第二阶段，对 Region Proposal 内的物体进行分类，并对第一阶段检测的 anchor 框进行回归。网络损失主要有三部分构成，包括 RPN 分类、回归损失，以及 Bounding Box Head 和 Classification Head 的损失。两阶段目标检测算法相比于 Yolo 系列等一阶段目标检测算法具有检测精度更高的优势，但是相对来说计算效率相对较低。论文地址：https:/arxiv.org/abs/1506.01497 图 1 Faster-RCNN 目标检测网络结构图 Mask-RCNN 实例分割网络 Mask-RCNN 是 Kaiming He 等人在 2018 年提出的端到端的两阶段实例分割算法，该方法是在 Faster-RCNN 的基础上添加了一个预测分割 mask 的分支以及对应的损失函数，并对 Faster-RCNN 做出了一些改进，实现了对图像中检测到的目标实例进行分割的目的。基于这个思想，可以借助该模型可以进一步实现姿态检测等任务。同时，实验证明，该方法通过利用多任务学习的思想，有助于提升目标检测的效果。该网络模型的主要结构如下图所示：图 2 Mask-RCNN 目标检测网络结构图本实验中，利用 Mask-RCNN 实现对旋转目标的检测，并与 pytorch 的结果进行对比。论文地址如下：https:/arxiv.org/pdf/1703.06870.pdf 4.2.3 测评结果（1）数据集：天智杯可见光图像飞机智能检测识别数据集该数据集是慧眼“天智杯”人工智能挑战赛可见光图像飞机智能检测识别赛道提供的训练和验证数据集。数据来源于国产自主产权系列卫星影像，图像内容主要是多种成像条件下的机场可见光图像，包含 611 幅图像，其中训练集 308 幅，验证集 122 幅，测试集181 幅（不开放下载），包含 11 类目标，约 13000 个飞机样本。数据集影像的地面分辨率约为 0.5-1m。其中每组数据包含一幅飞机遥感图像，以及对应的飞机标签，即坐标和类别信息。图像为 4096x4096 尺寸的 png 格式。标签为 json 格式，以旋转框的方式对飞机进行标注。官网地址：https:/ 图 3 数据集图像示例图 4 检测目标（其中一类飞机）示例（2）实现细节 PyTorch 版本：v1.10.1 LuoJiaNET：v1.0.0 GPU 型号：GeForce RTX 3090(24G)CPU 型号：Intel(R)Xeon(R)Silver 4110 CPU 2.10GHz 数据集大小：1024*1024(4506 train) 4096*4096(122 val)，使用多尺度训练优化器：Momentum 学习率：0.02(warmup cosine decay)批大小：2 训练轮次：50 补充说明：目前广泛使用的目标检测网络都是基于现有的开源目标检测框架进行实现的，常用的基于 Pytorch 的目标检测框架有 detectron2（Facebook 团队开发维护），mmdetection(香港中文大学-商汤联合实验室开发维护)等。本项目实验中 Pytorch 下目标检测网络实现是基于mmdetection进行实现的，具体内容可参考:https:/ 在本实验中，采用的定量评价指标如下所示：a.精度评价指标(基于混淆矩阵)Precision= (1)Recall= (2)F1=(Precision Recall 2)(Precision Recall)(3)mF1=1(表示总类别数)(4)b.显存占用（Memory）记录了模型在训练或者推理过程中所需要的显存占用。c.运行时间（Time）记录了模型在训练或者推理过程中处理一个样本所需要的时间。（4）实验结果 Faster-RCNN 实验中，初步使用水平目标框，仅对飞机进行目标检测（不进行细粒度分类），下面是使用多尺度训练的结果。表 4 Faster-RCNN 飞机目标检测精度结果对比 Methods Precision Recall mF1 Faster-RCNN 92.05 91.44 91.75 (LuoJiaNET)Faster-RCNN(PyTorch)89.04 91.27 90.15 从表 1 能看到，相比于 PyTorch 复现，在置信度为 0.7，IoU 为 0.5 的条件下，使用LuoJiaNET 复现的结果在精确度以及 mF1 上具有一定优势，召回率上两者精度相当。综合来看，LuoJiaNet 在 mF1 数值上相比于 Pytorch 更好，其主要原因在于检测精度上的提高。表 5 Faster-RCNN 飞机目标检测时间、显存占用对比 Methods Training Inference Memory(MiB)Time(s)Memory(MiB)Time(s)Faster-RCNN(LuojiaNET)16511 0.556 3513 2.64 Faster-RCNN(PyTorch)16295 0.505 2963 5.46 从表 2 可以看出，使用 LuoJiaNET 进行训练，在显存上相比 Pytorch 差距不大。单卡训练情况下，两者在处理时间上差异不大，LuoJiaNET 迭代相对时间略长。（注：由于对大幅面图像采取了切分再检测的策略以检测小目标，这里的时间仅计算了对裁剪后的图像进行前向推理的时间）推理占用显存上，LuoJiaNET 比 Pytorch 多 500M 左右，但是速度相对更快。(a)Ground Truth (b)Pytorch 检测结果 (c)LuoJiaNET 检测结果图 5 Faster-RCNN 检测结果可视化 Mask-RCNN 实验中，使用 Mask-RCNN 实现对旋转目标的检测，具体而言是通过将旋转目标框作为掩膜进行预测，并将掩膜的最小外接矩形作为最终的旋转目标检测结果。需要注意的是，这里仅对飞机进行目标检测（不进行细粒度分类）。表 3 Mask-RCNN 飞机目标检测精度结果对比 Methods Precision Recall mF1 HBB Result Mask-RCNN(LuoJiaNET)93.51 91.00 92.24 Mask-RCNN(PyTorch)89.72 91.49 90.59 OBB Result Mask-RCNN(LuoJiaNET)92.79 90.30 91.53 Mask-RCNN(PyTorch)89.03 90.79 89.90 从表 3 能看到，相比于 PyTorch 复现，在置信度为 0.7，IoU 为 0.5 的条件下，使用LuoJiaNET 复现的结果在精确度以及 mF1 上具有一定优势，召回率上比 pytorch 结果略低。综合来看，LuoJiaNet 在 mF1 数值上相比于 Pytorch 更好，其主要原因在于检测精度上相比 pytorch 结果显著更好。同时，该结果与 Faster-RCNN 上的实验结论是一致的。表 4 Mask-RCNN 飞机目标检测时间、显存占用对比 Methods Training Inference Memory(MiB)Time(s)Memory(MiB)Time(s)Mask-RCNN(LuojiaNET)18559 1.901 5561 4.76 Mask-RCNN(PyTorch)16121 0.601 2985 6.56 从表 4 可以看出，使用 LuoJiaNET 进行训练，Mask-RCNN 在显存上相比与 Pytorch要多 2.5G 左右；同时，在处理时间上，单卡训练情况下，Mask-RNN 所需时间更长，原因是由于实现造成的差异，在训练数据标注的处理上与 mmdetection 有所不同（为了将同一个 batch 中的不同图像中实例数量处理成一致的以进行批迭代，增加了冗余的分割实例，具体而言将每张图的标注个数增加至 128 个实例，多余的标注使用掩膜进行标注）。推理占用显存上，LuoJiaNET 比 Pytorch 多 2.5G 左右，一部分可能是由于网络本身预测时的数据处理带来的（与训练阶段显存占用较多的原因一致），另一部分可能是由于框架本身造成的（在Faster-RCNN 实验中，LuoJiaNET 相比 Pytorch 要占用的显存更多），但是 LuoJiaNET 在推理速度上相对 Pytorch 更快。(a)Ground Truth (b)Pytorch 检测结果 (c)LuoJiaNET 检测结果图 6 Mask-RCNN 检测结果可视化 Mask-RCNN(DOTA_v2.0 数据集补充实验)实现细节：PyTorch 版本：v1.10.1 LuoJiaNET：v1.0.0 GPU 型号：GeForce RTX 3090(24G)*2 CPU 型号：Intel(R)Xeon(R)Silver 4110 CPU 2.10GHz 数据集大小：训练集 13135 张图像(1024*1024)，测试集为 DOTA2.0 的验证集(593 张不同尺寸的图像)，使用多尺度训练优化器：SGD 学习率：0.01(warmup step_decay)批大小：2/GPU 训练轮次：30 该实验是为了比较 LuoJiaNet 与 PyTorch 之间在大规模数据集下的性能，以使结论更具有说服力，具体实验结果如下：表 5 Mask-RCNN 飞机目标检测精度结果对比(AP/mAP)LV SP HC BR PL SH SBF BC AP CC GTF SV HA BD TC RA ST HP mAP HBB Result luojiaNet 66.86 61.01 54.40 40.89 87.04 82.42 61.60 62.65 11.34 6.19 70.70 46.51 71.97 67.78 93.94 58.95 59.02 0.0 55.74 Pytorch 66.67 58.78 53.40 42.44 85.87 81.67 63.50 60.78 20.78 1.46 69.02 46.07 72.80 63.60 93.21 60.74 58.60 0.0 55.52 从表 5 能看到，相比于 PyTorch 复现，置信度为 0.2(一般论文中测试 DOTA 数据集采用的置信度为 0.1 或 0.2)、IoU 为 0.5 的条件下，使用 LuoJiaNET 水平框 AP 结果在 12 类(总共 18 类)上的比 PyTorch 高，5 类上的结果比 PyTorch 低，mAP 比 PyTorch 高 0.22；旋转框 AP 结果在 8类上比 PyTorch高，9 类上的比PyTorch低，mAP比 PyTorch 低0.78。从整体结果上看，使用 luojianet 和 pytorch 的结果差异并不显著，可以近似认为两者检测结果精度接近。表 6 Mask-RCNN 目标检测时间、显存占用对比 Methods Training Inference Memory(MiB)Time(s)Memory(MiB)Time(s)Mask-RCNN(LuojiaNET)10393/GPU 2.68 10681 5.23 Mask-RCNN(PyTorch)7242/GPU 0.65 4027 5.63 从表 6 的结果得到的结论与在天智杯数据集上得到的结论相近（注：由于对大幅面图像采取了切分再检测的策略以检测小目标，这里的时间仅计算了对裁剪后的图像进行前向推理的时间）。OBB Result luojiaNet 57.15 54.12 54.40 35.87 86.74 79.56 60.58 61.48 9.83 0.48 70.30 43.12 64.16 67.47 93.22 58.95 58.79 0.0 53.12 Pytorch 57.26 54.16 56.31 39.43 85.87 78.43 62.62 59.27 20.78 0.89 69.40 42.36 66.02 66.07 92.84 58.37 60.10 0.0 53.90 (a)Ground Truth (b)Pytorch 检测结果 (c)LuoJiaNET 检测结果图 7 Mask-RCNN DOTA_v2.0 数据集检测结果可视化细粒度目标检测模型实现细节：LuoJiaNET：v1.0.0 GPU 型号：GeForce RTX 3090(24G)CPU 型号：Intel(R)Xeon(R)Silver 4110 CPU 2.10GHz 数据集大小：训练集：根据天智杯训练集标注文件中给出的边界框数据从原图中裁剪出来的各类飞机图像(11类，6793张) 使用LuojiaNet训练得到的Mask-RCNN模型预测训练集时将背景错误识别为飞机的背景图像(1 类，134 张，有筛选)，共 12 类6927 张。优化器：Adam 学习率：0.0001(cosine_decay)批大小：128 训练轮次：300 表 7 Mask-RCNN 细粒度分类结果(F1/mF1)A B C D E F G H I J K mF1 HBB Result luojiaNet 90.41 84.42 88.95 68.04 73.17 88.80 100.0 95.65 89.23 92.48 78.57 86.34 OBB Result (a)Ground Truth (b)LuoJiaNET 检测结果图 8 Mask-RCNN 细粒度分类检测结果可视化 luojiaNet 90.41 82.91 88.95 65.69 73.17 88.40 100.0 95.65 89.23 91.92 78.33 85.88 4.2.4 总结基于 LuoJiaNET 框架，已经完成 Faster-RCNN 以及 Mask-RCNN 的复现以及对比实验发现两者在天智杯数据集上召回率大致相同，但是 LuoJiaNET 结果在检测精度上更高。综合来看，LuoJiaNET 的性能在该数据集上的结果更优，在天智杯数据集取得了相对mmdetection(Pytorch)更好的结果 mF1，在 DOTA_v2.0 数据集上两者性能差不多。在内存方面，LuoJiaNET 要比 PyTorch 消耗高，推理时间上则是 LuoJiaNET 稍快点。4.3 地物分类 4.3.1 高光谱地物分类（一）4.3.1.1 任务简介（1）在 LuoJiaNET 遥感专用深度学习框架下实现高光谱语义分割网络 FreeNet 和HRNet-3D，从而将 LuoJiaNET 框架应用于高光谱遥感影像地物分类中。（2）进行深度学习主流框架 Tensorflow、Pytorch 和遥感专用深度学习框架 LuoJiaNET的对比实验，以测试 LuoJiaNET 框架在高光谱语义分割中的性能。4.3.1.2 高光谱地物分类网络介绍图 1 FreeNet 网络结构 FreeNet 网络1采用了语义分割网络中常用的编码-解码网络结构，总体结构如图 1 所示。主要由编码器、解码器、跳跃连接三部分组成，以实现“端到端”的语义分割。编码器用于从原始影像中抽象出特征，解码器用于从特征图中恢复出与原始影像大小相同的语义分割结果图，跳跃连接将编码器每一层的特征与解码器每一层的输出相结合，使得语义分割结果中能还原更多的影像细节。此外，为了充分挖掘高光谱影像中丰富的光谱信息，FreeNet网络在编码器的每一个卷积层后加入了光谱注意力机制以充分挖掘影像各个波段之间的相互关系。图 2 HRNet-3D 网络结构 HRNet 网络2最早为了解决姿态估计问题而提出，后被广泛应用于遥感影像的语义分割中，它着重于学习影像的高分辨率特征表示，现有的语义分割网络大多数采用从高分辨率到低分辨率，再由低分辨率恢复出高分辨率特征表示的结构，与此不同，HRNet 网络能够在整个过程中都保持高分辨率的表征，并通过逐步增加多分辨率的子网络，进行多次多尺度的融合，使得高分辨率的特征表示中能够含有更加丰富的信息，从而能够预测出更加准确的地物位置。为了适应高光谱影像波段数多的特点，HRNet-3D 网络在 HRNet 网络的基础之上加入了 3D 卷积层以及光谱注意力机制层，以充分挖掘影像的光谱信息，整体网络结构如图 2 所示。4.3.1.3 测评结果（1）实验数据采用了 WHU-OHS 大范围高光谱数据集来进行实验，该数据集由覆盖了中国 42 个城市的 OHS 高光谱影像组成，每景影像空间分辨率为 10m，幅面大小约为 6000*6000，共32 个波段，影像对应的标签共包含了 24 个地表覆盖类别。选取了数据集中的吉林、郑州两个城市的数据进行实验，如图 1 和图 2 所示。将影像和标签裁剪为了 256*256 的影像块以进行深度网络的训练和测试，以 7:3 的比例划分了训练集和测试集。(a)影像(b)样本图 1 吉林 OHS 影像及样本 (a)影像(b)样本图 2 郑州 OHS 影像及样本（2）实验细节实验分别在 Tensorflow、Pytorch 和 LuoJiaNET 框架下实现了 FreeNet 网络，采用的Tensorflow 版本为 2.5.0、Pytorch 版本为 1.11.0、LuoJiaNET 版本为 1.0.0，采用的硬件设备为型号为 Inter(R)Core(TM)i7-10700 CPU 2.90GHz 的 CPU，以及型号为 NVIDIA GeoForce RTX 3070(8G)的 GPU。实验采用的损失函数为加权交叉熵损失函数，优化器选择为 Adam，batchsize 大小为2，共训练了 100 个 epoch，初始学习率为 0.0001，并按照以下公式随着 epoch 的推进进行衰减（为初始学习率，为当前的 epoch 数，_为总 epoch 数）：=(1 _)0.9 （3）精度评价指标采用了以下定量指标进行精度评价：a.总体精度（OA）指分类正确的样本数量占总体样本数量的比例：=1=1=1 其中为混淆矩阵，矩阵的第行第列表示了真实样本为第类，实际被预测为第类的像素个数。b.Kappa 系数评价了分类结果和真实样本分布的一致性：=1 =1=1=1= =1()=1=12 c.生产者精度（PA）指每一类分类正确的样本个数占所有这一类样本个数的比例：=1 d.用户精度（UA）指每一类分类正确的样本个数占所有被分为这一类的样本个数的比例：=1 e.F1 分数生产者精度和用户精度的调和平均：1=2 f.交并比（IoU）每一类实际提取的像素和真实的像素的交集和并集的比值：=()()其中表示实际提取的像素的集合，表示真实的像素的集合。除了测试模型的精度之外，还计算了模型在训练和测试过程中消耗的时间和所占用的显存，以测试不同框架的运行效率。（4）实验结果 FreeNet 网络实验结果得到的 FreeNet 在不同框架下的精度对比如表 1 和表 2 所示。表 1 FreeNet 在不同框架下的测试精度对比（吉林）WHU-OHS-Jilin Tensorflow-FreeNet Pytorch-FreeNet LuoJiaNET-FreeNet 样本占比 Classname PA UA F1 IoU PA UA F1 IoU PA UA F1 IoU Paddy field 0.614 0.610 0.612 0.441 0.656 0.669 0.662 0.495 0.672 0.657 0.665 0.498 4.8%Dry farm 0.829 0.770 0.798 0.664 0.791 0.811 0.801 0.668 0.832 0.778 0.804 0.672 15.7%Woodland 0.935 0.989 0.962 0.926 0.965 0.984 0.974 0.950 0.957 0.989 0.973 0.947 60.2%River canal 0.929 0.848 0.887 0.797 0.914 0.806 0.857 0.750 0.840 0.840 0.840 0.724 1.3%Lake 0.998 0.943 0.970 0.941 0.998 0.937 0.967 0.936 0.997 0.958 0.977 0.955 11.4%Reservoir pond 0.505 0.374 0.430 0.274 0.240 0.373 0.292 0.171 0.307 0.791 0.443 0.284 0.6%Shoal 0.395 0.052 0.092 0.048 0.284 0.108 0.156 0.085 0.506 0.346 0.411 0.259 0.1%Urban built-up 0.888 0.987 0.935 0.878 0.918 0.975 0.945 0.896 0.944 0.922 0.933 0.874 3.9%Rural settlement 0.720 0.505 0.594 0.422 0.795 0.520 0.629 0.458 0.651 0.533 0.586 0.414 1.7%Other construction land 0.762 0.439 0.557 0.386 0.767 0.551 0.641 0.472 0.775 0.595 0.674 0.508 0.2%Marshland 0.320 0.124 0.179 0.098 0.400 0.173 0.241 0.137 0.491 0.185 0.269 0.155 0.1re rock 0.186 0.879 0.307 0.181 0.077 0.868 0.141 0.076 0.360 0.714 0.479 0.315 0.1%OA 0.901 0.916 0.916 Kappa 0.839 0.860 0.861 mean F1 0.610 0.609 0.671 mean IoU 0.505 0.508 0.550 表 2 FreeNet 在不同框架下的测试精度对比（郑州）WHU-OHS-Zhengzhou Tensorflow-FreeNet Pytorch-FreeNet LuoJiaNET-FreeNet 样本占比 Classname PA UA F1 IoU PA UA F1 IoU PA UA F1 IoU Dry farm 0.771 0.966 0.858 0.751 0.822 0.965 0.888 0.798 0.804 0.960 0.875 0.778 51.4%Woodland 0.852 0.790 0.820 0.695 0.728 0.729 0.729 0.573 0.876 0.801 0.837 0.719 2.5%Shrubbery 0.013 0.065 0.022 0.011 0.009 0.102 0.017 0.009 0.409 0.549 0.469 0.306 0.2%Sparse woodland 0.298 0.290 0.294 0.172 0.381 0.421 0.400 0.250 0.491 0.553 0.520 0.352 1.6%Other forest land 0.361 0.208 0.264 0.151 0.592 0.241 0.343 0.207 0.396 0.160 0.227 0.128 0.2%High-covered grassland 0.261 0.127 0.170 0.093 0.182 0.095 0.124 0.066 0.566 0.153 0.241 0.137 1.2%Medium-covered grassland 0.197 0.017 0.031 0.016 0.271 0.033 0.059 0.030 0.597 0.096 0.165 0.090 0.1%Low-covered grassland 0.895 0.132 0.231 0.130 0.838 0.159 0.267 0.154 0.721 0.308 0.432 0.275 0.4%River canal 0.943 0.841 0.889 0.800 0.921 0.894 0.907 0.830 0.929 0.851 0.888 0.799 6.4%Lake 0.651 0.896 0.754 0.605 0.538 0.963 0.690 0.527 0.496 0.986 0.660 0.493 0.3%Reservoir pond 0.700 0.369 0.484 0.319 0.654 0.414 0.507 0.340 0.830 0.490 0.616 0.445 2.1%Shoal 0.754 0.463 0.574 0.402 0.798 0.558 0.656 0.488 0.713 0.659 0.685 0.520 3.4%Urban built-up 0.963 0.977 0.970 0.942 0.958 0.990 0.974 0.948 0.951 0.992 0.971 0.943 16.7%Rural settlement 0.831 0.741 0.783 0.644 0.850 0.757 0.801 0.668 0.839 0.774 0.806 0.674 10.1%Other construction land 0.403 0.488 0.442 0.284 0.530 0.473 0.500 0.333 0.603 0.438 0.507 0.340 3.4%OA 0.791 0.819 0.822 Kappa 0.718 0.751 0.756 mean F1 0.506 0.524 0.593 mean IoU 0.401 0.415 0.467 从表 1 和表 2 来看，Tensorflow 框架和 Pytorch 框架的效果相当，Pytorch 略好于Tensorflow；而从 Pytorch 和 LuoJiaNET 框架下的精度对比来看，得到的总体精度指标OA、Kappa 比较接近，这是因为每个测试区域中不同类别的样本量不均衡，这两个框架在样本数量较多的类别上得到的精度是比较接近的。而从每一类的精度上来看，在 LuoJiaNET框架下大部分类别上（特别是样本较少的类别）都能够取得比在 Tensorflow 框架和 Pytorch框架下更高的精度，因此得到的类别平均的 F1 分数和平均 IoU 也更高。更进一步地，对随着迭代的推进模型的训练集 loss 以及测试集平均 IoU 的变化进行了可视化分析，如图 3 和图 4 所示。(a)Loss(b)mIoU 图 3 训练集 loss 和测试集 mIoU 随着迭代的变化（吉林）(a)Loss(b)mIoU 图 4 训练集 loss 和测试集 mIoU 随着迭代的变化（郑州）从图 3 和图 4 可以看出，FreeNet 网络在 LuoJiaNET 框架下进行训练的过程中的训练集 loss 值要明显比 Tensorflow 框架和 Pytorch 框架下更低，由于采用的 loss 是针对样本的比例进行了加权的交叉熵损失函数，因此这与 LuoJiaNET 框架下有着更高的各类别精度是比较一致的。此外，从测试集的平均 IoU 随着迭代的变化可以看出，LuoJiaNET 框架下的训练过程更加稳定。图 5 展示了 FreeNet 网络在不同框架下得到的局部结果可视化对比，可以看出LuoJiaNET 框架下得到的分类结果比其它框架更加准确。(a)影像(b)标签(c)Tensorflow(d)Pytorch(e)LuoJiaNET 图 5 FreeNet 网络局部结果可视化对比表3展示了不同框架下FreeNet的训练和测试的效率对比，其中训练时间为每个epoch所需要的时间，测试时间为整个测试过程所需要的时间。（额外测试了近期发布的LuoJiaNET最新版本 v1.0.5 的运行效率）表 3 FreeNet 在不同框架下的运行效率对比深度学习框架训练时间测试时间训练显存占用测试显存占用 Tensorflow 48.40s/epoch 15.09s 7352MB 7268MB Pytorch 45.01s/epoch 5.98s 6436MB 5736MB LuoJiaNET 171.48s/epoch 14.15s 7155MB 3999MB LuoJiaNET_v1.0.5 172.41s/epoch 14.49s 6667MB 2965MB 从表 3 可以看出，LuoJiaNET 除了训练时间以外都优于 Tensorflow，但只在测试所占用的显存上优于 Pytorch，并没有体现出在运行效率上的优势，出现这种现象的可能原因在于 GPU 驱动和 CUDA 版本不匹配导致底层调度较慢，还有待进一步分析。此外，经测试，最新 v1.0.5 版本的 LuoJiaNET 能够显著降低训练和测试时的显存占用，但没有缩短训练和测试所需要的时间。HRNet-3D 网络实验结果得到的 HRNet-3D 在不同框架下的精度对比如表 4 和表 5 所示。表 4 HRNet-3D 在不同框架下的测试精度对比（吉林）WHU-OHS-Jilin Tensorflow-HRNet3D Pytorch-HRNet3D LuoJiaNET-HRNet3D 样本占比 Classname PA UA F1 IoU PA UA F1 IoU PA UA F1 IoU Paddy field 0.490 0.793 0.606 0.434 0.508 0.786 0.617 0.446 0.618 0.703 0.658 0.490 4.8%Dry farm 0.894 0.734 0.806 0.675 0.878 0.730 0.797 0.663 0.856 0.762 0.806 0.675 15.7%Woodland 0.976 0.974 0.975 0.951 0.976 0.973 0.975 0.951 0.970 0.982 0.976 0.952 60.2%River canal 0.630 0.965 0.762 0.616 0.795 0.945 0.863 0.759 0.897 0.908 0.903 0.823 1.3%Lake 0.997 0.963 0.979 0.959 0.996 0.957 0.976 0.953 0.996 0.959 0.977 0.955 11.4%Reservoir pond 0.232 0.526 0.322 0.192 0.188 0.563 0.282 0.164 0.193 0.504 0.280 0.162 0.6%Shoal 0.322 0.784 0.456 0.296 0.106 0.601 0.180 0.099 0.517 0.697 0.594 0.422 0.1%Urban built-up 0.838 0.920 0.877 0.781 0.766 0.917 0.834 0.716 0.929 0.975 0.952 0.908 3.9%Rural settlement 0.372 0.699 0.485 0.320 0.437 0.708 0.540 0.370 0.473 0.614 0.535 0.365 1.7%Other construction land 0.570 0.896 0.697 0.535 0.518 0.884 0.653 0.485 0.851 0.886 0.868 0.767 0.2%Marshland 0.021 1.000 0.041 0.021 0.034 0.963 0.065 0.034 0.029 0.444 0.054 0.028 0.1re rock 0.573 1.000 0.729 0.573 0.668 1.000 0.801 0.668 0.666 1.000 0.799 0.666 0.1%OA 0.916 0.914 0.921 Kappa 0.857 0.854 0.868 mean F1 0.645 0.632 0.700 mean IoU 0.529 0.526 0.601 表 5 HRNet-3D 在不同框架下的测试精度对比（郑州）WHU-OHS-Zhengzhou Tensorflow-HRNet3D Pytorch-HRNet3D LuoJiaNET-HRNet3D 样本占比 Classname PA UA F1 IoU PA UA F1 IoU PA UA F1 IoU Dry farm 0.939 0.858 0.897 0.813 0.955 0.842 0.895 0.810 0.890 0.923 0.906 0.829 51.4%Woodland 0.069 0.717 0.126 0.067 0.057 0.531 0.104 0.055 0.771 0.817 0.793 0.657 2.5%Shrubbery 0.092 0.153 0.115 0.061 0.066 0.125 0.086 0.045 0.204 0.351 0.258 0.148 0.2%Sparse woodland 0.287 0.276 0.281 0.164 0.001 0.100 0.002 0.001 0.173 0.547 0.263 0.151 1.6%Other forest land 0.171 0.079 0.108 0.057 0.193 0.071 0.104 0.055 0.136 0.234 0.172 0.094 0.2%High-covered grassland 0.098 0.100 0.099 0.052 0.060 0.100 0.075 0.039 0.527 0.217 0.308 0.182 1.2%Medium-covered grassland 0.258 0.070 0.110 0.058 0.245 0.305 0.272 0.157 0.480 0.141 0.218 0.122 0.1%Low-covered grassland 0.399 0.683 0.503 0.336 0.092 0.603 0.159 0.087 0.675 0.589 0.629 0.459 0.4%River canal 0.815 0.813 0.814 0.686 0.887 0.831 0.858 0.751 0.945 0.864 0.903 0.823 6.4%Lake 0.010 0.242 0.020 0.010 0.390 0.917 0.547 0.377 0.126 0.920 0.222 0.125 0.3%Reservoir pond 0.769 0.731 0.750 0.600 0.756 0.760 0.758 0.611 0.705 0.625 0.663 0.495 2.1%Shoal 0.573 0.654 0.611 0.440 0.337 0.842 0.482 0.317 0.673 0.748 0.709 0.549 3.4%Urban built-up 0.935 0.958 0.946 0.898 0.966 0.945 0.955 0.914 0.970 0.965 0.968 0.937 16.7%Rural settlement 0.772 0.857 0.812 0.684 0.801 0.804 0.803 0.670 0.821 0.733 0.775 0.632 10.1%Other construction land 0.330 0.492 0.395 0.246 0.365 0.510 0.425 0.270 0.425 0.457 0.441 0.283 3.4%OA 0.826 0.834 0.847 Kappa 0.739 0.746 0.780 mean F1 0.439 0.435 0.548 mean IoU 0.345 0.344 0.432 HRNet-3D 网络在不同框架下精度的对比结果与 FreeNet 基本一致，在 LuoJiaNET 框架下能够得到明显更高的总体精度以及每一类的精度。此外，从不同网络的精度对比上看，HRNet-3D 网络要略好于 FreeNet 网络。图 6 和图 7 对随着迭代的推进模型的训练集 loss 以及测试集平均 IoU 的变化进行了可视化分析。(a)Loss(b)mIoU 图 6 训练集 loss 和测试集 mIoU 随着迭代的变化（吉林）(a)Loss(b)mIoU 图 7 训练集 loss 和测试集 mIoU 随着迭代的变化（郑州）随着迭代的推进，HRNet-3D 在不同框架下的训练集 loss 最终能够收敛到比较接近的值，但是 LuoJiaNET 框架下能够达到的测试集 mIoU 明显更高，可见 LuoJiaNET 框架下所训练的网络具有更好的泛化能力。图 8 展示了 HRNet-3D 网络在不同框架下得到的局部结果可视化对比，LuoJiaNET 框架下得到的地物分类结果更加准确。(a)影像(b)标签(c)Tensorflow(d)Pytorch(e)LuoJiaNET 图 8 HRNet-3D 网络局部结果可视化对比表 6 展示了不同框架下 HRNet-3D 网络的训练和测试的效率对比。（额外测试了近期发布的 LuoJiaNET 最新版本 v1.0.5 的运行效率）表 6 HRNet-3D 在不同框架下的运行效率对比深度学习框架训练时间测试时间训练显存占用测试显存占用 Tensorflow 193.54s/epoch 41.35s 7318MB 7270MB Pytorch 200.14s/epoch 19.85s 5087MB 4781MB LuoJiaNET 576.37s/epoch 41.52s 6129MB 3950MB LuoJiaNET_v1.0.5 585.97s/epoch 41.23s 5610MB 2947MB 与 FreeNet 得到的结果较为一致，除了测试阶段的显存占用之外，并没有体现出LuoJiaNET 框架在效率上的明显优势。此外，经测试，最新 v1.0.5 版本的 LuoJiaNET 能够显著降低训练和测试时的显存占用，但没有缩短训练和测试所需要的时间。4.3.1.4 总结实验基于 FreeNet 和 HRNet-3D 两种深度网络，在遥感专用深度学习框架 LuoJiaNET下完成了高光谱遥感影像地物语义分割的应用，并且与深度学习主流框架 Tensorflow 和Pytorch 进行了对比。实验结果表明，LuoJiaNET 框架能够得到比 Tensorflow 框架和Pytorch 框架更加稳定的训练过程以及更高的语义分割精度，但是除了测试阶段能够占用更少的显存之外，没有体现出 LuoJiaNET 框架在效率上的优势，需要进一步分析其中的原因，可能这也是 LuoJiaNET 可以优化的地方。4.3.2 高光谱地物分类（二）4.3.2.1 任务简介（1）使用 LuoJiaNET 完成最新 SOTA 的高光谱深度分类网络 S3ANet 和经典高光谱分类网络 FreeNet 的搭建与训练，将 LuoJiaNET 框架应用到高光谱分类任务中；（2）将 LuoJiaNET 和主流的深度学习框架 PyTorch 进行对比，测试 LuoJiaNET 在高光谱分类任务中的性能表现。4.3.2.2 高光谱地物分类网络简介 S3ANet 简介 S3ANet 网络是由 RSIDEA 研究组提出的高光谱深度分类模型，不同于传统高光谱分类网络仅关注于局部空谱特征,S3ANet 网络以端到端的方式基于全局空谱信息实现高光谱影像精细分类，具备更强的空谱特征提取能力（架构见图 1）。图 5 高光谱分类网络 S3ANet 结构图图 2 S3ANet 中光谱注意力模块图图 3 S3ANet 中空间注意力模块图图 4 S3ANet 中尺度注意力模块图为了更好地应对高光谱影像中的光谱异质性问题，缓解较大类内方差带来的影响，S3ANet 网络设计利用了光谱注意力模块，空间注意力模块和尺度注意力模块（架构见图 2，3，4）。编码器部分由级联的 33 卷积网络和空谱注意力模块构成，光谱注意力可以促使网络关注更具判别性的波段范围，33 卷积网络以较小的卷积核提取高层次的空间特征，二者相互结合提取更鲁棒的空谱特征。解码器部分，每层反卷积网络均与编码器输出特征图连接。借助空间注意力模块对低级空间信息进行加权处理，减少编码器输出特征图和解码器高级语义信息之间的鸿沟，使得网络在保持良好空间细节信息的同时，提升网络的语义特征提取能力。鉴于高光谱影像中地物尺度不一，固定的卷积感受野会局限网络语义特征的提取，为此，在编码器和解码器的连接处，S3ANet 设计了尺度注意力模块将提取到的多尺度信息进行加权融合，而非 ASPP 中的等比例融合，实现网络对多尺度信息的捕获和特征提取。损失方面，S3ANet 网络在训练阶段除了交叉熵损失，还设计了边缘角度损失用于更好地应对光谱异质性问题。FreeNet 简介 FreeNet 是第一个做到端到端 patch-free 的分类架构，其架构如图 5 所示。编码器由一系列堆叠的 33 卷积和光谱注意力构成，解码器由 33 卷积和二倍上采样操作完成。编码器和解码器之间包含多个跨层连接，编码层输出经过空谱融合模块后与解码层相加，使得网络在解码时可以利用编码器的底层细节信息，兼顾高级语义特征和低级细节特征。图 5 FreeNet 架构 4.3.2.3 测评结果（1）数据集本次实验采用数据集为 RSIDEA 研究组发布的三套无人机高光谱数据集 WHU-Hi-HongHu,WHU-Hi-HanChuan 和 WHU-Hi-JiaYu。所使用三套高光谱数据集影像和光谱信息展示见图 6，相关类别信息和采集信息见表 1。图 6 所使用三套高光谱数据集影像和光谱信息展示表 1 所使用三套高光谱数据集影像类别信息和采集信息（2）实现细节使用的 PyTorch 版本是 v1.8.0，LuoJiaNET 版本为 v1.0.0。我们分别在主流的深度学习框架 PyTorch 和我们的 LuoJiaNET 上复现了 S3ANet 和FreeNet 网络。为了进行公平的对比，两网络均在同一硬件上进行训练和测试。GPU 型号为 Navidia Geoforce RTX 3090、CPU 型号为 Intel(R)Xeon(R)Silver 4210R CPU 2.40GHz。在进行训练时，S3ANet 损失函数为边缘角度损失及交叉熵损失，FreeNet 损失函数为交叉熵损失，优化器选择为 Adam。S3ANet 和 FreeNet 网络学习率为 0.001。训练时的样本构造采用分层采样算法。每个样本保持原始大小，不适用任何数据增强技巧。对于每个类别，本次实验选取 50 个样本点进行训练，其余样本点进行测试。（3）评价指标 a.精度评价指标(基于混淆矩阵)总体精度 Overall accuracy(OA)，平均精度 Average accuracy(AA)，Kappa 系数。b.显存占用（Memory）记录了模型在训练或者推理过程中所需要的显存占用。c.运行时间（Time）记录了模型在训练或者推理过程中处理网络一次反向传播和前向传播所需要的时间（4）定量实验结果 S3ANet 在三个数据集上的定量结果见表 2，FreeNet 的定量结果见表 3。加粗字体显示相对最优。精度方面，使用 LuojiaNet 框架训练的 S3ANet 和 FreeNet 相较于 Pytorch框架，可以取得更优的 OA 和 Kappa 精度，但 AA 略低。显存方面，FreeNet 使用 LuojiaNet框架占用训练和推理显存明显少于 Pytorch 框架，S3ANet 在两个框架上占用显存相似。时间方面，基于 Pytorch 的两个模型拥有更少的训练和推理时间，关于这点我们认为可能是由于以下几个原因导致。（1）两种框架底层的梯度下降优化方式（动态图与静态图计算）不同有关；（2）在 LuojiaNET 自定义单步训练流程需要继承 nn.TrainOneStepCell 类，然后再定义计算损失的 nn.Module 子类计算反向传播的损失，单步的网络反向传播方式不同，该部分可以考虑继续优化。（3）在 LuojiaNET 自定义单步训练流程需要继承 nn.TrainOneStepCell 类，梯度反向传播过程中涉及到数据 cpu 和 gpu 之间的相互转换，LuojiaNET 并没有像 Pytorch 一样将数据直接转换成.cuda()和.cpu()格式类型。S3ANet 和 FreeNet 在三个数据集上的混淆矩阵见表 4。可以看出，LuojiaNet 最终得到的单类精度情况和 Pytorch 总体一致。表 2 S3ANet 在三个数据集上的定量结果 OA AA Kappa 训练显存推理显存训练时间推理时间 HongHu Pytorch 96.43 97.20 95.51 8921M 3805M 0.520s 0.462s LuojiaNet 96.53 96.89 95.63 9459M 4409M 0.453s 0.746s LongKou Pytorch 97.70 98.26 96.99 5181M 2743M 0.532s 0.482s LuojiaNet 98.49 98.21 98.03 5361M 3001M 0.379s 0.612s HanChaun Pytorch 96.28 96.70 95.32 6447M 3447M 0.537s 0.464s LuojiaNet 96.97 96.59 96.46 6857M 3513M 0.479s 0.724s 表 3 FreeNet 在三个数据集上的定量结果 OA AA Kappa 训练显存推理显存训练时间推理时间 HongHu Pytorch 95.25 95.78 94.02 9635M 4291M 0.134s 0.012s LuojiaNet 95.68 95.56 94.57 8953M 3009M 2.462s 0.179s LongKou Pytorch 96.95 97.53 96.02 5513M 3021M 0.076s 0.016s LuojiaNet 97.31 97.43 96.48 4985M 2241M 2.063s 0.384s HanChaun Pytorch 94.22 94.11 93.27 6723M 3839M 0.129s 0.013s LuojiaNet 94.67 94.28 93.79 6649M 3523M 2.165s 0.139s 表 4 S3ANet 和 FreeNet 在三个数据集上的单类精度 S3ANet LuojiaNet S3ANet Pytorch FreeNet LuojiaNet FreeNet Pytorch HongHu LongKou HanChuan （5）定性可视化 S3ANet 和 FreeNet 在三个高光谱分类数据集上的定性结果见图 7-9。从结果可以看出，Luojianet 输出的分类图具备更少的噪点和更平滑的边界，与定量结果展示的优越性一致。图 7 S3ANet 和 FreeNet 在洪湖数据集上的定性对比图 8 S3ANet 和 FreeNet 在龙口数据集上的定性对比图 9 S3ANet 和 FreeNet 在汉川数据集上的定性对比 4.3.2.4 时间占用分析从第三节的定量结果可以看出，虽然 LuojiaNet 在精度和显存占用方面略优于 Pytorch，但在 FreeNet 的相关实验中，训练和推理时间明显多于 Pytorch。为了找见具体原因，我们将时间分析细化到每一层，并分开展示了损失计算，梯度计算和参数更新这些步骤。分析结果见表 5。所有测试均在相同条件下进行。从结果可以看出，LuojiaNet占用时间明显较多的算子为GN，AvgPool2d和interplote算子。此外，LuojiaNet 在损失计算，梯度计算和参数更新这三个步骤上消耗时间明显多于 Pytorch。其中，梯度计算消耗时间最为严重。表 5 FreeNet 包含算子在三个数据集上训练时间的具体分析 HongHu Luojianet HongHu Pytorch LongKou LuojiaNet LongKou Pytorch HanChuan Luojianet HanChuan Pytorch conv3x3 0.0004 0.0066 0.0004 0.0033 0.0009 0.0160 GN 0.0031 0.0021 0.0032 0.0011 0.0088 0.0021 Relu 0.0002 0.0004 0.0002 0.0002 0.0006 0.0005 SEBlock-AvgPool2d 0.0060 0.0003 0.0056 0.0002 0.0008 0.0001 SEBlock-Linear 0.0016 0.0003 0 0.0003 0.0001 0.0003 SEBBlock-Multiply 0.0004 0.0005 0.0008 0.0002 0.0006 0.0002 Idendity 0 0 0 0 0 0 Interpolate 0.0014 0.0002 0.0012 0.0001 0.0015 0.0002 Loss 计算 0.0025 0.0005 0.0025 0.0003 0.0025 0.0004 梯度计算 2.2011 0.0506 1.2084 0.0448 1.9027 0.0757 更新参数 0.0617 0.0060 0.0708 0.0043 0.0620 0.0035 4.3.2.5 总结基于 LuoJiaNET 框架，已经完成了高光谱分类的典型应用。在高光谱分类任务中，LuoJiaNET 相比于主流深度学习框架 PyTorch，部分精度指标有一定提升，总体相差不大。在显存占用上，也略优于 PyTorch。不过，LuoJiaNET 需要更长的训练和推理时间。4.3.3 高空间分辨率地物分类（一）4.3.3.1 任务简介（1）使用 LuoJiaNET 完成经典深度学习语义分割网络 UNet 和 HRNet 的搭建与训练.（2）将 LuoJiaNET 和主流的深度学习框架 PyTorch、Tensorflow 进行对比，测试LuoJiaNET 在语义分割任务中的性能表现。4.3.3.2 高分辨率地物分类网络简介 HRNet 和 UNet 分别代表了 CNN 在语义分割任务上的两大网络体系，一种是并行不同分辨率的卷积流并不断进行信息交互的高分辨率网络结构，一种是经过不断卷积池化提取特征后在恢复原始分辨率的编解码体系。UNet 网络结构 HRNet 网络结构 4.3.3.3 测评结果（1）GID 数据集 GID 数据集包括两个部分：大规模分类集和精细土地覆盖分类集。本次测试选用大规模分类集部分。该部分包括训练集 120 张，输入为 512*512，初始学习率 1e-1，并使用余弦退火策略，最大迭代次数为 90，并使用旋转、翻转、颜色抖动等数据增强方式。需要注意的是，继续训练网络更多的迭代次数仍可使得测验证集 30 张(6800*7200)。波段为 RGB 形式或NIR RGB(6800*7200*4)。分为5类(build-up、farmland、forest、meadow、water)。下图为样本地理位置分布及图片示例。（2）实现细节训练时，所有网络批次大小为 24，试精度上升。（3）评价指标在实验中，采用的定量指标如下：a.平均交并比（MIOU）MIOU=1k 1TPTP FP FNki=0 b.显存占用（Memory）记录了模型在训练或者推理过程中所需要的显存占用。c.帧率（FPS）每秒处理的图片数量。（4）实验结果表 6 精度结果对比 MIOU Build-up Farmland Forest Meadow Water UNet-Pytorch 62.89 63.34 63.28 41.04 65.96 80.85 UNet-Luojianet 63.66 62.80 65.28 45.67 64.57 79.97 UNet-Tensorflow 61.33 62.82 65.42 38.13 61.80 78.49 HRNet-Pytorch 61.34 62.47 64.78 40.51 58.38 80.55 HRNet-Luojianet 62.58 62.92 64.90 43.26 61.71 80.10 HRNet-Tensorflow 62.58 60.34 66.55 41.94 63.46 80.60 表 7 时间与显存占用对比 UNet HRNet Training Inference Training Inference Memory FPS Memory FPS Memory FPS Memory FPS Pytorch 20694 38 7540 115 18550 30 5536 94 Luojianet 21996 24 9652 32 19936 15 5556 30 Tensorflow 23641 31 9510 50 33191 11 7462 25 显存占用以及 FPS 为在 RTX3090、输入数据尺寸为(24,3,512,512)时测得。在精度上，LuoJiaNet 与 PyTorch 差别不大，有微弱优势。在效率上，LuoJiaNet 在内容和处理速度上均不如 PyTorch，但比 Tensorflow 的内存占用小，处理速度相当。（5）结果可视化精度差别不大，预测结果未见明显区别。4.3.3.4 总结基于 LuoJiaNET 框架，已经完成了高分辨率遥感地物语义分割的典型应用。在高分辨率语义分割任务中，LuoJiaNET 相比于主流深度学习框架 PyTorch、Tensorflow，具有相当的精度，在效率上低于 Pytorch。4.3.4 高空间分辨率地物分类（二）4.3.4.1 任务简介（1）使用LuojiaNET完成/完善常用遥感语义分割深度学习网络U-Net、DeepLabv3、DeepLabv3 的搭建、训练与推理实验，将 LuojiaNET 框架应用到遥感语义分割任务中；（2）将 LuojiaNET 和主流的深度学习框架 PyTorch 进行对比，测试 LuojiaNET 在遥感语义分割任务中的性能表现。4.3.4.2 高分辨率地物分类网络网络简介 U-Net 简介图 1 U-Net 结构图 U-Net 的 U 形结构如图 1 所示。是由卷积和 Max Pooling 构成的一系列降采样操作，压缩路径由 4 个 block 组成，每个 block 使用了 3 个有效卷积和 1 个 Max Pooling 降采样，每次降采样之后 Feature Map 的个数乘 2，因此有了图中所示的 Feature Map 尺寸变化。最终得到了尺寸为的 Feature Map。同样由 4 个 block 组成，每个 block 开始之前通过反卷积或上采样将 Feature Map 的尺寸乘 2，同时将其个数减半（最后一层略有不同），然后和左侧对称的压缩路径的 Feature Map 合并，由于左侧压缩路径和右侧扩展路径的Feature Map 的尺寸不一样，U-Net 是通过将压缩路径的 Feature Map 裁剪到和扩展路径相同尺寸的 Feature Map 进行归一化的（即图 1 中左侧虚线部分）。扩展路径的卷积操作依旧使用的是有效卷积操作，最终得到的 Feature Map 的尺寸。DeepLab 系列简介图 2 DeepLabv3 网络结构图对于 DeepLabv3 网络结构，原始图像经过 encoder 特征提取，逐次下采样 4 次，在第 4 个 block 之后经过 ASPP 模块，经过不同的空洞卷积最后进行特征融合，其经过 1x1的分类层后直接双线性插值到原始图片大小，输出分类结果。图 3 DeepLabv3 网络结构图 DeepLabv3 模型的整体架构如图 3 所示，它的 Encoder 的主体是带有空洞卷积的DCNN，可以采用常用的分类网络如 ResNet，然后是带有空洞卷积的空间金字塔池化模块（Atrous Spatial Pyramid Pooling,ASPP)），主要是为了引入多尺度信息；相比DeepLabv3，v3 引入了 Decoder 模块，其将底层特征与高层特征进一步融合，提升分割边界准确度。4.3.4.3 测评结果（1）数据集：ISPRS Vaihingen 数据集 ISPRS 提供了城市分类和三维建筑重建测试项目的两个最先进的机载图像数据集。该数据集采用了由高分辨率正交照片和相应的密集图像匹配技术产生的数字地表模型（DSM）。这两个数据集区域都涵盖了城市场景。Vaihingen 是一个相对较小的村庄，有许多独立的建筑和小的多层建筑；Postdam 是一个典型的历史城市，有着大的建筑群、狭窄的街道和密集的聚落结构。每个数据集已手动分类为 6 个最常见的土地覆盖类别，分别是不透水面、建筑物、低矮植被、树木、汽车、背景，其中背景类包括水体和与其他已定义类别不同的物体（例如容器、网球场、游泳池），这些物体通常属于城市场景中的不感兴趣的语义对象。影像分辨率约为 0.1 米。该数据集包含 33 幅不同大小的遥感图像，每幅图像都是从一个更大的顶层正射影像图片提取的，图像选择的过程避免了出现没有数据的情况。顶层影像和 DSM 的空间分辨率为 9 cm。遥感图像格式为 8 位 TIFF 文件，由近红外、红色和绿色 3个波段组成。DSM 是单波段的 TIFF 文件，灰度等级（对应于 DSM 高度）为 32 位浮点值编码，具体可视化图像如图 4 所示。图 4 ISPRS Vaihingen 数据集从数据集的地物空间分布来看，该数据集的主要挑战如下：（1）地物类别不平衡；（2）不同地物在影像中尺度差异大，光谱相似；（3）目标背景复杂，建筑物阴影遮挡等问题。（2）实现细节在数据预处理时，选用 Vaihingen 数据集中的编号为 1、11、13、15、17、21、23、26、28、3、30、32、34、37、5、7 的 RGB 图像作为训练集，以滑动窗口 512*512，步长 256 对图像裁切，选用 Vaihingen 数据集中的编号为 6、24、35、16、14、22、10、4、2、20、8、31、33、27、38、12、29 的 RGB 图像作为验证集，同样以滑动窗口 512*512，步长 256 对图像裁切。本次实验使用的 PyTorch 版本是 v1.8.0，LuojiaNET 版本为 v1.0.0。分别在主流的深度学习框架 PyTorch 和 LuojiaNET 上复现 U-Net、DeepLabv3 和 DeepLabv3 网络。为了进行公平的对比，两网络均在同一硬件上进行训练和测试。GPU型号为Navidia Geoforce RTX 3090、CPU 型号为 Intel(R)Xeon(R)Silver 4210R CPU 2.40GHz。在进行训练时，采用的损失函数为多类交叉熵 CE 损失，优化器选择为 Adam。学习率统一固定为 0.0001，batch size 设置为 8，训练共 200 轮，每轮 43 次迭代。数据增强采用随机水平旋转、垂直旋转、随机 90 度旋转、图像转置。验证时对 398 张 512*512 的图像直接推理验证。此外在训练中由于背景类是除上述 5 类地物的其他地物类别，因此背景类需要参与到网络训练过程，网络最终输出类别为 6，并参与最终的定量评价。（3）评价指标在实验中，采用的定量指标如下：a.精度评价指标(基于混淆矩阵)各类别的交并比（IoU），总体精度 Overall accuracy(OA)，Kappa 系数与平均交并比(mIoU)。b.显存占用（Memory）记录了模型在训练或者推理过程中所需要的显存占用。c.运行时间（Time）记录了模型在训练或者推理过程中处理网络一次反向传播和前向传播所需要的时间（4）定量实验结果表 1 三种语义分割网络分类精度结果方法框架 IoU(%)OA Kappa mIoU 不透水面建筑物低矮植被树木汽车背景 U-Net Pytorch 78.21 84.27 67.00 75.44 54.78 11.78 86.10 81.61 61.91 LuojiaNET 78.06 83.25 65.20 73.89 59.39 22.80 85.47 80.79 63.77 DeepLabv3 Pytorch 75.88 81.61 62.11 73.23 44.19 17.35 84.11 78.99 59.06 LuojiaNET 76.71 81.86 63.27 71.54 49.45 13.50 84.25 79.15 59.39 DeepLabv3 Pytorch 75.61 82.08 59.45 71.29 41.08 18.98 83.51 78.17 58.09 LuojiaNET 76.37 80.79 62.20 72.05 41.68 10.64 83.80 78.57 57.29 U-Net、DeepLabv3 和 DeepLabv3 在三个高光谱分类数据集上的定量结果见表 1，从结果看出，LuojiaNET 与 Pytorch 训练结果总体相差不大，且在部分指标上 LuojiaNET可取得更高的精度。表 2 三种语义分割网络运行在两种框架下的效率对比方法框架训练显存(M)训练时间(s)测试显存(M)测试时间(s)U-Net Pytorch 16491 0.21 2461 0.01 LuojiaNET 15345 0.25 2235 0.02 DeepLabv3 Pytorch 12079 0.62 2517 0.02 LuojiaNET 12273 0.70 1989 0.03 DeepLabv3 Pytorch 7663 0.21 2289 0.02 LuojiaNET 7514 0.38 1733 0.02 两种框架在运行效率指标下，LuojiaNET 在大多数网络架构中训练与测试显存占用更少，在训练时间上LuojiaNET 的训练时间训练较慢，可能的原因如下：（1）两种框架底层的梯度下降优化方式（动态图与静态图计算）不同有关；（2）在 LuojiaNET 自定义单步训练流程需要继承 nn.TrainOneStepCell 类，然后再定义计算损失的 nn.Module 子类计算反向传播的损失，单步的网络反向传播方式不同，该部分可以考虑继续优化。（3）在 LuojiaNET 自定义单步训练流程需要继承 nn.TrainOneStepCell 类，梯度反向传播过程中涉及到数据 cpu 和 gpu 之间的相互转换，LuojiaNET 并没有像 Pytorch 一样将数据直接转换成.cuda()和.cpu()格式类型。可能是以上三个原因导致训练时间。测试时间上相差不大。（5）定性可视化图 5 ISPRS Vaihingen 定性结果可视化与 Pytorch 相比，LuojiaNET 在分类边界表现更平滑，椒盐噪声较少。4.3.4.4 总结基于 LuojiaNET 框架，完成高分辨率遥感语义分割任务典型应用。LuojiaNET 相比于主流深度学习框架 Pytorch，部分精度指标有一定提升，总体相差不大，在运行效率方面，LuojiaNET 在本报告大多数网络架构中训练与测试显存占用更少，测试时间相差不大，但训练时间不占优，后期可继续优化训练流程。4.4 变化检测 4.4.1 任务简介（1）使用 LuoJiaNET 完成/完善全要素变化检测深度学习网络 DTCDSCN、DSIFN 和单要素（建筑物）变化检测网络 BuildingChangeDetection（均已上传 gitee 模型库）的搭建、训练与推理实验，将 LuoJiaNET 框架应用到变化检测任务中；（2）将 LuoJiaNET 和主流的深度学习框架 PyTorch 进行对比，测试 LuoJiaNET 在变化检测任务中的性能表现。4.4.2 变化检测网络简介 4.4.2.1 全要素变化检测网络 DTCDSCN1（Dual Task Constrained Deep Siamese Convolutional Network）网络是一个双任务约束的孪生卷积神经网络，它的整个网络包括一个变化检测模块和两个语义分割模块 SSN，引入了双注意力模块（Dual Attention Module,DAM），整个网络的输出是一个变化检测图和两时相分割结果图。其中变化检测网络是基于孪生神经网络的，其网络结构具有两个共享权重的编码器，以及一个解码器。采用 SE-ResNet 作为基础的编码器模块。为了利用全局上下文信息，引入了空间特征金字塔池化模块作为中心块，这样可以增大特征图的感受野，并嵌入不同尺度的上下文特征。解码器使用 D-LinkNet，其中每个变化检测块（CD block）都有 3 个输入。考虑到来自不同空间位置和不同通道的特征可能会相关，以及受到注意力机制的启发，在解码器部分加入了 DAM 注意力模块，因此可以提高特征提取的辨别能力。图 1 双任务约束的孪生卷积神经网络 DTCDSCN 结构图 DSIFN2（deeply supervised image fusion network）包括深度特征提取网络 DFEN和差异判别网络 DDN。首先通过完全卷积的双流架构（DFEN）提取具有高度代表性的双时图像深度特征，然后将提取的深度特征输入深度监督的差异判别网络（DDN）进行变化检测。为了提高输出变化图中对象的边界完整性和内部紧凑性，模型还增加了注意力模块将原始图像的多层深度特征与图像差异特征融合，通过直接向网络中间层引入变化图损失来进一步增强 DDN，并以端到端的方式训练整个网络。图 2 深度监督图像融合网络网络 DSIFN 结构图 4.4.2.2 单要素变化检测网络 BuildingCD 是一个基于建筑检测先验知识的端到端变化检测方法，是一种基于迁移学习思想的新型多任务网络，该网络主要包括建筑物提取分支和变化检测分支，并加入了对象级细化算法。该网络利用建筑提取数据集对建筑提取分支进行预训练，使网络的特征提取模块能够更好地提取建筑特征。因此，后续网络训练只需要少量的建筑物变化检测样本也可以达到优异的检测效果。并且为充分利用建筑提取分支的结果提高变化检测精度，提出一种对象级细化算法。结合变化检测分支和建筑物提取分支的结果，选择变化面积大于预定义阈值的建筑掩膜作为最终变化检测结果，提高了变化检测结果的准确性和视觉效果。与其他多任务变化检测网络相比其优点在于：该网络借助高精度建筑掩膜可以充分利用来自建筑检测分支的先验信息，并可通过其对象级细化算法进一步提高变化检测结果。图 3 BuildingCD 网络结构图 4.4.3 测评结果（1）变化检测数据集：WHU-BCD 数据集 WHU-BCD 数据集是一个大规模建筑物变化检测数据集，整个数据集涵盖了 2011 年 2 月发生 6.3 级地震并在随后几年重建的区域。该数据集由 2012 年 4 月获得的航拍图像组成，包含 20.5 平方公里内的 12796 座建筑物（2016 年数据集中同一区域的 16077 座建筑物）。通过在地表手动选择 30 个 GCP，子数据集被地理校正为航空数据集，精度为 1.6 像素。每个样本包含一个前时期影像、后时期影像、前时期建筑物 mask，后时期建筑物 mask 以及发生变化的二值 label。为了方便深度学习的训练与测试，样本的尺寸已经被统一裁剪为 512*512 大小的图像，影像分辨率约为 0.1 米。（2）实现细节 PyTorch 版本：v1.6.0 LuoJiaNET：v1.0.0 GPU 型号：GeForce GTX 3080(10G)CPU 型号：Intel(R)Xeon(R)Gold 6126 CPU 2.60GHz 数据集大小：1500 张大小为 5125123 的影像对优化器：Adam 学习率：0.001，batch_size：5，epoch：500（3）评价指标在实验中，采用的定量指标如下：a.精度评价指标(基于混淆矩阵)Precision= (1)IoU= (2)Recall= (3)F1=(Precision Recall 2)(Precision Recall)(4)b.显存占用（Memory）记录了模型在训练或者推理过程中所需要的显存占用。c.运行时间（Time）记录了模型在训练或者推理过程中处理一个样本所需要的时间。（4）实验情况 DTCDSCN 网络表 8 DTCDSCN 精度结果对比 Methods Precision Recall F1 IoU DTCDSCN(LuojiaNET)88.210 97.381 0.89894 85.999 DTCDSCN(PyTorch)72.052 93.444 0.81365 81.203 从表 1 和图 4 可以看出，Luojianet 环境下，模型各项指标均高于 pytorch 环境，且均达到 85%以上，从视觉效果上来看 luojianet 环境下的模型提取效果更优，pytorch 环境下的模型漏检高，且边界不完整，而在 luojianet 环境下该模型能够提取出更为完整、边界更准确的变化建筑.表 9 DTCDSCN 时间与显存占用对比(batch_size=1)Methods Training Inference Memory(MiB)Time(s)Memory(MiB)Time(s)DTCDSCN(LuojiaNET)4372 82.3 2781 0.16 DTCDSCN(PyTorch)5091 136.9 3522 0.211 使用 LuoJiaNET 框架进行训练，内存消耗比 PyTorch 略小，训练时间减少接近一半；在推理过程中，LuoJiaNET 推理速度稍快，内存占用较 Pytorch 也小。图 4 可视化结果 DSIFN 网络表 10 DSIFN 精度结果对比 Methods Precision Recall F1 IoU DSIFN(LuojiaNET)95.896 89.910 0.9083 86.687 DSIFN(PyTorch)96.552 80.517 0.8708 78.267 从表 3 和图 5 可以看出，Luojianet 环境下，模型虚检略高于 pytorch 环境，但 IoU 和F1 远超 pytorch 环境，能够提取出更为完整、边界更准确的变化建筑，Luojianet 环境下的 DSIFN 整体提取效果要优于 pytorch 环境.表 11 DSIFN 时间与显存占用对比(batch_size=1)Methods Training Inference Memory(MiB)Time(s)Memory(MiB)Time(s)DSIFN(LuojiaNET)4540 253.1 3459 0.103 DSIFN(PyTorch)4664 425.65 2530 0.158 从表 4 可以看出，使用 LuoJiaNET 进行训练，内存消耗比 PyTorch 略小，训练时间减少接近一半；在推理过程中，LuoJiaNET 推理速度稍快，但是内存消耗较 Pytorch 占用更多(暂未更新到最新版 luojianet)。图 5 DSIFN 可视化结果 BuildingCD 网络表 5 BuildingCD 精度结果对比 Methods Precision F1 Recall BuildingCD(LuojiaNET)87.030 0.85803 95.933 BuildingCD(PyTorch)94.570 0.9374 92.930 从表 5 和图 6 可以看出，使用 LuoJiaNET 进行训练后的模型进行推理评估，模型召回率高于 pytorch 环境，且各项指标均达到 85%以上，反映出 Luojianet 环境下的该模型虚检稍高，但 luojianet 下的模型比 Pytorch 环境下的模型漏检更少，整体检测效果更优。表 6 BuildingCD 时间与显存占用对比(batch_size=1)Methods Training Inference Memory(MiB)Time(s)Memory(MiB)Time(s)BuildingCD(LuojiaNET)5008 2781 BuildingCD(PyTorch)5155 2436 从表 6 可以看出，使用 LuoJiaNET 进行训练，内存消耗比 PyTorch 略小；但在推理过程中，显存消耗较 Pytorch 占用更多，暂未更新 1.0.5 版本测试，更新后将继续进行测试。图 6 可视化结果 4.5 多视三维 4.5.1 双目立体 4.5.1.1 任务简介（1）使用 LuoJiaNET 完成经典的深度学习双目立体匹配网络 GC-Net 的搭建与训练，将 LuoJiaNET 框架应用到立体匹配与三维重建任务中；（2）基于搭建的 GC-Net 模型，将 LuoJiaNET 和主流的深度学习框架 PyTorch 以及 Tensorflow 进行对比，测试 LuoJiaNET 在立体匹配任务中的性能表现。4.5.1.2 双目立体匹配网络 GC-Net 简介 GC-Net 1(Geometry and Context Network)是一个经典的深度学习双目立体匹配模型，它以端到端的方式完成了双目密集匹配的过程，以纠正后的核线立体像对为输入，由网络学习特征映射得到视差图，无需任何手工设计特征和后处理就能达到子像素级别的立体匹配，大大减少工程设计的复杂性。GC-Net 的组成部分包含特征提取模块、代价体构建模块、代价体正则化模块、回归模块四大部分组成。在特征提取模块中，网络通过共享权重的一系列 2D 卷积对左右核线影像对进行高维特征的提取。在代价体构建模块，将左右影像特征进行“错位叠合”，形成一个形状为 WHD 代价体（其中，W、H 和 D 分别代表了影像的宽度、高度与最大视差）。其中，“错位叠合”的具体含义是，重复将右影像特征沿着视差方向移动，再与左影像特征进行串联，每次移动一个像素，直到达到最大视差处停止。在代价体正则化模块中，利用多尺度的 3D 卷积和 3D 转置卷积对代价体进行正则化，融合空间方向上和视差搜索方向上的特征信息，进行代价聚合。在回归模块，利用 soft argmin 运算从正则化后的代价体中得到归一化的概率体，以归一化的概率值作为权重，对搜索范围内的每个视差值 d 进行加权求和，从而回归出平面视差图。最后利用 L1 范式将网络得到的平面视差图与输入的真实视差图比较，比较结果用于迭代训练模型。GC-Net 网络以三维特征的形式同时考虑了图像平面特征和视差值，具有极高的鲁棒性和准确性，是目前大多数立体匹配方法的基础架构。图 6 双目立体匹配网络 GC-Net 结构图 4.5.1.3 测评结果（1）数据集 LuojiaSET-多视三维数据集采用 LuojiaSET-多视三维数据集中的 WHU-Stereo 子数据集。WHU-Stereo 是一个大规模合成航空影像双目立体匹配数据集。整个数据集包含训练集和测试集，其中训练集和测试集包含的样本数分别是 8316 组和 2618 组。每一个样本包含左影像、右影像以及左影像对应的视差图。为了便于深度学习的训练与测试，样本的尺寸已经被统一裁剪为 768384像素。影像数据的分辨率约为 10 cm。（2）实现细节我们分别在主流的深度学习框架 PyTorch、Tensorflow 以及我们的 LuoJiaNET 上复现了 GC-Net 网络，在后文中分别简写为 GC-Net(PyTorch)、GC-Net(Tensorflow)与 GC-Net(LuoJiaNET)。其中使用的Pytorch版本是V1.8.0，使用的Tensorflow版本是V1.13.1，使用的 LuojiaNET 版本是 V1.0.0。为了进行公平的对比，三个网络均在同一硬件上进行训练和测试，所有超参数和网络架构均保持一致。GPU 型号为 GeForce GTX 1080Ti(11G)、CPU型号为Intel(R)Core(TM)i9-7900X CPU 3.30GHz，使用的CUDA的版本是V10.1。在进行训练时，最大视差设置为 160，每个样本被随机裁剪为 512256 像素的小块，采用的损失函数为 L1 损失，优化器选择为 RMSProp，学习率固定为 0.001，批次数设置为 1，训练共 20 个轮次，共计约 17 万次迭代。推理时的参数设置与训练过程保持一致，最大视差设置为 160，样本大小为 512256 像素。（3）评价指标在实验中，采用的定量指标如下：a.平均绝对误差（Mean Absolute Error，MAE）统计模型预测视差图与视差图真值之间绝对差异的平均值，计算方式如下：1=1|()|(1)其中，yi为视差真值，而f(xi)为视差估计值，其中m为影像中有效像素的数量，x代表了影像上的像素。b.n像素精度占比（n-pixel）统计模型预测视差图与视差图真值之间的绝对差异小于n个像素的像素数量占比，计算方式如下：|()|=11=1(2)其中，为艾佛森括号，当括号内的条件满足时为 1，否则为 0.c.显存占用（Memory）记录了模型在训练或者推理过程中所需要占用的峰值显存。d.运行时间（Time）记录了模型在训练或者推理过程中处理一个样本所需要的时间。（4）实验结果表 12 精度结果对比 Methods MAE(pixel)1-pixel(%)2-pixel(%)3-pixel(%)GC-Net(LuojiaNET)0.176 98.12 98.98 99.31 GC-Net(PyTorch)0.202 97.88 98.83 99.20 GC-Net(Tensorflow)0.235 96.87 98.16 98.67 从表 1 可知，相比于 PyTorch 和 Tensorflow 构建的模型，使用 LuoJiaNET 构建的 GC-Net 网络在精度上均有所提升。与 PyTorch 构建的模型相比，在平均绝对误差（MAE）指标上提升约 12%，在一像素（1-pixel）、两像素（2-pixel）、三像素（3-pixel）精度占比指标上分别提升约 0.24%、0.15%和 0.11%。相比于 Tensorflow 模型，LuoJiaNET 构建的 GC-Net 网络在精度上也有优势，在平均绝对误差（MAE）指标上提升约 25%，在一像素（1-pixel）、两像素（2-pixel）、三像素（3-pixel）精度占比指标上分别提升约 1.25%、0.82%和 0.64%。表 2 时间与显存占用对比 Methods Training Inference Memory(MiB)Time(s)Memory(MiB)Time(s)GC-Net(LuojiaNET)7587M 1.63s 4515M 0.28s GC-Net(PyTorch)8695M 2.75s 3085M 0.45s GC-Net(Tensorflow)8671M 0.83s 4575M 0.27s 从表 2 可以看出，使用 LuoJiaNET 进行训练时，内存消耗比 PyTorch 以及 Tensorflow略小，在本模型上减少约 12%；在本模型上训练时，训练时间相比于 PyTorch 减少约 33%，相比于 Tensorflow 的训练时间增加约 1 倍。在推理过程中，显存占用较 PyTorch 要略高，与 Tensorflow 的占用基本持平；LuojiaNet 构建的模型的推理时间与 Tensorflow 基本持平，相比于 PyTorch，推理时间减少约 37%。（5）结果可视化左图真实视差图预测视差图(LuoJiaNet)预测视差图(Pytorch)预测视差图(Tensorflow)图 2.GC-Net 模型推理的视差图可视化结果。从上到下，分别是不同的样本，样本编号分别为 009_53/006003、009_53/009010、009_59/005006 与 012_38/011008。从左到右，分别是左影像、视差图真值、GC-Net（LuoJiaNET）模型的预测结果、GC-Net（PyTorch）的预测结果和 GC-Net（Tensorflow）模型的预测结果。4.5.1.4 总结基于 LuoJiaNET 框架，实现了立体匹配网络，完成了在三维重建任务上的典型应用。在立体匹配与三维重建任务中，基于复现的双目立体匹配网络 GC-Net，在 WHU-Stereo数据集中的实验证明了：LuoJiaNET 相比于主流深度学习框架 PyTorch，在结果精度上，提高约 10 %左右；在训练和推理的时间占用上，降低约 30%左右；在训练的显存占用上，减少约 10%左右，但是在推理时，显存占用较 PyTorch 略高。相比于静态图模型的Tensorflow，在结果精度上提高约 200%，LuoJiaNET 在训练时的显存占用略高，训练时间增加约 1 倍，在推理时，二者的显存占用和时间占用基本持平。4.5.2 多视密集匹配 4.5.2.1 任务简介（1）使用LuoJiaNET完成经典的深度学习多视密集匹配网络MVSNet的搭建与训练，将 LuoJiaNET 框架应用到多视立体匹配与三维重建任务中；（2）基于搭建的 MVSNet 模型，将 LuoJiaNET 和主流的深度学习框架 PyTorch、TensorFlow 进行对比，测试 LuoJiaNET 在多视密集匹配任务中的性能表现。4.5.2.2 多视密集匹配网络 MVSNet 简介 MVSNet1(Multi-view Stereo Network)是一种经典的端到端深度学习多视密集匹配模型，用于对具有多视角影像的场景的密集匹配，不借助于核线影像和视差值，而直接从原始多视影像出发，以一张中心影像和几张辅助影像，以及与影像对应的相机位姿参数作为输入，得到中心影像对应的深度图。MVSNet 组成部分包括特征检测模块、代价体构建模块、代价体规则化模块、回归模块、深度精化模块五个部分组成。在特征检测模块中，通过一个由八个卷积层构成的2D CNN模块提取输入的 N 张影像的深层特征表示，最终得到下采样四倍后的 N 个 32 通道的影像特征图。在代价体构建模块，利用相机参数将特征图构建为以深度为第三维的 3D 代价体。利用相机参数将特征图构建为以深度为第三维的 3D 代价体。所有特征图转换为在不同深度d处的一系列互相平行的平面Fi。第 i 张特征图到深度 d 处的平面的坐标映射转换关系由 33 的单应矩阵 Hi(d)表示：()=(1)1)1 1 每张特征图在不同深度d处得到一张平面特征，给定多个d值可得到多个特征图对应的特征体 Vi。对于N张不同视角的输入影像，以方差的形式计算相似性测度，计算代价体 C。即：=(1,)=1()2 代价体的计算过程遵循等权原则，即所有输入影像具有同等重要的地位。在代价体规则化模块中，通过一个 4 层的 3D U-Net 进行规则化。3D U-Net 结构引入了多尺度的卷积操作，通过编码器-解码器结构聚合不同尺度的空间方向上和深度搜索方向上的特征信息，进行代价聚合。在 3D 卷积的最后一层，输出为 1 通道的 3D 特征代价体。在深度回归模块中，沿着深度方向应用 softmax 函数将规则化后的代价体转换为概率体，概率体中的每个值表示对应像素点的深度为当前高深度图 Di 对应深度值的概率，以归一化的概率值作为权重，对搜索范围内的每个深度值 d 进行加权求和，得到连续的深度预测值。深度精化模块采用 4 个卷积层组成的残差结构，用于利用影像的特征信息，对得到的初始深度图进行边缘精化。训练 MVSNet 网络采用的 Loss 为中心影像对应的地面真实深度值与网络估计的深度值之间绝对差值的平均值。当地面真实深度图存在黑洞时，只考虑具有有效标签的像素点。MVSNet 将多视成像几何显式地编码进深度学习网络中，从而在几何约束条件的支持下，端到端的实现多视影像间的密集匹配任务，是现有通用的多视密集匹配方法的基础和核心架构。图 1 MVSNet 网络结构示意图 4.5.2.3 测评结果（1）数据集 LuojiaSET-多视三维数据集采用 LuojiaSET-多视三维数据集中的 WHU-MVS 数据集。WHU-MVS 是一个大规模合成航空影像多视密集匹配数据集。用于模型训练的数据有 45 组，测试集有 17 组，每组包括80对五视匹配数据样本，每一个样本包含五个相邻视角、彼此具有一定重叠度的影像，以及每张影像对应的相机参数文件和真实深度图。为了便于深度学习的训练与测试，样本的尺寸已经被统一裁剪为 768384 像素。影像数据的分辨率约为 10 cm。在训练和测试中，每张影像的深度采样数量固定为 200 个采样平面，训练视角数量固定为 3.（2）实现细节参与实验的深度学习框架有 PyTorch、Tensorflow 和 LuojiaNET，这三个框架上实现的 MVSNet 网络分别表示为 MVSNet(PyTorch)、MVSNet(Tensorflow)与 MVSNet(LuoJiaNET)。其中使用的 PyTorch 版本是 V1.1.0，使用的 Tensorflow 版本是 V1.13.1，使用的 LuojiaNET 版本是 V1.0.0。三个网络均在同一硬件上进行训练和测试，所有超参数和网络架构均保持一致。GPU 型号为 GeForce GTX 1080Ti(11G)、CPU 型号为 Intel(R)Core(TM)i9-7900X CPU 3.30GHz，使用的 CUDA 的版本是 V10.1。在训练阶段，采用的损失函数为 Smooth L1 损失，优化器选择为 RMSProp，学习率固定为 0.001，批次数设置为 1，训练共 30 个轮次，每个轮次有 3600 对样本，共计约 11万次迭代。在训练和推理阶段，所有超参数保持一致：参与匹配的影像视角数量固定为 N=3，每张影像的大小为 738384 像素，深度采样数量为 D=200，每张影像的最大和最小深度搜索范围采用该影像实际覆盖到的深度范围，MVSNet 网络输出深度图的分辨率是原始输入大小的 1/16，利用双线性上采样函数将结果采样为真实深度图大小，在同一个标准下进行精度评定。（3）评价指标在实验中，采用的定量指标如下：a.平均绝对误差（Mean Absolute Error，MAE）表示深度估计值与地面真实深度值间的绝对差值的平均值，为剔除极大粗差对距离测度的影响，仅对偏差在 100 个采样间隔范围内的误差求均值：1=1|()|(1)其中，yi为深度真值，而f(xi)为深度估计值，其中m为影像中有效像素的数量，x代表了影像上的像素。b.固定间隔精度占比（n）统计模型预测深度图与真实深度图之间的绝对差异小于采样间隔n的像素数量占所有像素点的百分比，计算方式如下：|()|=11=1(2)其中，为艾佛森括号，当括号内的条件满足时为 1，否则为 0.c.显存占用（Memory）记录了模型在训练或者推理过程中所需要占用的峰值显存。d.运行时间（Time）记录了模型在训练或者推理过程中处理一个样本所需要的时间。（4）实验结果表 13 精度结果对比 Methods MAE(m)0.1m(%)0.3m(%)0.6m(%)MVSNet(LuojiaNET)0.218 56.31 86.00 93.46 MVSNet(PyTorch)0.195 54.79 88.51 95.03 MVSNet(TensorFlow)0.182 59.63 91.53 95.67 从表 1 可知，在 LuojiaNET、PyTorch、Tensorflow 三个框架上构建的 MVSNet 模型，以 Tensorflow 的精度最高，在各个指标上相比其余二者均有明显优势。与 PyTorch 相比，使用 LuoJiaNET 构建的 MVSNet 网络仅在 0.1m(%)的精度上稍有优势。总体提升不明显。表 2 时间与显存占用对比 Methods Training Inference Memory(MiB)Time(s)Memory(MiB)Time(s)MVSNet(LuojiaNET)11173M 1.5s 10661M 0.63s MVSNet(PyTorch)5901M 0.57s 2629M 0.13s MVSNet(TensorFlow)9255M 0.78s 3115M 0.34s 从表 2 可以看出，使用 LuoJiaNET 进行训练时，内存占用和时间消耗均比 PyTorch 以及Tensorflow 高：其中显存占用比 PyTorch 高 1.9 倍，比 TensorFlow 高约 1.2 倍；时间消耗比 PyTorch 高 2.6 倍，比 TensorFlow 高约 1.9 倍。使用 LuoJiaNET 进行推理时，LuoJiaNET 的显存占用和时间消耗最高，PyTorch 的最低，其中时间消耗比 PyTorch 高约5 倍，比 TensorFlow 高约 1.9 倍。问题分析：在本模型的实验中，使用 LuojiaNET 构建的 MVSNet 模型在训练和推理的显存和时间占用上均表现较差，因此对 MVSNet 模型进行逐模块拆分分析问题所在。MVSNet 主要由特征检测模块、代价体构建模块、代价体聚合模块、回归模块、深度精化模块五个部分组成。其中前三个模块是网络的核心结构，我们单独统计了这三个子模块各自的峰值显存占用和时间消耗情况，如表 3 所示。表 3 推理阶段 3 个主要子模块峰值显存与时间占用情况模块 Modules 显存 Memory(MiB)时间 Times(s)*2D 特征提取模块 2467 M 0.014 s 代价体构建模块(with homo.Warping)10661 M 0.607 s 3D 代价体聚合模块 5539 M 0.086 s*运行时间是取 100 个样本的平均时间。与表 2 对比之后可以看出，MVSNet(LuojiaNET)的时间和显存峰值均出现在代价体构建模块。该模块主要用于多视特征几何对齐，给定一系列深度采样平面，该模块通过单应映射变换将一组相邻影像的 2D 特征图投影变换至中心影像视角下，并计算多个不同视角特征图间的方差作为代价值。其中涉及到矩阵相乘、矩阵相除、矩阵求逆、规则格网重采样等操作，目前在 LuojiaNET 里的模型实现这一过程采用的方式较 PyTorch 更加复杂，因此影响了模型的总体性能。该部分具有很大的提升空间，随着 LuojiaNET 对一些算子的支持更加全面，我们对一些函数和运算进行精简，该问题有望被很好地优化。（5）结果可视化中心影像真实深度图预测深度图预测深度图预测深度图(LuoJiaNet)(Pytorch)(Tensorflow)图 3.MVSNet 模型推理的深度图可视化结果。从上到下，分别是不同的样本，样本编号分别为 009_53/000008、009_56/001009、009_59/000005 与 009_59/001005。从左到右，分别是中心影像、深度图真值、MVS-Net(LuoJiaNET)模型的预测结果、MVS-Net(PyTorch)模型的预测结果和 MVS-Net(Tensorflow)模型的预测结果。4.5.2.4 总结在立体匹配与三维重建典型应用任务中，分别基于 LuoJiaNET、PyTorch、Tensorflow 框架复现了经典的多视密集匹配网络 MVSNet。在该模型上，LuoJiaNET 相比其余两者未表现出优势，甚至在显存和时间占用上明显更高。经分析主要是一些几何运算模块的实现复杂，降低了模型性能，随着 LuoJiaNET 对更多算子提供支持，该问题或许可以进一步被优化。4.6 知识嵌入 4.6.1 任务简介（1）专用框架中遥感解译知识图谱的构建方法，构建包含地理空间实体及关系的遥感解译知识图谱，建立遥感解译知识库；（2）研究专用框架下经验知识引导与知识规则推理的方法，建立专用框架下面向遥感智能解译任务的知识耦合模型。4.6.2 知识嵌入网络简介知识嵌入的遥感影像解译网络结构如图 1 所示。利用该网络对遥感影像进行解译时，首先基于遥感影像的地理坐标、成像时间等元数据信息，查询时空知识图谱，获取对应的坡度坡向数据，将其与遥感影像一同输入深度网络进行学习。输出预测结果后，一方面，将预测结果划分为一定数量的推理单元，调用时空知识图谱的解译常识，应用本体推理规则对预测结果进行修正。另一方面，再次查询时空知识图谱，获取对应的众源地理数据、定量遥感产品等先验知识，结合置信度规则将其用于预测结果的修正。经过上述时空知识图谱可信推理，即得到遥感影像最终的解译结果。图 1 知识嵌入的遥感影像解译网络 4.6.3 测评结果（1）语义分割数据集：France Urban Atlas 数据集 France Urban Atlas 数据集是一个自主构建的大规模高分辨率大幅面遥感影像语义分割数据集。数据集共包含法国范围内 321 幅幅面为 1000010000、分辨率为 0.5 米的遥感影像。如图 2 所示，训练集 1、验证集、测试集由一定区域以内的 201 幅影像按 6：2：2的比例不重叠地划分而成，训练集 2 由上述区域以外的 120 幅影像组成。语义标签采用开源的 Urban Atlas 数据，并将类别合并至 12 类。图 2 数据集在法国的地理分布（2）评价指标在实验中，采用的定量指标如下：a.交并比（IoU,Intersection over Union）统计单个类别对应真实值和预测值的交集和并集之比，计算方式如下：IoU= (1)其中，TP为预测正确的正类，FP 为预测错误的正类，FN 为预测错误的负类。b.均交并比（mIoU,mean Intersection over Union）统计所有类别交并比的平均值，计算方式如下：mIoU=1 1IoU=0(2)（3）实验结果影像对应的数字高程模型是一种自然先验知识，在将其应用于遥感影像解译时，通过对其进行计算，生成坡度、坡向，作为遥感影像的附加通道输入网络进行训练。在遥感影像解译模型中嵌入自然先验知识的实验条件设置见表 1，实验的定量结果见表 2。由表 2 可知，嵌入自然先验知识的实验(2)相比无知识嵌入的实验(1)在 mIoU 上提升约 3%。表 1 时空先验知识嵌入实验条件设置知识类型条件内容(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)自然先验知识 DEM 坡度、坡向专家先验知识规则1.1 与建筑、工矿用地、城市绿地相邻长度占邻接边总长度一半以上的森林修正为城市绿地规则1.2 与工矿用地相邻的裸地修正为工矿用地规则1.3 将被建筑、基础设施、工矿用地包围的水体修正为相应类别规则1.4 将被水体包围的裸地修正为水体场景先验知识规则2.1 将 OSM 数据中属于工矿用地的像素修改为工矿用地规则2.2 将 OSM 数据中属于工业用地、商业用地、零售用地的像素修改为基础设施规则2.3 将 OSM 数据中属于道路的像素修改为基础设施规则2.4 将 OSM 数据中属于交通设施的像素修改为基础设施规则2.5 将 OSM 数据中属于水体的湿地、园地修改为水体表 2 时空先验知识嵌入实验定量结果 (1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)建筑 0.6871 0.7057 0.7057 0.7057 0.7057 0.7057 0.7057 0.7067 0.7072 0.7073 0.7073 基础设施 0.5300 0.5524 0.5524 0.5524 0.5527 0.5527 0.5520 0.5795 0.5902 0.6030 0.6030 工矿用地 0.2354 0.2538 0.2538 0.2712 0.2713 0.2713 0.2854 0.2971 0.2956 0.2980 0.2980 城市绿地 0.2444 0.3024 0.3197 0.3197 0.3197 0.3197 0.3198 0.3204 0.3205 0.3195 0.3195 耕地 0.5058 0.5211 0.5211 0.5211 0.5211 0.5211 0.5207 0.5218 0.5215 0.5228 0.5228 园地 0.3704 0.3831 0.3831 0.3831 0.3831 0.3831 0.3831 0.3823 0.3825 0.3825 0.3826 牧场 0.3991 0.4287 0.4287 0.4287 0.4287 0.4287 0.4285 0.4291 0.4291 0.4318 0.4318 森林 0.7716 0.7683 0.7702 0.7702 0.7702 0.7702 0.7702 0.7757 0.7758 0.7758 0.7758 灌木 0.5015 0.3136 0.3136 0.3136 0.3136 0.3136 0.3137 0.3138 0.3139 0.3139 0.3139 裸地 0.1930 0.2962 0.2962 0.3033 0.3033 0.3036 0.3036 0.3039 0.3039 0.3040 0.3040 湿地 0.5447 0.7486 0.7486 0.7486 0.7486 0.7486 0.7486 0.7486 0.7492 0.7492 0.7607 水体 0.7135 0.7955 0.7955 0.7955 0.7961 0.7965 0.7941 0.7948 0.7953 0.7955 0.7971 mIoU 0.4747 0.5058 0.5074 0.5094 0.5095 0.5096 0.5105 0.5145 0.5154 0.5169 0.5180 专家先验知识的知识图谱实现如图 3 所示。对网络预测结果进行连通域划分，形成推理单元；生成推理单元的面积向量、类别向量，计算出推理单元之间的邻接矩阵、邻接边长矩阵；根据以上结果，计算出推理单元满足的条件；将每个推理单元的类别及其满足的条件输入知识图谱进行知识推理，生成知识推理结果。在遥感影像解译模型中嵌入专家先验知识的实验条件设置见表 1，实验的定量结果见表2。观察实验结果发现，嵌入了4种专家先验知识的实验结果(6)相比实验(2)提高了约0.4%。图 3 常识解译规则的知识图谱实现在遥感影像解译模型中嵌入场景先验知识的实验条件设置见表 1，实验的定量结果见表2。由于 OSM 数据中工矿用地的分布较为准确，工业用地、商业用地、零售用地等类别部分弥补了深度网络难以把握基础设施整体性的问题，规则 2.1、2.2 带来了一定的精度提升。观察实验结果发现，应用 4 种专家先验知识及 5 种场景先验知识的实验(11)相比作为基准的实验(1)在 mIoU 上提高了 4.33%。由统计结果总结出裸地的叶面积指数分布较为集中，是一种明显的场景先验知识，可以用于区分裸地和其他类别。使用叶面积指数取值作为限制条件，将叶面积指数高于 9 的裸地像素的类别修改为网络预测概率第二高的类别，应用这一场景先验知识进行修正。实验结果的 mIoU 有所上升，达到了 0.5269，主要是由于灌木、裸地两个类别的分类精度提升较为明显。深度学习结果、深度学习自然先验结果、深度学习自然先验专家先验结果、深度学习自然先验专家先验场景先验结果的定性对比如图 4 所示。第一行示例中，工矿用地内的裸地被修正为工矿用地，城市内的森林被修正为城市绿地；第二行示例中，引入坡度坡向可以防止将坡度相对较大的类别识别为水体，大量在深度学习结果中被误分类为水体的单元被纠正，利用专家先验知识修正后城市内的森林被修正为城市绿地。第三行示例表明，场景先验知识的规则 2.3 实现了对断续道路的修正。图 4 时空先验知识嵌入实验定性结果 4.6.4 总结在所构建的法国区域大幅面高分遥感影像数据集上进行的对比实验结果表明，本方法通过嵌入自然先验、专家先验、场景先验等多种类型的经验知识，在 mIoU 这一定量指标上相比无知识嵌入的深度网络模型提升了 4%以上。5.LuoJiaNET 的典型行业应用 5.1 上海数慧自然资源大脑解决方案上海数慧构建了自然资源大脑，提供了“一张网-一张图-一大脑”的解决方案。其中“一大脑”的空间智能识别采用了 LuoJiaNET“全栈”解决方案，硬件平台以华为昇腾 910 服务器为基础，软件平台采用 LuoJiaNET 构建了地物分类的识别系统。图 5.1 上海数慧“自然资源大脑”解决方案 5.2 武汉汉达瑞遥感影像智能化处理平台汉达瑞科技有限公司以 LuoJiaSET 与 LuoJiaNET 作为基础底座，结合昇腾AI 硬件，研发了遥感人工智能解译平台，包含样本制作与管理、模型训练与要素自动提取等功能。可支持全要素遥感解译，道路、房屋、水系、林地、云雪专题信息提取，同时提供全要素自动变化检测与建筑物变化检测功能，以云平台人机交互方式实现多要素的协同处理。图 5.2 武汉汉达瑞科技有限公司遥感人工智能平台 5.3 航天宏图城市土地变化检测平台航天宏图公司以国产 AI 芯片、遥感影像样本库 LuoJiaSET 和遥感深度学习框架 LuoJiaNET，构建了智能变化检测平台，可处理海量军用、民用、商用遥感数据与变化检测样本，同时采用国产 AI 芯片提升遥感影像处理速度。图 5.3 航天宏图基于 LuoJiaNET 的土地利用变化监测平台 5.4 珈和科技地事通智慧农业 SaaS 服务平台武汉珈和科技公司以 LuoJiaNET 作为遥感时空大数据 SaaS 平台基础软件，结合昇腾 AI 软硬件，研发了地事通 SaaS 服务平台，包含农田非粮化监测、农情病虫害监测、智慧农田服务、种植险监测等应用，解决行业在农业监测方面的痛点问题。图 5.4 珈和科技地事通农业遥感 SaaS 平台 6.进一步发展与展望截止目前，境内外已有超 30 余家媒体专题报道 LuoJiaSET 与 LuoJiaNET 形成的初步成果，在公测的一个月时间内，已有超 3000 人次的下载量，多家大型公司将 LuoJiaSET 与 LuoJiaNET 作为遥感人工智能基础软件平台。6.1 LuoJiaSET 发展及展望在线标注工具的实用化完善发挥联盟的作用，快速扩充样本集,2022 年达到 1000 万样本的规模建立全球网格下的样本组织和管理，OPEN-GLOBAL_LANDCOVER_MAPPING?开发可进化的样本库的开源工具集样本的精化-自动的样本提纯、修正系统样本的转换-自动的样本转换（实现传感器成像特性、地理环境、物候等特性的遥感图像转换与模拟）样本的生成-自动的跨模态样本生成与仿真系统（例如：语言描述-遥感样本的生成系统）6.2 LuoJiaNET 发展及展望针对（大规模）点云数据的深度学习优化框架，算子补齐，例如：体素处理、稀疏卷积、超点分割.高维数据（高光谱、多通道）处理进一步优化，目前的通道优选方法优点单薄时序数据与雷达数据处理？大幅面影像的图神经网络处理优化知识嵌入方法建立 OGC 的模型标准。目前 NASA、ESA 已在参与讨论交换标准，但仍未立项构建更大范围的智能遥感开源社区，促进遥感产业长远发展 7.致谢本白皮书制作过程中，在中国科学院院士龚健雅教授、武汉大学胡翔云教授指导下，由武汉大学张觅副研究员（LuoJiaNET 技术负责人）执笔统筹，得到了武汉大学姜良存副研究员（LuoJiaSET 技术负责人）、测绘遥感信息工程国家重点实验室孙开敏教授（场景分类）、眭海刚教授（变化检测）、王密教授、钟燕飞教授、潘俊教授的支持，武汉大学遥感信息工程学院黄昕教授、李家艺副教授（地物分类）、王心宇副研究员（高光谱地物分类）、季顺平教授（多视三维）、李彦胜副教授（知识嵌入）的支持，武汉大学计算机学院夏桂松教授、刘菊华副教授（目标检测）、袁梦霆教授（遥感 IR）的支持。同时得到 LuoJiaNET 框架团队博士研究生张展、杨炳楠、赵元昕、腾昊天，硕士研究生周桓、王斌、谭静懿，本科生刘青瑀、杨青林、佘可、刘思琪、杨元钊，科研助理李大宇的支持；LuoJiaNET 应用模型验证得到博士生李王斌、赵恒伟、涂理林、张震、杜卓童、史玮玥、刘瑾、陈蔚，硕士生宣文杰、贺海斌、段坤仁、潘洋、李静涛、吴敏郎、钟振宇、周宁、高建，本科生王宇的支持；LuoJiaSET样本库团队乐鹏教授、博士生许越、曹志鹏、刘帅旗等的支持。武汉理工大学熊盛武教授、硕士生周云飞、党伟冲、李锐在众智算子方面的支持；华为昇腾 AI 团队田昆阳、丁来平、张国稳、苏腾、杨振章、张晓达、梁成辉、江振光、刘军主、张丰伟、李咏、曹建、范翱翔等在双方共享知识产权、联合申报专利方面的支持。武汉人工智能计算中心王景俊、董长杰、邓凯、杨佳妮、段欣宇在华为云平台接口上的支持。衷心感谢上述机构和人员在白皮书制作方面的鼎力支持！

0人已浏览 2023-11-06 193页 5星级
沙利文：2023年全球智能手持影像设备市场发展白皮书（87页）.pdf
20232023年年全球全球智能手持智能手持影像影像设备市场发展白皮书设备市场发展白皮书20232023年年1010月月报告提供的任何内容（包括但不限于数据、文字、图表、图像等）均系沙利文独有的高度机密性文件（在报告中另行标明出处者除外）。未经沙利文事先书面许可，任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容，若有违反上述约定的行为发生，沙利文保留采取法律措施、追究相关人员责任的权利。沙利文开展的所有商业活动均使用“沙利文”的商号、商标，沙利文无任何前述名称之外的其他分支机构，也未授权或聘用其他任何第三方代表沙利文开展商业活动。白皮书摘要白皮书摘要在GoPro、影石Insta360等品牌营销的带动下，消费级手持智能影像设备市场近年市场规模持续增长。至2022年，全球手持智能影像设备市场规模由2017年的164.3亿元增长到2022年307.5亿元，复合年增长率（CAGR）高达13.4%。手持智能影像设备市场崛起手持智能影像设备市场崛起关键词：关键词：持续持续、增长增长、品牌品牌营销营销弗若斯特沙利文（北京）咨询有限公司谨此发布全球智能手持影像设备市场发展白皮书。本报告旨在分析全球手持智能影像设备行业的发展现状、行业特点、驱动因素及未来发展趋势。本报告从手持式智能影像设备产业链出发，具体分析了当下全球市场结构特点和各品牌玩家竞争格局，并通过总结行业特点和各端产品销售数据预测未来行业走势和发展趋势。本报告所有图、表、文字中的数据均源自弗若斯特沙利文（北京）咨询有限公司和部分行业内部企业提供，数据均采用四舍五入。2对于全球区域细分市场来说，手持智能影像设备在北美市场的销售份额占比最大。其次，欧洲市场在整个全景相机市场中占比排名第二。中国市场相较于其他市场仍比较小，但存在较高增长率。欧美市场目前占主要欧美市场目前占主要销售份额销售份额关键词：关键词：欧美欧美、市场份额市场份额、增长增长个人运动爱好者的持续增长和下游企业应用的逐渐多样化发展都将给手持智能影像设备市场带来新的增量。当前手持智能影像设备主要分为消费级产品和专业级产品两类，消费级产品服务于运动爱好者人群户外拍摄需求，专业级产品则聚焦于行业运用。下游客户增量将推动行业增长下游客户增量将推动行业增长关键词：下游客户关键词：下游客户、专业级专业级、消费级消费级、带动带动全景拍摄可以实现记录环境影像的同时拍摄玩家自身运动状态的功能，目前市场上智能影像设备玩家更青睐于选择带全景功能的运动相机。注重客户体验的专家级运动相机产品，增加全景拍摄功能，以提升自身附加价值和拓宽产品受众，这将是未来的必然趋势。运动相机产品存在全景化趋势运动相机产品存在全景化趋势关键词：消费端关键词：消费端、市场选择市场选择、全景化全景化3Summary and OutlookSummary and OutlookTypically,portable smart imaging devices consistof two main categories:immersive cameras andaction cameras,and immersive cameras can befurtherclassifiedintoconsumer-gradeandprofessional-grade products.Currently,the marketsize of handheld smart imaging devices reachedapproximately RMB30.8 billion at a CAGR of13.4tween 2017 and 2022.In 2026,the totalmarket is expected to reach RMB52.3 billion at astunning growth rate in terms of increasingdemand released from the consumer side.The global portable smart imaging device industrychain involves three types of player groups.Theupstream players are raw material suppliers,midstream players are device manufacturers,andthedownstreamconsistofconsumersandbusinessclients.Specifically,themainrawmaterial suppliers are optical lens manufacturers,CMOS image sensor manufacturers,and DSP chipmanufacturers.As for the device manufacturers,the main players are GoPro,Insta360,AKASO,DJI,and other enterprises.From the downstreamperspective,individual consumers are mainly thesports community,while corporate customers arefrom the intelligent building industry,film andentertainmentindustry,intelligentsecurityindustry,and ARVR industry.At present,Insta360 is leading the immersivecamera market in terms of retail sales revenueworldwide,reaching approximately RMB2.0 billionin 2022,taking 50.7%of the market share.As forthe global action camera market,GoPro is thelargest enterprise without any doubt,contributingto approximately annual revenue of RMB7.6billion.全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/104名词解释名词解释CMOSCMOS图像传感器：图像传感器：CMOS图像传感器通常由像敏单元阵列、行驱动器、列驱动器、时序控制逻辑、AD转换器、数据总线输出接口、控制接口等部分组成，这些部分通常都被集成在同一块硅片上。其工作过程一般可分为复位、光电转换、积分、读出几个步骤。DSPDSP芯片：芯片：DSP（Digital Signal Processing）即数字信号处理技术，DSP芯片即指能够实现数字信号处理技术的芯片。光圈：光圈：用来控制镜头孔径大小的部件，以控制景深、镜头成像质素、以及和快门协同控制进光量。分辨率：分辨率：是反映光学系统能分辨物体细节的能力，是决定光学系统成像质量的最重要指标之一。VRVR全景：全景：VR全景是一种新型的视觉展示技术，通过拍摄构建一个三维的模拟环境，让浏览者通过网络即可获得三维立体的空间体验。镜头模组：镜头模组：全称Camera Compact Module，以下简写为CCM，是影像捕捉至关重要的电子器件。摄像头模组（CCM）包括四大件：镜头（Lens）、传感器（Sensor）、软板（FPC）、图像处理芯片（DSP）。决定一个摄像头好坏的重要部件是：镜头（Lens）、图画处理芯片（DSP）、传感器（Sensor）。软板：软板：FPC柔性电路板(柔性PCB)：简称“软板”，又称“柔性线路板”，连接芯片和机器，起到电信号传输作用。图像拼接：图像拼接：是一种利用实景图像组成全景空间的技术，它将多幅图像拼接成一幅大尺度图像或360度全景图，图像拼接技术涉及到计算机视觉、计算机图形学、数字图像处置和一些数学工具等技术。光学镜头：光学镜头：光学镜头是机器视觉系统中必不可少的部件，直接影响成像质量的优劣，影响算法的实现和效果。第一章第一章手持智能影像设备概览手持智能影像设备概览核心洞察：核心洞察：0101手持智能影像设备的定义及主流产品分类手持智能影像设备的定义及主流产品分类0202商业空间概览商业空间概览0303行业政策概览行业政策概览手持智能影像设备的定义及手持智能影像设备的定义及主流产品分类主流产品分类全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备的定义及主流产品分类手持智能影像设备的定义及主流产品分类7来源：沙利文研究手持智能影像设备定义手持智能影像设备定义手持智能影像设备是指具备计算处理能力且可手持使用的影像设备，由传统影像设备演变而来，是传统影像设备与计算机技术、数据处理技术、传感器技术、网络通信技术、电力电子技术等结合的产物，主要包括全景相机、运动相机等拍摄设备。影像设备分类示意图影像设备分类示意图消费级手持智能影像设备消费级手持智能影像设备消费级手持智能影像设备，主要是指面向个人客户的手持智能影像设备，主要产品包括消费级全景相机、运动相机等。专业级手持智能影像设备专业级手持智能影像设备区分于消费级设备，专业级手持智能影像设备主要面向企业客户，应用于各类生产活动之中。这类产品具备更强的功能性和针对性。影像设备传统影像设备智能影像设备手持智能影像设备非手持智能影像设备智能影像设备平台消费级手持智能影像设备专业级手持智能影像设备无人航拍机摄影云台运动相机消费级全景相机专业级全景相机定定义义全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备的定义及主流产品分类手持智能影像设备的定义及主流产品分类8来源：沙利文研究手持智能影像设备的分类手持智能影像设备的分类运动相机运动相机运动相机是指一种可以用于记录运动过程的相机，其可固定在自拍杆或身体某部位、头盔、滑板、自行车把手上的便捷特性可用于满足拍摄第一人称视角运动场景的需求。运动相机相比于传统相机拍摄视角更广，且对于抗震、防水、防尘、耐热、耐摔等性能的要求更高。专业运动相机专业运动相机专业运动相机通常是指采取高算力DSP芯片，适用于极限运动、野外拍摄等防护要求较高拍摄场景的高端消费产品。对比于入门运动相机产品，专业级设备对于影像捕捉更加准确，拍摄分辨率更高，其余各项基础性能也都有所加强。专业级运动相机设备零售价通常在入门级设备的3-5倍水平，服务于消费能力更强的玩家群体。入门入门运动相机运动相机适用于普通人群外出拍摄需求，对恶劣拍摄环境的防护性要求有所降低，产品更多地追求性价比和多样性。目前，市场主流入门级产品零售价均在1000元以内，整体出货量占比较高。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备的定义及主流产品分类手持智能影像设备的定义及主流产品分类9来源：沙利文研究消费级全景相机消费级全景相机消费级全景相机360影像功能的实现依赖于两个高精度鱼眼镜头同时交互拍摄，并需要通过图像拼接技术，生成全景图像。除特殊的全景拍摄功能以外，消费级全景相机还具备方便携带、操作简单等优点，通常被用于人们的日常出行旅游记录、极限运动拍摄、创意视角拍摄等领域。从产品类型看，消费级全景相机包括立体独立全景相机、模块化相机和单眼独立相机三类。消费级全景相机模块化相机立体独立全景相机单眼独立相机消费级全景相机分类示意图消费级全景相机分类示意图全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备的定义及主流产品分类手持智能影像设备的定义及主流产品分类10来源：沙利文研究立体独立全景相机立体独立全景相机立体独立全景相机（Stereo Standalone）包括多个并排排列的高性能光学电子传感器，允许捕获复杂的三维图像或动态影像，消费级产品通常可支持4K或以上分辨率。行业发展之初，大多数立体独立全景相机设备都只面向企业应用，但近年来随着个人消费者对于全景相机单品消费能力的逐渐增强，市场上出现了更多的面向中端市场玩家的立体独立全景相机产品。立体独立全景相机除摄影外还搭载有录音功能，强调立体光学图像的清晰度和沉浸感。通常，立体摄像机在机体前部有两个光学电子传感器，而立体独立全景相机至少具有两对光学电子传感器，后者对于画面分辨率和自动处理能力要求更高。高性能高性能消费级全景相机消费级全景相机模块化相机模块化相机单眼独立相机单眼独立相机立体独立全景相机立体独立全景相机录音录音沉浸感沉浸感全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备的定义及主流产品分类手持智能影像设备的定义及主流产品分类11来源：沙利文研究模块化相机（Modular）虽通常被认为是手机配件的一种，但事实上是与智能手机配对并通过数据/电源端口连接的独立智能影像设备。模块化相机由两个鱼眼摄像头组成，通过移动应用程序控制形成360度球体拍摄视角。模块化相机相对简单的设计、可靠的功能和相对亲民的价格使它们主要面向休闲消费市主要面向休闲消费市场场。由于操作受限于手机平台，以及随着客户对智能影像设备机体性能要求的不断提高，市场逐渐呈现出模块化相机被更先进的独立设被更先进的独立设计单品取代的趋势。计单品取代的趋势。模块化相机模块化相机休闲休闲手机联动手机联动简单设计简单设计消费级全景相机消费级全景相机模块化相机模块化相机单眼独立相机单眼独立相机立体独立全景相机立体独立全景相机全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备的定义及主流产品分类手持智能影像设备的定义及主流产品分类12来源：沙利文研究与立体独立全景相机一样，单眼独立相机（Mono Standalone）包括多个光学电子传感器，但并不提供立体拍摄功能。得益于更加亲民的价格和较高的可玩性，单眼独立相机产品对新入消费者具有相当不错的吸引力。目前，单眼独立相机市场占比已经超过模块化相机成为市场占比最多的全景相机单品。根据调查，部分电影行业专业摄影师在录制正式作品前会使用单眼独立相机来进行现场指导和测试镜头，这足以证明单眼独立相机产品广受市场认可。在移动应用程序等技术的辅助下，立体独立全景相机用户可以在没有计算机的情况下查看、编辑和发布视频。另一方面，有些品牌商还向用户提供配套视频编辑软件，用于更复杂的编辑工作。单眼独立相机单眼独立相机高占比高占比软件辅助软件辅助价格亲民价格亲民消费级全景相机消费级全景相机模块化相机模块化相机单眼独立相机单眼独立相机立体独立全景相机立体独立全景相机全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备的定义及主流产品分类手持智能影像设备的定义及主流产品分类13来源：沙利文研究专业级全景相机专业级全景相机专业级全景相机一般配有四个或更多光学电子传感器，以便于在取景拍摄的同时自动生成高分辨率的全景图片。产品优产品优点为更高的分辨率和自动化程度点为更高的分辨率和自动化程度。但专业级全景相机较为笨重，且价格昂贵，目前主要应用于企业客户大型发布会、演唱会、赛事、演讲等现场的直播或录制等场景。从产品类型看，专业级全景相机包括电影全景摄像机和多维立体摄影机两类。专业级全景相机电影全景摄像机多维立体摄影机专业级全景相机分类示意图专业级全景相机分类示意图全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备的定义及主流产品分类手持智能影像设备的定义及主流产品分类14来源：沙利文研究在全景相机发展早期，电影全景摄像机（Cinematic Arrays）通常由两个或多个标准数码相机或具有广角镜头的运动相机组成，用于捕获球面180度或360度场景。这种设备经常被GoPro等公司与运动相机一起出售。通常，这些设备针对企业市场，提供处理或视频拼接能力相对有限，需要用户自己传输和整理所有捕获的素材并拼接以创建球形360度场景。由于其专业定位，该类别产品拍摄可达到目前市面产品最高质量的全景图像（ 11K分辨率）。电影全景摄像机电影全景摄像机多摄像头多摄像头 11K11K分辨率分辨率全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备的定义及主流产品分类手持智能影像设备的定义及主流产品分类15来源：沙利文研究以光场投影和LiDAR/飞行时间传感器为主要基础技术的多维立体摄影机（Volumetric）拥有多达六个运动镜头（6DoF），能满足一切高技术要求的3D拍摄任务。与报告中所提及的其他品类全景相机不同，多维立体摄影机允许用户自由调整镜头角度，并获得最大限度的沉浸式全景图像。多维立体摄影机多维立体摄影机3D3D拍摄拍摄极高自由度极高自由度商业空间概览商业空间概览全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10商业空间概览商业空间概览17来源：沙利文研究手持智能影像设备的崛起手持智能影像设备的崛起虽然虽然本世纪传统相机行业受到了手机载体摄影崛起的冲击，但影像设备，尤其是智能影像设备仍在许多领域保持着不可替代性。其受益于大体积CMOS和广角镜头拍摄能力，智能影像设备在成像精度和质感都远胜手机镜头。因此，智能影像设备的定位逐渐从日常拍摄记录工具转变为工业领域特化高精影像设备（专业级智能影像设备）或专注于提升人们生活摄影体验、满足特殊人群摄影需求的高级消费品（消费级智能影像设备）两种。在GoPro、Insta360等品牌营销的带动下，消费级手持智能影像设备市场近年市场规模持续增长。至2022年，全球手持智能影像设备市场规模由2017年的164.3亿元增长到2022年307.5亿元，复合年增长率（CAGR）高达13.4%。如今，消费级手持智能影像设备已初步铺开市场，预期行业将进入高速增长期。164.3176.2210.5182.2273.8307.5369.4420.9472.4522.92017 2018 2019 2020 2021 2022 2023E2024E2025E2026E20222022-2026E2026ECAGRCAGR13.4.2%全球手持智能影像设备零售市场规模全球手持智能影像设备零售市场规模亿元,2017-2026E2020年受疫情影响需求有所下滑。近两年积压的需求快速释放，回归增长态势全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10商业空间概览商业空间概览18来源：沙利文研究手持智能影像设备全球出货量手持智能影像设备全球出货量2022年，全球手持智能影像设备出货量达3762.8万台，从2017年的1498.7万台以来复合增长率达20.2%。2020年，虽然手持智能影像设备出货量，受到疫情限制出行等因素影响有所下降，但积压的消费需求于近两年释放，行业快速回归增长态势。1,498.71,700.02,267.51,914.13,338.83,762.84,542.35,193.25,844.86,494.220020202120222023E2024E2025E2026E20222022-2026E2026ECAGRCAGR20.2.6%全球手持智能影像设备出货量规模全球手持智能影像设备出货量规模万台,2017-2026E全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10商业空间概览商业空间概览19 全景相机全球细分市场全景相机全球细分市场对于对于全球区域细分市场来说，全景相机在北美市场的销售份额占比最大。其次为欧洲市场，在整个全景相机市场中占比排名第二。中国市场相较于其他市场仍比较小，市场占比约为19%左右，但保持较为乐观的增长率。CAGRCAGR20222022-2026E2026E整体整体10.5.2%北美市场北美市场5.7%5.8%欧洲市场欧洲市场5.4%5.3%亚洲市场（除亚洲市场（除去中国）去中国）19.9.1%中国市场中国市场21.2 .2%全球市场全景相机区域细分零售市场规模全球市场全景相机区域细分零售市场规模亿元,2017-2026E20020202120222023E2024E2025E2026E25.127.029.132.036.141.348.853.258.863.1北美市场欧洲市场亚洲市场（除去中国）中国市场其他市场全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10商业空间概览商业空间概览20来源：沙利文研究全景全景相机全球出货量相机全球出货量从出货量来看，2022年全球全景相机出货量接近151万台，2017年以来，年复合增长率达11.3%。根据比较，欧美为全景相机的主要消费市场，出货量占整体一半以上。20020202120222023E2024E2025E2026E88.295.9103.1113.2129.8150.6172.2195.4216.0232.6北美市场欧洲市场亚洲市场（除去中国）中国市场其他市场CAGRCAGR20222022-2026E2026E整体整体11.3.5%北美市场北美市场5.7%5.7%欧洲市场欧洲市场5.6%5.2%亚洲市场（除去中国）亚洲市场（除去中国）20.0.1%中国市场中国市场21.8.7%全球市场全景相机出货量规模全球市场全景相机出货量规模万台,2017-2026E全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10商业空间概览商业空间概览21来源：沙利文研究运动相机全球细分市场运动相机全球细分市场全球全球运动相机市场中，北美市场仍是主要市场，占据总市场一半的份额，其次为欧洲市场。原因可归结于不同地区的运动文化及生活方式的差异。预测到2026年北美市场规模可达到186.5亿元，欧洲市场可达到137.0亿元，中国市场可以达到40.3亿元。20020202120222023E2024E2025E2026E139.3149.3181.4150.2237.7266.1320.6367.7413.6460.0北美市场欧洲市场亚洲市场（除去中国）中国市场其他市场CAGRCAGR20222022-2026E2026E整体整体13.8.7%北美市场北美市场8.9.8%欧洲市场欧洲市场10.6.2%亚洲市场（除去亚洲市场（除去中国）中国）50.0&.1%中国市场中国市场41.6&.1%全球运动相机市场区域细分零售市场规模全球运动相机市场区域细分零售市场规模亿元,2017-2026E全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10商业空间概览商业空间概览22来源：沙利文研究运动运动相机全球出货量相机全球出货量从出货量来看，2022年全球运动相机出货量为3602.0万台，2017年以来，年复合增长率达20.6%。其中，北美地区2022年出货量达1590.9万台，欧洲出货量达1195.4万台。20020202120222023E2024E2025E2026E1,410.51,604.12,164.41,800.73,209.03,602.04,370.24,997.85,628.96,261.6北美市场欧洲市场亚洲市场（除去中国）中国市场其他市场CAGRCAGR20222022-2026E2026E整体整体20.6.8%北美市场北美市场15.3.8%欧洲市场欧洲市场17.1.2%亚洲市场（除去中国）亚洲市场（除去中国）54.2&.1%中国市场中国市场45.6&.1%全球运动相机出货量规模全球运动相机出货量规模万台,2017-2026E全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10商业空间概览商业空间概览23来源：沙利文研究全景相机全景相机20222022全球细分零售市场全球细分零售市场，按金额计按金额计运动运动相机相机20222022全球细分市场全球细分市场，按金额计按金额计北美市场：13.3亿元亚洲市场（除去中国）：9.2亿元中国市场：7.9亿元欧洲市场：10.4亿元北美市场：119.3亿元欧洲市场：89.7亿元亚洲市场（除去中国）：31.9亿元中国市场：16.0亿元行业相关政策分析行业相关政策分析全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10行业相关政策分析行业相关政策分析25来源：沙利文研究发布时间发布时间发布单位发布单位政策名称政策名称关键内容关键内容2022美国总统令关于推进有效、负责任的警务和刑事司法实践以增强公众信任和公共安全的行政命令执法机构在执法时被逐步要求佩戴影像设备来增加执法透明度。传统固定视角的相机只记录了执法人员的视角，而全景相机包括了多个执法机构影像设备采集的片段，能更好的记录、还原事件的完整场景，提供更客观完整的证据2019中国国家发改委、生态环境部、商务部推动重点消费品更新升级畅通资源循环利用实施方案（2019-2020 年）聚焦汽车、家电、消费电子产品领域，进一步巩固产业升级势头，增强市场消费活力，提升消费支撑能力，畅通资源循环利用，促进形成强大国内市场，实现产业高质量发展2019中国国家发展改革委员会产业结构调整指导目录（2019年本）鼓励类：音视频编解码设备、音视频广播发射设备、数字电视演播室设备、数字电视系统设备、数字电视广播单频网设备、数字电视接收设备、数字摄录机、数字录放机、数字电视产品2018中国工信部关于加快推进虚拟现实产业发展的指导意见提出在内容采集制作设备方面，加快动作捕捉、全景相机、浸入式声场采集设备、三维扫描仪等内容采集制作设备的研发和产业化，满足电影、电视、网络媒体、自媒体等不同应用层级内容制作需求2018中国工信部、国家发改委扩大和升级信息消费三年行动计划（2018-2020年）提升消费电子产品供给创新水平，利用物联网、大数据、云计算、人工智能等技术推动电子产品智能化升级，提升手机、计算机、彩色电视机、音箱等各类终端产品的中高端供给体系质量，推进智能可穿戴设备、虚拟/增强现实、超高清终端设备、消费类无人机等产品的研发及产业化，加快超高清视频在社会各行业应用普及2017中国国务院关于进一步扩大和升级信息消费持续释放内需潜力的指导意见要进一步扩大和升级信息消费、持续释放发展活力和内需潜力。工作的重点领域之一为新型信息产品消费。升级智能化、高端化、融合化信息产品，重点发展面向消费升级的中高端移动通信终端、可穿戴设备、数字家庭产品等新型信息产品，以及虚拟现实、增强现实、智能网联汽车、智能服务机器人等前沿信息产品全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10发布时间发布时间发布单位发布单位政策名称政策名称关键内容关键内容2017中国文化部文化部“十三五”时期文化产业发展规划围绕文化产业发展重大需求，运用数字、互联网、移动互联网、新材料、人工智能、虚拟现实、增强现实等技术，提升文化科技自主创新能力和技术研发水平2017美国 Chula Vista警察局加州Chula Vista警察局关于使用手持影像设备的规定Chula Vista警察局允许其成员在执行任务时使用手持影像设备。此举措是为了更精准的记录执法过程中警院与公众的接触是否正确合法。2016中国国家发展和改革委员会“十三五”国家科技创新规划突破虚实融合渲染、真三维呈现、实时定位注册、适人性虚拟现实技术等一批关键技术2015美国司法援助局穿戴式相机试点实施计划美国司法援助局给42个州的州、地方警察局拨款超过2250万美金，用于警察安装穿戴式相机2015加拿大隐私事务办公室对于使用穿戴式相机的指导穿戴式相机可用于捕捉高清晰度的影像以及语音。这些影像和录音可用于个人身份识别。总体来说，穿戴式相机项目是为了记录执法过程，保存证据，避免执法人员暴力执法。行业相关政策分析行业相关政策分析26来源：沙利文研究第二章第二章手持智能影像设备产业链分析手持智能影像设备产业链分析核心洞察：核心洞察：0101产业链玩家种类介绍产业链玩家种类介绍0202产业链上游玩家介绍产业链上游玩家介绍0303产业链中游玩家介绍产业链中游玩家介绍0404产业链下游客户介绍产业链下游客户介绍产业链玩家种类介绍产业链玩家种类介绍全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10中中游游下下游游产业中游玩家主要为设备品牌商，负责品牌运营、产品研发、产品销售、品牌运营、产品研发、产品销售、产品设计、产品组装产品设计、产品组装等方面业务。个人消费者个人消费者：手持智能影像设备主要对标户外运动人群，致力于为人们带来更加稳定和多样化的拍摄体验。智能影像设备品牌商智能影像设备品牌商全景相机市场全景相机市场智能建筑智能建筑DSPDSP芯片芯片：组装工厂：组装工厂：除少数高端机体由品牌商旗下工厂生产外，手持智能影像设备的组装生产工作多由深圳、东莞等地电子产品工厂代工完成。光学镜头光学镜头：上上游游产业链玩家种类介绍产业链玩家种类介绍29来源：沙利文研究手持智能影像设备市场产业链手持智能影像设备市场产业链行业上游材料供应商集中海外行业上游材料供应商集中海外，芯片芯片、镜头模组等核心部件供给以镜头模组等核心部件供给以全球技术领先企业为主全球技术领先企业为主从产业链角度看，手持智能影像设备产业链上游包括芯片、镜头模组、结构件、连接器、包材和电池；产业链中游为各大智能影像设备品牌商；下游则包括个人客户和企业客户。CMOSCMOS感光模组感光模组：代工厂代工厂核心组件供应商核心组件供应商运动运动相机市场相机市场个人客户个人客户企业客户企业客户影视媒体影视媒体AR/VRAR/VR智能安防智能安防手持智能影像设备的核心零部件为CMOS图像传感器、DSP处理芯片和光学镜头，其中仅有光学镜头实现了完全的国产化替代，其余供给来源集中于欧美、日本和韩国等国。行业中游玩家多为国内新兴科技品牌行业中游玩家多为国内新兴科技品牌，接力棒由欧美接力棒由欧美、日本企业转日本企业转交到了国产企业手上交到了国产企业手上受益于近年中国消费电子产品技术的追赶，手持智能影像设备市场涌现了如：Insta360、AKASO、大疆等知名品牌，结束了传统欧美、日本相机企业初期对于行业的技术垄断。尤其在全景拍摄领域，目前国内企业已经积累了一定的技术优势，市场占比也在逐年提高。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链玩家种类介绍产业链玩家种类介绍30来源：沙利文研究行业下游客户主要分为个人消费者和企业客户两种行业下游客户主要分为个人消费者和企业客户两种不同于追求极致画质的单反相机玩家，消费消费级智能影像设备玩家级智能影像设备玩家主要为追求运动拍摄性能的年轻运动爱好者们。根据调研，专业级产品核心消费人群年龄集中在25-35岁区间，多同为数码爱好者，对数码产品的技术更新和迭代有着很强的兴趣。入门级产品除以上人群外，还会加入一部分价格敏感较高的青少年人群。整体用户群体存在年轻化和逐年上涨趋势。另一方面，专业级设备专业级设备应用范围广泛，目前常见的企业客户来自于智能建筑、影视媒体、智能安防、ARVR等行业。得益于智能影像设备的运动以及全景拍摄功能，企业客户往往将产品运用于VR看房、智慧城市监测、日常企业活动宣传拍摄、新闻播报、赛事直播、影视内容制作、游戏内容制作、ARVR等多样应用场景。因此，随着专业级智能影像设备的应用越来越多，专业级产品也开始呈现多样化趋势。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链玩家种类介绍产业链玩家种类介绍31来源：沙利文研究智能影像设备工作流程图智能影像设备工作流程图景物景物光光线线射射入入镜头镜头聚聚焦焦成成像像CMOSCMOS转转换换数数字字信信号号DSPDSP处理芯片处理芯片成成像像剪剪辑辑处处理理输出影像输出影像智能影像设备工作原理概述智能影像设备工作原理概述智能影像设备作为一种影像输入设备，图像感知能力与镜头模组的精密度与运算能力有很大关系。摄像头模组（CCM）主要包括四大部件：镜头（Lens）、传感器（Sensor）、软板（FPC）、图像处理芯片（DSP）。在拍摄过程中，主要的图像处理工作由镜头镜头、传感器和图像处理芯片传感器和图像处理芯片共同完成。摄像头模组的工作原理摄像头模组的工作原理：物体通过镜头（Lens）聚集的光，投射到CMOS或CCD集成电路，光信号转换成电信号，再经过内部图画处理器（ISP）转换成数字图画信号输出到数字信号处理器（DSP）加工处理，转换成规范的rgb、yuv等格式图画信号。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链玩家种类介绍产业链玩家种类介绍32来源：沙利文研究智能影像设备产品属性剖析智能影像设备产品属性剖析从原材料采购成本角度分析，镜头模组及芯片的成本平均占整机成本超过一半，这也反向印证了智能影像设备的核心功能实现依赖于其功能强大的CCM组。如果说传统高性能单反相机是通过高精密度光学器械实现极高成像精度的硬件仪器的话，智能影像设备则更像是“硬”和“软”的结合。事实上，智能影像设备是通过高性能图像传感器实现对于运动影像的快速捕捉，并通过高效控制芯片和软件算法实现对于复杂图像数据的运动补正、曝光调整、图像剪辑和多图像拼接等复杂处理工作的。因此，智能影像设备的核心价值是同时体现在设备对于运像捕捉的硬件性能和实时图像增益算法先进性上的。58.5.2.4%3.0.9%摄像头模组结构件配件包材3.0%电池其他手持智能影像设备原材料平均成本分布手持智能影像设备原材料平均成本分布摄像头模组（CCM）主要包括四大部件：镜头（Lens）、传感器（Sensor）、软板（FPC）、图像处理芯片（DSP）。产业链上游玩家介绍产业链上游玩家介绍全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链上游玩家介绍产业链上游玩家介绍34光学镜头设备的分类光学镜头设备的分类光学镜头光学镜头光学镜头光学镜头（LensLens）主要指影像设备内置的光学组件，负责图像的捕捉和聚焦。光学镜头运用透镜折射原理，将景象光线捕捉并透过透镜照射在设备内置感光材料之上，在聚焦平面上形成明晰的图像。根据光学镜片特性原理，光学镜头可分为塑胶镜头、玻璃镜头和玻塑混合镜头塑胶镜头、玻璃镜头和玻塑混合镜头三大类，其结构都是由多片镜片构成。一般而言，镜片越多，镜头的成像质量越高。在三类光学镜头中，玻璃镜头采用玻璃透镜组立而成，塑胶镜头采用塑胶镜片组立而成，二者在材料属性、加工工艺、透光率等方面都存在着很大的差异，因此最终的适用范围也大有不同。玻塑混合玻塑混合镜头镜头玻塑混合镜头由部分玻璃镜片和部分塑胶镜片共同组成，结合了二者的特点，具有高折射率的光学性能和稳定性，广泛应用于监控摄像头、影像设备和车载摄像头等镜头模组中。来源：沙利文研究玻璃玻璃镜头镜头与塑胶镜头相比，玻璃镜头对模造技术、镀膜工艺、精密加工等方面有着较高的要求，且具有其透光率高的特点，多应用于高端影像领域,如单反相机、高端扫描仪等设备。根据调研，目前运动相机镜头，全景相机镜头多使用非球面玻璃镜片。塑胶镜头塑胶镜头塑胶镜头具备可塑性强、容易制成非球面形状，方便小型化等特点，广泛应用于手机、影像设备等设备上。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链上游玩家介绍产业链上游玩家介绍35 光学镜头行业分析光学镜头行业分析来源：沙利文研究影像设备行业对于光学镜头的加工要求精度很高，尤其是透光率、镀膜质量、精细度等方面要求极为严苛。目前，除日本影像设备品牌商采取光学镜头自营生产模式以外，其余厂商多采取代工采购模式。之前受限于一定的技术门槛，高端光学镜头生产商一直呈现垄断态势，主要玩家集中在日本，业内比较知名的企业有如富士胶片、尼康、日本理光等。随着近些年国内镜头研磨技术的提升，国内涌现出舜宇光学、联创电子和欧菲光等高端光学镜头生产商。在国产替代趋势下，影像设备原材料采购成本有所降低。富士胶片富士胶片富士FUJIFILM于1934年在日本东京创建，是来自日本的影音品牌。该品牌至今已成为世界上规模最大的综合性影像、信息、文件处理类产品及服务的制造和供应商之一。富士以胶卷相机起家，在影像行业有多年行业经验。富士大量采用了非球面镜片来改善镜头的像差表现，同时也指出非球面镜片的适当应用可以简化镜头设计，制造出更加小型化的镜头。尼康尼康创建于1917年的尼康是享誉世界的光学产品设计和制造商。尼康也是世界一流的光学镜头组的制造商。尼康的镜头群覆盖了各个基本的焦段，尼康在广角端上有19款不同的镜头型号，从大师级镜头到业余级镜头、从变焦到定焦镜头，应有尽有。并且，在镜头的成像效果和表现上也是大大优于其他品牌的镜头。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链上游玩家介绍产业链上游玩家介绍36 日本理光日本理光来源：沙利文研究始创于1936年日本，作为全球知名办公设备品牌，主要从事办公图像处理设备的研发、生产和销售的大型企业。理光在美国，欧洲和日本处于市场领先地位。理光的镜头具有体积小，画质精细，操控舒服，色彩独特，性价比高等特点。从理光所生产数码产品的镜头来看，材质优良、成像锐利是它的一大特性。此外，是理光数码相机率先在自身产品中使用广角镜头，因此影像的实用性要远好于其他品牌。舜宇光学舜宇光学舜宇光学专业从事光学及光电相关产品设计、研发、生产及销售，主要产品包括三大类：一是光学零件（玻璃/塑料镜片、平面产品、手机镜头、车载镜头、安防监控镜头及其他各种镜头）；二是光电产品（手机摄像模组、3D光电模组、车载模组及其他光电模组）；三是光学仪器（显微镜及智能检测设备等）。在光学镜片领域，舜宇光学和联创电子是目前国内唯二两家可以做800万像素镜头的厂家，在光学镜片领域处于头部玩家。公司玻璃非球面镜片有十多年设计加工经验，自主掌握磨具设计加工到镀膜技术，一出多模加工工艺，模压镜片消光工艺，一次模压成型技术，省去外圆芯取工艺。但在模造玻璃领域产能较低，主要受制于模具技术参数。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链上游玩家介绍产业链上游玩家介绍37 联创电子联创电子来源：沙利文研究联创电子手机镜头和摄像头模块领域，拥有华勤、闻泰、龙旗等重要客户，以及中兴、联想等品牌客户，近年出货量增长迅猛。公司服务于GoPro、大疆、Insta360、AXON等运动相机、无人机和警用监控等领域的国内外知名客户，还与国内品牌大客户在手机、智能监控、智能驾驶等多个领域开展深度合作。联创电子在光学领域方面的技术优势主要体现在玻璃镜头、玻璃复合结构镜头和模造玻璃技术等方面，公司目前模造玻璃产能全球第二，在模造玻璃良率为全球第一，市场占有率达到85%以上。根据调研，公司2021年模造玻璃产能约为200万个，2022年年产能约为300万个。欧菲光欧菲光欧菲光集团股份有限公司（简称“欧菲光”）正式运营始于2002年，并于2010年在深交所成功上市。公司的主营业务领域涉及智能手机、智能汽车及各类新领域业务模块，主营产品包括光学影像模组、光学镜头、微电子及智能汽车相关产品。目前，公司光学镜头产品广泛应用于以智能手机、智能家居及智能VR/AR等设备为代表的消费电子和智能汽车领域。欧菲光的研发能力处于行业前列。公司拥有通过磁性吸引力作用使得镜头组在沿预设轴向运动的过程中不产生其他方向上偏移的镜头模组专利，该技术能够保证镜头组的平稳、高精度的自动光学变焦。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链上游玩家介绍产业链上游玩家介绍38图像传感器设备的分类图像传感器设备的分类图像传感器图像传感器图像传感器图像传感器(Sensor)(Sensor)是智能影像设备的核心模块之一，目前广泛运用的有两种技术：CCDCCD(电荷藕合电荷藕合)元件、元件、CMOSCMOS(互互补金属氧化物导体补金属氧化物导体)器件器件。二者主要差异体现在 CCD 电荷耦合器件一般被集成在单晶硅材料上，像素信号逐行逐列依此移动并在边缘出口位置依此放大。而 CMOS 图像传感器则被集成在金属氧化物半导体材料上，每个像素点均带有信号放大器，像素信号可以直接扫描导出。目前，CCDCCD技术已经被智能影像设备生产行业淘汰技术已经被智能影像设备生产行业淘汰。来源：沙利文研究CCDCCD 电荷藕合器件图像传感器电荷藕合器件图像传感器CCD(ChargeCCD(Charge C Coupledoupled D Deviceevice)，它运用一种高感光度的半导体材料制成，能把光线转变成电荷，通过模数转换器芯片转换成数字信号。CCD由许多感光单位组成，通常以百万像素为单位。当CCD表面遭到光线照耀时，每个感光单位会将电荷反映在组件上，所有的感光单位所产生的信号加在一起，就构成了一幅完好的画面。CCD传感器模块以日本厂商为主导，全球规模市场有90%以上被日本厂商独占，以索尼、松下、夏普为产业头部玩家。CMOSCMOS 互补性氧化金属半导体互补性氧化金属半导体CMOS(Complementary CMOS(Complementary MMentalental-oxide oxide Semiconductor)Semiconductor)是一种光学传感器，是摄像头模组的核心元器件，对摄像头的光线感知和图像质量起到了关键的影响。首要是使用硅和锗这两种元素所做成的半导体，使其在CMOS上共存着带n(带电)和 p(带电)级的半导体，这两个互补效应所发生的电流即可被处理芯片纪录宽和读成印象。CMOS图像传感器首先通过感光单元阵列将所获取对象景物的亮度和色彩等信息由光信号转换为电信号；再将电信号按照顺序进行读出并通过ADC（AnalogDigital Convertor）数模转换模块转换成数字信号；最后将数字信号进行预处理，并通过传输接口将图像信息传送给平台接收。相机的成像质量与CMOS的体积成正相关的关系，CMOS越大，同等像素密度下单个像素的面积也就越大，同等时间内这个像素点接受到进光量也就越大。更大的进光量意味着相机可以使用更低的iSO以及曝光时间来获取同样的画面亮度，这对于暗光场景下提升画面纯净度以及照片成片率有重要意义。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链上游玩家介绍产业链上游玩家介绍39 全球全球CMOSCMOS市场规模市场规模来源：沙利文研究45.452.463.577.283.482.599.5107.8116.4125.32002020212022 2023E 2024E 2025E 2026E全球全球CMOSCMOS图像传感器出货量图像传感器出货量规模规模亿颗,2017-2026E20222022-2026E2026ECAGRCAGR12.7.0%随着图像传感技术的不断革新及下游行业应用规模的逐步扩大，全球图像传感器市场规模近十年来都呈现出持续增长态势。自2017年至2022年，全球图像传感器出货量从2017年的45.4亿颗快速增长至2022年的82.5亿颗，期间年复合增长率达到12.7%，展望未来，各应用领域对于图像传感器的更广更深的需求预计仍会助其维持一定的增长速度。全球图像传感器出货量有望在 2026年达到125.3亿颗。目前，智能影像设备制造已全部采用CMOS图像传感器技术，行业内主要的CMOS芯片制造商有：索尼、三星、海力士、派视尔、意法半导体、安森美、佳能等，其中索尼在高端CMOS图像传感器保持技术垄断地位。根据沙利文数据库，索尼在2022年全球CMOS图像传感器销售额对比中领先于其他同行。CMOSCMOS图像传感器市场分析图像传感器市场分析全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链上游玩家介绍产业链上游玩家介绍40来源：沙利文研究全球全球CMOSCMOS图像传感器厂商销售额排名图像传感器厂商销售额排名亿美元,2022按销售额排名，全球前十家CMOS图像传感器企业依次为索尼，三星、豪威、意法半导体、安森美、SK海力士、格科微电子、思特威、泰莱达、滨松光子学株式会社。前十名的市场份额合计为 97.3%。根据数据对比，2022年全球CMOS销售市场中，Sony销售额达89亿美元，远超其他竞争对手。CMOSCMOS图像传感器市场竞争格局图像传感器市场竞争格局8940231313119432SonySamsungOmnivisionST MicroOn SemiSK HynixGalaxycoreSmartSensTeledyneHamamtsu全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链上游玩家介绍产业链上游玩家介绍41头部智能影像设备厂商头部智能影像设备厂商DSPDSP芯片使用情况芯片使用情况DSPDSP芯片芯片DSPDSP（Digital Signal ProcessingDigital Signal Processing）即数字信号处理技术，DSP芯片即指能够实现数字信号处理技术的芯片。DSP芯片的内部采用程序和数据分开的结构，具有专门的硬件乘法器，广泛采用流水线操作，提供特殊的DSP指令，可以用来快速的实现各种数字信号处理算法。造成智能影像设备售价差异化的主要原因是造成智能影像设备售价差异化的主要原因是DSPDSP芯片的差芯片的差异化，异化，DSPDSP芯片成本高达影像设备总成本的芯片成本高达影像设备总成本的333%，为设备核，为设备核心部件心部件。技术层面上，DSP芯片的运算处理能力将直接影响到运动影像捕捉能力和拍摄画面成像质量。以运动相机为例，DSP芯片可以通过算法为拍摄影片修复并补充运动轨迹，自动调整画面的成色和光影，以达到最佳的成像效果。来源：沙利文研究安霸安霸高通高通凌阳凌阳/联咏联咏联发科联发科全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链上游玩家介绍产业链上游玩家介绍42 安霸安霸来源：沙利文研究Ambarella,Inc.2004年1月15日成立于开曼群岛。公司是视频半导体工艺业务的开发商，提供高清视频捕捉、共享和显示服务。公司将处理器设计能力与视频图像处理技术相结合，通过算法和软件提供技术平台，使其可以更轻松跨越多个应用程序，使产品可以高效快速地开发。公司的系统芯片，将高清视频处理、图像处理、音频处理功能完全整合在一个芯片上，可以提供卓越的视频图像品质，非凡的功能以及较低的能耗。公司在全球范围内面向行业领先的原始设计制造商及原始设备制造商提供业务。公司产品应用于各类消费电子产品、公共基础设施等，例如互联网协议、安全摄像机、运动摄像机、可穿戴设备、空中无人机和售后市场汽车录像机。凌阳凌阳凌阳科技成立于1990年，为数位影音多媒体与车载娱乐资讯晶片系统解决方案领导厂商，产品应用与家庭影音娱乐DVD播放机、车用资讯娱乐系统、先进驾驶辅助系统（ADAS）以及Audio晶片等等。总部位于台湾省新竹科学园区，在上海、深圳、成都、北京等地各设有营运站点。高通高通高通创立于1985年，总部设于美国加利福尼亚州圣迭戈市，35,400多名员工遍布全球。高通在2007年度一季度首次一举成为全球最大的无线半导体供应商，并在此后继续保持这一领导地位。高通芯片具有计算性能好、兼容性好等产品优势，但运行功耗略高，且防抖处理性能并非其强项。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链上游玩家介绍产业链上游玩家介绍43来源：沙利文研究联咏联咏联咏科技设立于 1997 年，前身为联华电子商用产品事业部，专精于集成电路之研发、设计、制造管理与销售服务。致力于液晶平面显示技术及整体解决方案，产品含括平面显示器驱动晶片、视讯及电视控制晶片、数位广播控制晶片、影像控制晶片、光储存多媒体晶片。至今已成为影像显示及数位影音多媒体领导厂商，为全球液晶平面显示器驱动芯片主要供货商并且可以提供丰富的国产化方案。联发科联发科联发科技股份有限公司（MediaTek Inc.）是全球第四大晶圆厂半导体公司，在移动终端、智能家居应用、无线连接技术及物联网产品等市场位居领先地位，一年约有15亿台内建MediaTek芯片的终端产品在全球各地上市。联发科技提供创新的芯片系统整合解决方案，包括光储存、数字家庭(含高清数字电视、DVD播放器及蓝光播放器)及移动通讯等产品，为全球独一的横跨信息科技（IT）、消费性电子及无线通讯领域的IC设计公司，同时也是全球前10大和亚洲最大的IC设计公司。通过不断的技术创新，联发科技已成功在全球半导体供应链中，尤其是在中国台湾地区的移动通信产业具有领导地位。联发科的优势在于高性价比和低耗能，多核性能一直是联发科的强项。产业链中游玩家介绍产业链中游玩家介绍全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链中游玩家介绍产业链中游玩家介绍45行业玩家介绍行业玩家介绍设备品牌商设备品牌商目前，智能影像设备行业中游玩家主要为各大设备品牌商，经过沙利文调研，发现行业头部玩家有：GoPro、Insta360、DJI、深圳塞纳电子科技和日本理光等。产业中游玩家主要为设备品牌商，负责品牌运营、产品研发、产品销售、产品品牌运营、产品研发、产品销售、产品设计、产品组装设计、产品组装等方面业务。以国内智能影像设备品牌商影石创新（Insta360）为例，设备品牌商专注于全景相机、运动相机等智能影像设备产品的研发、生产和销售，通过对于在全景拍摄技术、运动拍摄技术、防抖技术、AI 影像处理技术、计算摄影技术等核心技术的研发和设计赋予智能影像设备产品核心价值，为个人消费者和企业提供可靠的拍摄解决方案。类似于手机制造业，智能影像设备品牌商通过对市场和用户的洞察，进行影像产品设计和开发，并组合核心部件进行生产制造和植入软件系统，形成有竞争力的产品。在整个产业链中扮演他们的核心竞争力往往体现在自身产品设计能力、操作系统研发能力、多年积累下来的品牌质量口碑和下游线上与线下市场的占有率上。作为智能电子产品制造商，智能影像设备品牌商并无例外地会通过时下流行的网络购物平台、线下品牌门店、品牌体系联销等方式来推广自身产品。反过来，他们也会根据市场反馈调整自身产品策略和生产规模。来源：沙利文研究全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链中游玩家介绍产业链中游玩家介绍46 全景相机玩家介绍全景相机玩家介绍来源：沙利文研究目前，全景相机行业大玩家为：Insta360、GoPro、日本理光三家。根据细分领域定义，消费级全景相机主要玩家为Insta360、GoPro和日本理光三家厂商，专业级产品市场玩家目前则主要为Insta360。I Instansta360360Insta360作为国产品牌成立于2015年，公司主要聚焦于全景相机、运动相机等消费级手持智能影像设备的研发、生产和销售。自2018年成为全球全景相机出货量最大的品牌以来，Insta360发展迅猛，在谷歌Google发布的BrandZ中国全球化品牌2023报告中，影石Insta360品牌影响力跻身2023“中国全球化品牌50强”第26位。2022年，该司全景相机市场占有量达到约50%。Insta360提供模块化、独立和电影级全景相机等多种产品，在整个全景相机领域保有较强的竞争力。目前，Insta360最新机型是Insta360 X3，Insta360 X3具有10米防水性能，并且防抖性能十分优秀。Insta360 X3画质清晰，而且续航能力卓越，综合性能行业领先。Insta360产品以强大的AI算法为特色，衍生出多种创意剪辑和玩法且App功能丰富，深受年轻人的喜爱，可以隐藏自拍杆等功能，很适合在滑雪、滑板、冲浪各类极限运动中用，尽可能地为用户解放双手，同时也拍出好莱坞特效的动作大片。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链中游玩家介绍产业链中游玩家介绍47 GoProGoPro来源：沙利文研究成立于2004年的美国品牌GoPro主要生产运动相机以及相关产品，在运动相机领域GoPro有着很高的知名度和行业认可。自2015年以来，GoPro通过分别收购Kolor和ReelSteady两家图像处理软件商提升了自身产品360全景拍摄和后期视频剪辑的处理能力。从性能来看，GoPro拥有最佳的性能，以目前GoPro系列中最新型号GoPro HERO11 Black为例，GoProHERO11 Black除了防抖性能强大，防水性能也非常强，可以在10米的深水下面直接进行拍摄。日本理光日本理光作为老牌的办公设备及光学器械生产商，成立于1936年的日本理光在全景相机行业具备着独特的硬件研发优势，其全景相机产品具有良好的口碑和销售成绩。得益于其旗下THETA系列产品对于全球全景相机市场的持续深耕，日本理光稳定地保有25%左右市场份额。目前，理光最新产品Theta X相机外观材质采用镁合金，拥有6000万像素传感器，支持5.7K 30p录像，支持使用编辑应用程序THETA ，WiFi蓝牙功能等一应俱全，并且整体重量仅有170g。日本理光在全景相机的芯片使用上选择与手机一样的高通芯片，高通芯片有较为出色的数据传输能力和高稳定性，但在防抖运算方面有所不足。日本理光作为老牌日本光学生产制造企业拥有自己的镜头厂，这是其他运动相机和全景相机企业所没有的优势。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链中游玩家介绍产业链中游玩家介绍48 运动运动相机玩家介绍相机玩家介绍来源：沙利文研究当前运动相机业内的头部品牌包括GoPro、深圳塞纳、DJI、Insta360、SJCAM、EKEN、猿人创新等。其中，GoPro作为运动相机老牌厂商，其销售额趋于稳定，而其他各级新晋品牌厂商等凭借创新实力及研发技术迅速抢占市场，销售额增长迅速。未来，随着全景技术在运动相机的应用加速渗透，DJI、Insta360等新兴运动相机玩家有望凭借先进的运动全景技术、防抖技术及图像处理技术在运动相机领域占领更多市场份额。SJCAMSJCAM深圳市臻呈科技有限公司(SJCAM)是国内专业从事运动相机自主研发、设计、生产、销售于一体的高新技术企业。目前作为入门级运动相机市场大玩家之一，主打高性价比、高清晰度、产品可靠性等卖点。在产品矩阵方面，公司产品丰富多样，拥有潜水防渗、骑行防抖、滑雪拍摄等多类运动相机系列产品。近年，公司国内出货量位居市场前列，有略微上升趋势。入门级运动相机市场入门级运动相机市场 EKENEKEN爱键创新（深圳）有限公司旗下拥有EKEN运动相机品牌，主打Amazon等线上平台和电商销售策略。目前，公司主打H5s、H6s、H9运动相机系列主要面向入门级运动相机消费者，致力于扩张品牌在美国、欧洲市场的影响力。其H9R旗舰机支持4K画质、100米防水、170度摄影视角等多种功能，广受消费者欢迎。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链中游玩家介绍产业链中游玩家介绍49 猿人创新猿人创新来源：沙利文研究国产品牌猿人创新旗下运动相机品牌apeman采取全海外销售策略，公司专精入门级别运动相机生产销售，并于2019在全球运动相机市场出货量达100万台，位居行业前列。猿人创新运动相机产品矩阵偏向普通外出人群、青少年等多数高价格敏感性人群，在入门级产品之中有较好的市场口碑。目前，apeman运动相机产品销售受到疫情和美国Amazon电销平台封号风波影响，出货量有所下降。GoProGoPro美国品牌GoPro在运动相机市场保持领先地位，作为目前全球最大的运动相机品牌商，2022年影像设备出货量达281万台，营收达到10.9亿美元。GoPro运动相机主要面向极限运动爱好者等对相机性能较高的专业级消费人群，涉猎潜水、滑雪、骑行、跳伞等多种使用环境。专业级运动相机市场专业级运动相机市场 DJIDJI大疆创新（DJI）作为全球著名无人机生产商已经涉足运动相机产业，得益于无人机摄像头生产方面的技术储备，DJI运动相机产品在防抖、图像编辑、图片传输等技术方面有着很强的优势。大疆运动相机品牌在市场铺开和客户积累方面已经获得初步的突破。未来大疆的介入或将给行业新的挑战和机遇。深圳塞纳深圳塞纳深圳市赛纳电子科技有限公司旗下品牌AKASO目前为运动相机市场中GoPro的有力竞争者，AKASO运动相机产品采用安霸Ambarella处理芯片，支持高分辨率、复杂运动轨迹等高性能运动影像拍摄用途。目前，AKASO在猿人等运动相机厂商亚马逊封号事件后迅速补位中价市场获得了一定量的市场增长，品牌优势进一步加强。产业链下游客户介绍产业链下游客户介绍全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链下游客户介绍产业链下游客户介绍51来源：沙利文研究不同于追求极致画质的单反相机玩家，消费级智能影像设备玩家主要为追求运动拍摄性能的年轻户外运动爱好者们。根据调研，国内消费级产品核心人消费人群年龄集中在25-35岁区间，欧美玩家集中于25-50岁。这个群体多同时为数码爱好者，对数码产品的技术更新和迭代有着很强的兴趣。而入门级运动相机产品除以上人群外，还会加入一部分价格敏感较高的青少年人群。整体用户群体存在年轻化和逐年上涨趋势。目前全球户外运动爱好者人数10.6亿，2017年至今2022年年复合增长率达20.4%。随着各国政府越来越重视国民健康政策和教育，根据预测全球户外运动爱好者人数将持续增长，到2025年，预测人数将达到15亿人。个人消费者个人消费者4.25.16.37.69.110.612.213.615.02002020212022 2023E 2024E 2025E全球户外运动爱好者人数规模全球户外运动爱好者人数规模亿人,2017-2025E20222022-2025E2025ECAGRCAGR20.4.2%全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链下游客户介绍产业链下游客户介绍52来源：沙利文研究根据产品信息获取渠道来看，用户习惯从互联网视频渠道，包括国内的抖音和Bilibili，海外的YouTube了解产品，大量参考KOL的测评。根据访谈结果，一般智能影像设备品牌旗舰机迭代速度为两年左右，和手机产品类似。个人玩家选择持续购买新机型的理由多为看中品牌价值、软件技术的提升、画质提升等因素。对于入门级产品，新入客户人群则表示对于产品可靠性、画面帧数和配件数量有所关心。另外，针对国内玩家反映未来对于国内常用社交平台更多地支持全景相片格式会有所期待。个人消费者市场分析个人消费者市场分析20年全球手持智能影像设备产品购买率年全球手持智能影像设备产品购买率百万,.117.223.019.32002120221,061.1760.4511.7633.5909.6415.633.938.22017全球户外运动爱好者人口手持智能影像设备年出货量年份年份200020202020222产品购买率3.6%3.4%3.6%2.5%3.7%3.6%全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链下游客户介绍产业链下游客户介绍53来源：沙利文研究、statista专业级设备应用范围广泛，目前常见的企业客户来自于智能智能建筑建筑、影视媒体影视媒体、智能安防智能安防、ARVRARVR等行业。得益于智能音像设备的运动以及全景拍摄功能，企业客户往往将产品运用于VR看房、智慧建筑监测、日常企业活动宣传拍摄、新闻播报、赛事直播、影视内容制作、游戏内容制作、ARVR等多样应用场景。企业客户企业客户随着智慧建筑概念的推广，专业级全景相机或成为智能建筑物未来的有效监测手段。根据其无死角的全景视觉效果而构建的建筑监视网络可有效地提高目前传统监测设备监视效率，有效降低人力成本，从而达到更加节能、更加自动化的设计目的。智能建筑智能建筑6.47.38.18.99.610.311.02020202120222023E2024E2025E2026E全球建筑业行业规模预测全球建筑业行业规模预测万亿美元,2017-2026E20222022-2026E2026ECAGRCAGR12.7%7.9%全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链下游客户介绍产业链下游客户介绍54来源：沙利文研究、PWC通过专业级全景相机可以拍摄高清VR影像作品，相较于传统手机、电视等设备，使用VR设备观影、观赛是能获得极强的沉浸感以及临场感。VR直播与普通直播不同的是它跳出了传统平面直播的框架，让用户犹如身临其境，可以随时随地地畅游在三维空间，呈现出一场全新的视觉盛宴。另外，最重要的是专业级全景设备制作影像将原来内容决定用户的传统媒体模式改变成了由观众来决定看到的直播内容的新模式。根据预测，VR影像直播将是未来影视业的新趋势。影视媒体影视媒体另一方面，专业级全景相机可应用于VR看房领域，通过全景技术为用户提供沉浸式的VR看房体验。用户进入VR看房场景后，可以自由移动观察各个房间，而且能看到房间里的任何一个角落，从而实现全景覆盖。线上VR看房不仅能够有效降低地产服务商的获客成本，更便于客户根据需求随时随地看房。2.02.12.22.12.32.52.62.82.82.92002020212022 2023E 2024E 2025E 2026E全球娱乐全球娱乐&媒体行业规模预测媒体行业规模预测万亿美元,2017-2026E20222022-2026E2026ECAGRCAGR5.1%3.9%全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链下游客户介绍产业链下游客户介绍55来源：沙利文研究另一方面，近年来短视频制作公司的崛起亦给行业带来增长。而专业全景相机和运动相机作为创新型视频拍摄工具，能够拍摄全景视频并实现智能剪辑和社交平台轻松分享的便捷，受到了越来越多的短视频制作公司的青睐。根据数据显示，截至2022年12月，我国短视频用户规模已经达到10.12亿，占网民整体的94.8%智慧社区的运营管理平台可由“公共区域视频监控出租屋视频门禁街道视频系统”组成，智慧安防建设集成运用一体化专业 8K全景相机，该相机凭借其超小体积、超轻重量以及8K全景直播的功能，使得空间形态与安装环境复杂的社区依然能够被全面拍摄，提升了智慧社区系统的整体效果。全景相机拍摄的画面角度广、配合VR技术可以得到相较于传统监控更全面的图像，为智慧社区的建设带来重要价值。智能安防智能安防6,200.07,183.08,269.08,510.06,454.37,164.37,913.08,618.59,516.210,486.52017 2018 2019 2020 2021 2022 2023E2024E2025E2026E全球安防产业规模预测全球安防产业规模预测亿元,2017-2026E20212021-2026E2026ECAGRCAGR2.9.0%全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10产业链下游客户介绍产业链下游客户介绍56来源：沙利文研究、PWC360度全景视频可以把学习者置于完全沉浸式环境的中心，就跟VR一样。但360度全景视频显示的是真实场景的片段，而不是计算机生成的内容。在过去两年中，360度视频的拍摄技术已经得到了大幅改善，这意味着工作流程现在几乎跟传统视频一样快速直接。这种视频同样可以支持交互，允许学习者发现周围环境中的信息，并对实时展开的事件做出决策。VRVR、ARAR第三章第三章手持智能影像设备行业玩家分析手持智能影像设备行业玩家分析核心洞察：核心洞察：0101手持式智能影像设备市场竞争格局手持式智能影像设备市场竞争格局0202行业头部玩家案例分析行业头部玩家案例分析0303头部玩家市场推广模式分析头部玩家市场推广模式分析0404头部玩家头部玩家设备产品技术对比设备产品技术对比0505行业驱动因素分析行业驱动因素分析0606行业壁垒行业壁垒分析分析0707行业发展趋势分析行业发展趋势分析手持式智能影像设备市场竞争格局手持式智能影像设备市场竞争格局全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持式智能影像设备市场竞争格局手持式智能影像设备市场竞争格局59来源：沙利文研究全球消费级全景相机市场竞争格局分析全球消费级全景相机市场竞争格局分析根据根据调研，全球全景相机市场头部玩家有Insta360、GoPro、日本理光三家企业。按市场占有口径分析，目前Insta360占有全球最大的市场份额，考虑目前Insta360在全景相机赛道保有专利和技术优势，推测未来Insta360会继续保持领先优势。2002020212022 2023E 2024E 2025E 2026E23.324.926.829.233.138.146.750.152.755.3Top3Others全球消费级全球消费级全景相机零售市场竞争格局全景相机零售市场竞争格局%,2017-2026ECAGRCAGR20222022-2026E2026E整体10.3%9.8%top323.5.6%全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持式智能影像设备市场竞争格局手持式智能影像设备市场竞争格局60来源：沙利文研究全球消费级全景相机市场全球消费级全景相机市场目前目前，全球全景相机市场头部玩家中Insta360销售额领先于其他玩家，2022年Insta360销售额占全球消费级全景相机市场的50.7%。考虑到公司产品线的持续创新与迭代能力，以及生产和销售渠道布局情况，预期Insta360的市场优势将会持续。202120222023EInsta360Insta36040.2P.7W.8%RicohRicoh24.2.7.1%GoProGoPro21.5.8.0 2120222023EInsta360Insta36073.6.0.5%RicohRicoh9.0%6.4%5.3%GoProGoPro5.4%3.9%3.1 2120222023EInsta360Insta36045.6U.4a.4%KandaoKandao13.0.7.0%ZCAMZCAM3.3%3.4%3.5%中国中国消费级全景相机市场消费级全景相机市场中国全景相机市场份额占全球市场约十分之一，整体市场依然处在初期发展阶段。根据调研，在个人消费端越来越倾向于全景拍摄产品的趋势下，中国消费级全景相机玩家中Insta360逐渐占据绝对优势。全球全球专业专业级全景相机市场级全景相机市场专业级全景相机市场作为新生市场，大多数玩家多处于探索阶段。随着商业模式的逐渐成熟，专业级全景相机或迎来较好的商业机会。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持式智能影像设备市场竞争格局手持式智能影像设备市场竞争格局61来源：沙利文研究疫情疫情对美国本土产生不利影响，以GoPro公司为例，其缩减了自身在全景相机市场的投入，将原本的三条全景相相机生产线削减为一条，整体市场占有率由2019年的24%降至18%，且预测GoPro短期内无法改变其在全景相机市场的颓势。20222022年全球年全球消费级全景相机零售市场竞争格局消费级全景相机零售市场竞争格局亿元,2022，含配件销售19.37.56.820212021年全球年全球消费级全景相机零售市场竞争格局消费级全景相机零售市场竞争格局亿元,2021，含配件销售13.38.07.1全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持式智能影像设备市场竞争格局手持式智能影像设备市场竞争格局62来源：沙利文研究中国消费级全景相机市场竞争格局分析中国消费级全景相机市场竞争格局分析中国中国全景相机市场中，Insta360凭借其优势个人消费者市场占据着整个行业的领头位置。从整体市场来看，目前中国消费级全景相机品牌多处于刚刚完成市场教育阶段，预测未来至2026年中国市场将会进入高增长阶段，从而成为未来整个全球全景相机市场的主力增长点之一。中国消费级全景相机零售市场竞争格局中国消费级全景相机零售市场竞争格局亿元,2022，含配件销售5.50.50.3全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持式智能影像设备市场竞争格局手持式智能影像设备市场竞争格局63来源：沙利文研究全球专业级全景相机市场竞争格局分析全球专业级全景相机市场竞争格局分析目前目前，全球专业级全景相机市场玩家多处于起步阶段，行业内领先玩家有Insta360、深圳看到科技和Z CAM三家企业。按市场销售额口径分析，目前Insta360拥有全球最大的专业级全景相机市场份额。全球专业全球专业级全景相机零售市场竞争格局级全景相机零售市场竞争格局亿元,20221.80.40.1Z CAM全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持式智能影像设备市场竞争格局手持式智能影像设备市场竞争格局64来源：沙利文研究全球运动全球运动相机市场竞争格局分析相机市场竞争格局分析全球全球动相机市场发展稳健，在高端市场，国产运动&全景相机品牌如Insta360、大疆创新、AKASO（塞纳）等凭借自身技术优势对GoPro等欧美产品逐渐形成替代趋势。而在入门级产品中，中国运动相机品牌一直依靠其产品性价比占据着大半市场份额。20020202120222023E 2024E 2025E 2026E139.3149.2181.3150.3237.7266.1320.6367.7413.6460.0top5others全球运动全球运动相机零售市场竞争格局相机零售市场竞争格局亿元,2017-2026ECAGRCAGR20222022-2026E2026E整体13.8.7%top510.6.2%others27.8%2.2 20年受疫情影响需求有所下滑。近两年积压的需求快速释放，回归增长态势全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10排名公司名旗舰机1 1GoProGoPro2 2影石影石Insta360Insta3603 3DJIDJI4 4AKASO(AKASO(塞纳塞纳)5 5SJCAMSJCAM手持式智能影像设备市场竞争格局手持式智能影像设备市场竞争格局65来源：沙利文研究全球运动相机市场竞争格局分析全球运动相机市场竞争格局分析按照按照销售额，全球主要头部运动相机品牌玩家为GoPro、影石Insta360、DJI、深圳塞纳、sjcam和EKEN几家企业。2022年GoPro全球运动相机销售额达10.9亿美元，位居榜首。其中前五企业所占市场份额超过70%。全球运动全球运动&全景相机零售市场竞争格局全景相机零售市场竞争格局2022行业头部玩家案例分析行业头部玩家案例分析全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10 公司概览公司概览影石Insta360创立于2015年，是以全景技术为基点的全球知名智能影像品牌。影石Insta360主要产品类型包括消费级智能影像设备、专业级智能影像设备、配件及其他产品等。影石Insta360还先后与德国徕卡相机公司、美国谷歌（Google）、脸书（Facebook）、推特（Twitter）、多媒体编辑软件服务商Adobe等品牌达成战略合作。2018年3月影石Insta360正式入驻全球Apple直营店，迄今为止已上线 X 系列、ONE R系列、GO系列、Flow等多款产品，至今仍是Apple商店引进的唯一一款全景影像品牌。案例分析案例分析67来源：沙利文研究影石影石InstaInsta360360 产品矩阵产品矩阵影石Insta360目前在售的手持智能相机主要有5款，其中3个消费级产品系列分别是 GO 系列、X 系列、ONE R 系列，另有2款专业级产品：Pro 2、Titan GO 系列拇指防抖相机最新款 GO 3 拇指防抖相机主打轻巧、便携，整体尺寸基本和成年人的拇指差距不大，可以轻松手持，也可以用配件轻松固定在各种不同的位置进行第一视角拍摄。X 系列全景运动相机最新款 X3 主打全景拍摄功能，拥有前后两个镜头，可以同时拍摄360视角的画面。性能上更加强劲，操作也更加便捷（整机只有开机键、录制键，视频设置需要在手机或者机身自带的触控&预览屏幕上进行），拥有非常丰富的后期空间，相对来说更适合专业内容创作。ONE R 系列模块化相机最新款ONE RS 是Insta360消费级产品中的特色机型，通过模块化的产品设计，可以实现不同电池模块、镜头模块与显示屏模块的自由组合。其中 ONE RS 一英寸全景版本是与徕卡联合设计，配置双一英寸传感器，是目前画质最高的消费级全景相机。Pro 2 专业全景相机Pro 2以及Titan都是偏专业级的VR影像设备，它们能够为创作者提供VR 影像“摄编存播显”一体化高效能解决方案。Titan电影级VR摄像机Titan配备8颗200F3.2 鱼眼镜头并配备了同样数量的M4/3 传感器，这是全球率先采用 MFT 传感器的 8 目 VR 摄影机，它将 Titan 的图像质量、动态范围、低光表现、色彩深度都提高到极致。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10 推广模式推广模式借力平台和经销商借力平台和经销商，提升品牌认知和可信度：提升品牌认知和可信度：Insta360入驻了目标市场主流的电商平台，让消费者可以在熟悉的网购平台都能看见Insta360的身影。同时还在海外市场合作了Best Buy、Media Markt、SoftBank等非常知名的经销商。同时2018年入驻全球Apple直营店，通过这些经销商触达海外消费者，与消费者产生联系，依靠这些经销商在目标客群中的影响力获取客户的天然信任。多渠道运营分散风险多渠道运营分散风险：单一销售渠道的风险较大，多个渠道分散风险。自主渠道创新自主渠道创新，增强用户黏性增强用户黏性：通过品牌独立站可以更加完整、全面地掌握客户的各个购物触点，充分了解客户，培植品牌的私域阵地。保持社交媒体活跃度保持社交媒体活跃度，重视重视UGCUGC：Insta360组建了一支国际化的海外营销团队，负责投广、视频制作、设计，还有负责网红KOL关系、媒体关系和社交媒体运营。早期，Insta360的营销重心是利用新闻媒体，知名的行业展会打造品牌知名度，树立品牌公信力。随后，Insta360开始将营销重点转移到社交媒体上，在Facebook、YouTube、Twitter、Instagram、TikTok上都非常活跃。案例分析案例分析68来源：沙利文研究影石影石InstaInsta360360全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10 公司概览公司概览GoPro成立于 2004 年，2014 年在美国纳斯达克上市（GPRO），总部位于加利福尼亚州圣马特奥，是运动相机的领先制造商以及移动应用程序和视频编辑软件的开发商。GoPro以其旗舰产品系列HERO、多功能360和4K运动相机而闻名。案例分析案例分析69来源：沙利文研究 GoProGoPro 产品矩阵产品矩阵入门级HERO系列适用场景：日常拍摄，可满足轻松的户外拍摄。最新HERO系列适用场景：各类场景，现已推出到第11代的HERO系列，不断更新并采用最新技术，几乎适用于各种拍摄场景。Fusion系列适用场景：全景拍摄，Fusion系列能够360全景拍摄所处环境中的所有景象。拍摄后还可以选取最佳角度并编辑成像，扩展了后期的创造性。MAX适用场景：全景拍摄，是一台全景相机，也是一台HERO相机，适用于超宽场面拍摄。推广模式推广模式全力打造在线社区全力打造在线社区，帮助用户发现需求：帮助用户发现需求：GoPro在YouTube上打造了一个全新的在线社区，同时又是管理客户的第一平台。在鼓励消费者上传视频的同时，对视频的评论和问题进行统一管理，同时对评论中的问题进行一些解答，满足潜在消费者的需求同时也完成了对用户的互动。多渠道平台多渠道平台：除了YouTube，在其它各大社交媒体上也可以见到GoPro的身影，Facebook,Twitter,Instagram这些主流社交媒体自不用说，GoPro的忠实粉丝还可以在微软的在线游戏平台XBOX Live Gold的上找到GoPro视频频道。与专业用户的亲密合作与专业用户的亲密合作：GoPro在打造自己的在线视频帝国同时也成立了一支30人左右的视频小组，专门在线上审核视频，筛选可以发布的优秀视频，发掘极限运动明星，展示GoPro的超高性能。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10 公司概览公司概览公司成立于2006年，是全球领先的无人飞行器控制系统及无人机解决方案的研发商和生产商，客户遍布全球100多个国家。在手持影像设备方面具有画质优良等特点。案例分析案例分析70来源：沙利文研究 DjiDji大疆创新大疆创新产品矩阵产品矩阵 Osmo Pocket系列：DJI Pocket 2 小巧便携，可随时带在身边。支持机械增稳，4K 视频，6400 万像素照片，还有自动美颜，立体收音和一键剪辑。灵眸 OSMO 口袋云台相机，是大疆迄今为止最小的三轴机械增稳云台相机。轻巧，便携，智能且配备独立屏幕，可以轻松拍摄。Osmo Action系列：DJI Action 3是一部具备突破创新、超高性能与多功能的运动相机，能完美满足各种拍摄场景的需求。这部运动相机装备了前后双屏设计，用户可以根据需要随心切换拍摄角度。即使在严酷的环境中或进行高强度运动时，DJI Action 3也能轻松录制出稳定且流畅的超高清视频。Ronin电影机：DJI Ronin 4D具有电影级影像、四轴云台、LiDAR 激光跟焦、无线图传控制等功能，是一款一体化专业级机型。推广模式推广模式新品发布前期，发布超级宣传片，引发购买欲望新品发布会前，大疆都会制作十分神秘的预告短片。在视频中，震撼的土地、清晰的动态摄影以及神秘的产品轮廓，吸引潜在消费者。邀请国外的主流媒体对新推出的产品进行测评科技产品、智能硬件的良好营销环境，离不开各大科技测评媒体的测评意见。大疆新品发布后，国内外主要测评机构对其进行了全方位的测试和评价。The Verge、华尔街日报以及PCMag等都对产品进行了全方位的测评。内容营销在YouTube与专业领域内的顶级网红展开合作，邀请他们进行最新产品的测评；以及邀请网红制作高质量的短视频。关于海外社媒账号运营，大疆主要倾向于UGC PGC的内容输出。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10 公司概览公司概览AKASO,隶属于深圳市赛纳电子科技有限公司。2011年成立于美国华盛顿西雅图市，2013年品牌AKASO成立。AKASO制造高质量，价格实惠的运动相机。在不到7年的时间里，AKASO已成为全球领先的运动相机品牌之一，年销售额超过50万台。AKASO还将业务扩展到新领域，包括IP摄像机，婴儿监视器，行车记录仪，健身追踪器，投影仪，视频门铃，甚至是无人机。案例分析案例分析71来源：沙利文研究塞纳塞纳AKASOAKASO 推广模式推广模式和知名运动员合作：和知名运动员合作：AKASO与Mary Catherine Eden合作。Mary Catherine Eden是在攀岩圈小有名气的的美国攀岩运动员，她对AKASO的认可度极高。2019年成为了AKASO品牌的签约运动员产品矩阵产品矩阵 AKASO Brave 系列Brave系列有Brave8，Brave7，Brave7LE，Brave4。具有小巧精致，降低图像噪点，可以还原真实色彩和细节。EK7000 Pro系列KASO EK7000 Pro运动相机是一款主打运动摄影的运动相机，支持4K 25fps的图像处理，续航方面，AKASO EK7000 Pro运动相机电池容量为 1050mAh，标配两块电池，在户外运动时可以随时切换,持续录制。同时有APP可一键剪辑，可通过Wi-Fi直连手机，把动态分享到社交媒体上。AKASO V50X系列是一款主打水下潜水的运动相机，采用电子防抖，使用场景：骑行，潜水，滑雪，Vlog，登山，速降，飞行，慢动作录制，无线控制，其他配件：旅行配件，潜水配件，骑行配件，滑雪配件，4K功能：触屏操作，电子防抖，循环摄像，延时摄影。在户外运动时可以随时切换，持续录制全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10 公司概览公司概览理光（Ricoh），是日本著名的办公设备及光学机器制造商，世界五百强企业。产品阵容包括能提供诸如文档输出管理服务和IT解决方案等服务和解决方案的办公图像处理设备（如MFP、打印机等）、生产型数码印刷机、供应产品、数码相机和工业产品诸如热敏媒体，半导体和工厂自动化摄影机。案例分析案例分析72来源：沙利文研究日本理光日本理光推广模式推广模式线下渠道销售建设线下渠道销售建设针对高端产品，往往需要为客户提供高度定制化的解决方案，这就需要品牌和客户的面对面沟通与交流，这一点是线上市场无法实现的，也正因此，理光在此类产品领域仍偏向于线下渠道的建设。产品矩阵产品矩阵理光 WG-M1是一款 14.0MP防水相机，配备 1/2.3（6.17 x 4.55 毫米）尺寸的 CMOS 传感器、防风雨机身和 F2.8 镜头。理光 WG-M2采用了一个扁平的造型设计非常有利于固定在自行车车把上，不仅具备约20m的防水能力，还具备防尘、-10抗冻和2m跌落耐冲击的能力，加上支持4K视频的录制和小巧的外形。理光Theta Z1Theta Z1使用两个1英寸，背面照明的CMOS传感器，静止图像可以高达23 MP（6720 x 3360像素），并且视频以30 fps的4K（3840 x 1920）录制。头部玩家设备产品技术对比头部玩家设备产品技术对比全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10头部玩家设备产品技术对比头部玩家设备产品技术对比74 全景相机对比分析全景相机对比分析品牌品牌GoProGoPro影石影石Inta360Inta360日本理光日本理光机型举例机型举例GoPro MaxGoPro MaxONE RSONE RSTheta XTheta X价格价格(元元)500035005400照片照片5312x3552(3:2)5312x2988(16:9)6080 x3040(2:1)11008 5504视频分辨率视频分辨率5.6K5.7K5.7K内存内存Micro SD卡，最大支持存储容量是1TMicroSD卡，最大支持容量1T 相机的 46GB 内部存储器可配备 64GB 或更高容量的 microSDXC续航时间续航时间78 分钟*实验室条件下，5.6K30fps 后期模式测得70分钟110分钟，电池可拆卸220张照片/30分钟5.7K30P视频视频/55分钟4K30P视频，采用可更换电池视频稳定功能视频稳定功能MAX HyperSmooth超强防抖FlowState超强防抖带防抖功能产品重量产品重量(g)(g)154135170像素像素(万万)0来源：沙利文研究很有优势有优势没有优势全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10品牌品牌GoProGoPro影石影石Inta360Inta360大疆大疆DJIDJI机型机型HERO11 Black HERO11 Black X3X3Action3Action3价格价格(元元)350030002300画质画质5.6k12k4k视频分辨率视频分辨率5.3K60 4K120 视频分辨率 5.7K30 4K60 视频分辨率4K（4:3）60 视频分辨率内存内存支持1TB内存卡支持1TB内存卡支持256GB存储卡续航续航1720mAh的电池，80分钟1800mAh电池，80分钟1800mAh电池视频稳定功能视频稳定功能HyperSmooth超强防抖FlowState超强防抖RockSteady超强增稳产品重量产品重量(g)(g)127180145像素像素(万万)270072001200防水防水(米米)10米10米16米镜头光圈镜头光圈/F1.9f/2.8头部玩家设备产品技术对比头部玩家设备产品技术对比75 运动相机对比分析运动相机对比分析来源：沙利文研究很有优势有优势没有优势产业驱动因素分析产业驱动因素分析全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备产业驱动因素分析手持智能影像设备产业驱动因素分析77来源：沙利文研究居民收入增长购买力提升推动需求增长居民收入增长购买力提升推动需求增长随着我国宏观经济的稳定发展，人均可支配收入不断提高。2021年，全国居民人均可支配收入35128元，比上年名义增长9.1%；2022年，全国居民人均可支配收入36883元，比上年名义增长5.0%。我国居民的购买力与消费水平提升带来消费观念的变化，居民消费呈现出结构性升级趋势。随着消费升级的深化，传统的数码相机难以满足新消费时代用户的影像需求，用户越来越注重对生活体验的捕捉和分享，如在户外运动或家庭活动中记录实时画面并进行快速编辑与分享。2022冬季奥运会在我国举办将会带动国内滑雪产业的发展，进而推动运动相机市场需求的增长，促使亚太地区运动相机市场规模攀升。现在国内年轻人运动频率和运动方式都有所提高和改变，越来越多的年轻人选择滑雪，滑板，冲浪，骑行等户外运动，进一步拉动需求。因此，在居民收入提高和消费观念升级的双重推动下，人们对全景相机等新兴影像产品的需求将进一步提升，进一步推动智能影像设备行业发展。技术创驱动行业发展技术创驱动行业发展行业产品更新换代正在持续加速，尤其是在产品操作系统、后期剪辑、拍摄同期影像处理等技术方向上，各位行业大玩家都相继加大了研发投入力度。不同于传统影像设备对于高画质的一味追求，智能影像设备更加看中用产品操作体验感和图像稳定性等技术指标，通过更加智能的拍摄方式来给客户带来价值。对于全景相机，后期相片较高的剪辑难度和国内主流社交平台（如微信、qq、微博等）不支持全景相片格式等问题依然是阻碍大多数潜在用户群体进行尝试的主要门槛，若未来能够通过企业软体技术的提升、交互能力的优化解决这些难题，智能影像设备的进一步推广是可以预见的。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备产业驱动因素分析手持智能影像设备产业驱动因素分析78来源：沙利文研究国家产业政策支持智能影像设备发展国家产业政策支持智能影像设备发展国家政策的大力支持为行业健康发展提供了强大动力。根据国务院发布的“十三五”国家战略性新兴产业发展规划之发展目标，2020年实现战略性新兴产业增加值占国内生产总值比重达到15%，形成新一代信息技术、高端制造、生物、绿色低碳、数字创意等5个产值规模10万亿元级的新支柱。此外，工信部和国家发改委在扩大和升级信息消费三年行动计划（2018-2020年）中明确要提升消费电子产品供给创新水平，推动电子产品智能化升级，提升中高端供给体系质量，推进智能可穿戴设备、虚拟/增强现实、超高清终端设备、消费类无人机等产品的研发及产业化，加快超高清视频在社会各行业应用普及。短视频拍摄及日常分享的普及短视频拍摄及日常分享的普及视频拍摄及分享日益普及，带来市场需求。近年来短视频拍摄及分享日益普及，用户内容创作热情不断提高。而全景相机作为创新型视频拍摄工具，能够拍摄全景视频并实现智能剪辑和社交平台轻松分享的便捷，受到了越来越多的短视频爱好者的青睐。截至2022年12月，我国短视频用户规模已经达到10.12亿，占网民整体的94.8%。但是，由于国内下游社交媒体分享产业配套设施仍处于发展阶段，全景照片无法在微信，微博等社交App上分享，而在国外的社交媒体都可以分享全景照片，这也一定上限制了国内全景相机的购买量。但随着国内社交媒体往国外社交媒体靠近，全景照片分享也会在以后被下游社交平台所关注。行业壁垒分析行业壁垒分析全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备市场行业壁垒分析手持智能影像设备市场行业壁垒分析80来源：沙利文研究技术壁垒技术壁垒智能影像设备行业是由现代信息技术与传统影像设备结合而产生的创新型行业，综合了计算机技术、数据处理技术、网络通讯技术、传感器技术等多方面技术，产品技术含量高，具有较高的技术壁垒。由于智能影像设备是消费电子热门领域，为了保证企业所生产的设备能够充分满足消费者的应用需求，防抖技术、图像采集与拼接技术、AI 识别技术等技术亦须不断迭代，这需要企业对技术研发、产品创新设计等方面需要持续不断的投入。业内企业只有经过长时间业务实践和自主研发才能掌握相关产品核心技术，新进入的企业难以在短时间内完成技术积累，因此进一步提高了新进入者的门槛。资金壁垒资金壁垒针对行业原材料采购方面，目前智能影像设备行业上游出现了高性能DSP芯片和CMOS模组产能短缺的情况。事实上，近些年受同样需要类似制程精度芯片的汽车产业、智能家居等行业需求量增加的影响，各国芯片产能扩产速度并赶不上整体市场需求量的增长，采购不到足量的DSP芯片已成为多数智能影像设备企业共同面临的问题。而另一方面，CMOS传感模组生产本身具有很强的行业技术垄断，受限于Sony一家生产商产能的有限，下游厂商对于CMOS感光模组并没有很强的议价权。目前资金实力更强的行业头部玩家一般会通过集中较大的订货量确保自身货源的稳定，反之，对没有产量以及资金优势的行业新兴玩家而言，拿到生产需要的芯片会有一定的难度。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备市场行业壁垒分析手持智能影像设备市场行业壁垒分析81来源：沙利文研究品牌壁垒品牌壁垒智能影像设备行业具有较强的品牌效应，消费者在选择品牌商的时候，会对企业产品质量、技术服务能力、服务响应速度等提出较高要求。企业需要具有出色的产品设计和研发能力、质量管控能力和市场营销能力才能建立形成品牌优势，获得消费者的认可。行业中后期的新进入者将需要花费较高的时间成本和金钱成本才能建立起品牌知名度，有较高的品牌壁垒。人才壁垒人才壁垒行业内的研发人员需要掌握包括影像设备制造和先进计算机技术在内的多项技术理论知识，还需具备持续研发能力和创新思路。因此，行业对于技术人员的技术研发能力和产品开发能力有较高要求。此外，随着行业与跨境电商模式的融合，企业需要建立专业团队来把控产品采购、产品质量、仓储物流等各环节，这对企业提出了较高的人才标准。行业未来发展趋势分析行业未来发展趋势分析全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备市场未来发展趋势手持智能影像设备市场未来发展趋势83来源：沙利文研究国内市场将会扩大国内市场将会扩大对比于国外Twitter、Facebook、Line等主流社交平台支持智能影像设备大文件、特殊格式的图片传输，我国目前主流社交媒体并不支持智能影像影像设备拍摄分享，这很大限度限制了用户人群的购买热情。然而随着智能影像设备使用人群的增加和市场教育的逐渐成型，未来国内主流社交软件增加针对于智能影像设备图片分享的功能是可以预见的。另一方面，智能影像设备作为增强出行体验的工具之一，类似于野外露营设备近几年在国内的推广逻辑一样，从发烧友到大众市场热款爆品是需要一定时间用户积累的。慢慢地，随着品牌商们不懈余力地推广和越来越多的年轻玩家地尝试，智能影像设备国内市场潜力巨大。行业资源将更加倾向于头部玩家行业资源将更加倾向于头部玩家短期内上游产业产能短缺情况看不到好转，未来智能影像设备品牌玩家之间关于DSP芯片、CMOS图像传感器等核心原材料的竞争将会进一步加剧。可以预见的是，采购量已经形成一定规模的行业头部玩家将会拥有更强的行业议价权，从而造成行业有限的资源向头部玩家进一步倾斜，对行业小玩家造成一定程度的资源垄断态势。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备市场未来发展趋势手持智能影像设备市场未来发展趋势84来源：沙利文研究专家级运动相机产品将逐渐增加全景功能专家级运动相机产品将逐渐增加全景功能全景拍摄可以实现记录环境影像的同时拍摄玩家自身运动状态的功能，目前市场上智能影像设备玩家更青睐于选择带全景功能的运动相机。作为注重客户体验的专家级运动相机产品未来更多地增加全景拍摄功能，以提升自身附加价值和拓宽产品受众是未来的必然趋势。受消费端需求驱动，追求一机多功能的“全能、高性价比”机型已逐渐成为产业共识。另一方面，在生产端，全景相机和运动相机对镜头模组和DSP芯片等原料的重叠需求会照成低效的上游产能消耗。随着技术壁垒的逐步打破，消费级智能影像设备的产业整合或是无法避免的。全景相机大类将继续分化全景相机大类将继续分化全景相机产业目前专业级和消费级产品有进一步技术分化趋势。消费级全景相机在个人消费端驱动下，技术发展将更加强调户外性和实用性，在加强动像捕捉、防抖、防水等防护性能的同时，改进图像编辑软体、优化社交媒体分享方案、接入家庭AIoT系统场景等方向功能。而另一方面，专业级全景相机将更加注重提升自身工业生产价值，在VR全景、电影制作、工业监控等场景下继续深化自身成像精度和数据可用性。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10手持智能影像设备市场未来发展趋势手持智能影像设备市场未来发展趋势85来源：沙利文研究宣传模式将更加多样化宣传模式将更加多样化在广告投放方面，线上广告相比传统线下广告投入更加精准，对于目标客户人群的可及性也更好。参考目前业内广告宣传方面做得最好的Insta360，智能影像设备产品宣传的主要发力点已逐渐转向类似于抖音、快手、Bilibili等新兴自媒体用户宣传平台。同时，借助和苹果、佳能等线下著名品牌商店联合销售的策略也是很好的选择。全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10方法论方法论沙利文研究布局中国市场，深入研究10大行业，54个垂直行业的市场变化，已经积累了近50万行业研究样本，完成近10,000多个独立的研究咨询项目。研究院依托中国活跃的经济环境，从社会经济、人工智能、大数据、政策导向等领域着手，研究内容覆盖整个行业的发展周期，伴随着行业中企业的创立，发展，扩张，到企业走向上市及上市后的成熟期，研究院的各行业研究员探索和评估行业中多变的产业模式，企业的商业模式和运营模式，以专业的视野解读行业的沿革。研究院融合传统与新型的研究方法，采用自主研发的算法，结合行业交叉的大数据，以多元化的调研方法，挖掘定量数据背后的逻辑，分析定性内容背后的观点，客观和真实地阐述行业的现状，前瞻性地预测行业未来的发展趋势，在研究院的每一份研究报告中，完整地呈现行业的过去，现在和未来。研究院密切关注行业发展最新动向，报告内容及数据会随着行业发展、技术革新、竞争格局变化、政策法规颁布、市场调研深入，保持不断更新与优化。研究院秉承匠心研究，砥砺前行的宗旨，从战略的角度分析行业，从执行的层面阅读行业，为每一个行业的报告阅读者提供值得品鉴的研究报告。86全球手持智能影像设备市场发展白皮书全球手持智能影像设备市场发展白皮书2023/102023/10法律声明法律声明本报告著作权归沙利文所有，未经书面许可，任何机构或个人不得以任何形式翻版、复刻、发表或引用。若征得沙利文同意进行引用、刊发的，需在允许的范围内使用，并注明出处为“沙利文研究”，且不得对本报告进行任何有悖原意的引用、删节或修改。本报告分析师具有专业研究能力，保证报告数据均来自合法合规渠道，观点产出及数据分析基于分析师对行业的客观理解，本报告不受任何第三方授意或影响。本报告所涉及的观点或信息仅供参考，不构成任何证券或基金投资建议。本报告仅在相关法律许可的情况下发放，并仅为提供信息而发放，概不构成任何广告或证券研究报告。在法律许可的情况下，沙利文可能会为报告中提及的企业提供或争取提供投融资或咨询等相关服务。本报告的部分信息来源于公开资料，沙利文对该等信息的准确性、完整性或可靠性不做任何保证。本报告所载的资料、意见及推测仅反映沙利文于发布本报告当日的判断，过往报告中的描述不应作为日后的表现依据。在不同时期，沙利文可发出与本报告所载资料、意见及推测不一致的报告或文章。沙利文均不保证本报告所含信息保持在最新状态。同时，沙利文对本报告所含信息可在不发出通知的情形下做出修改，读者应当自行关注相应的更新或修改。任何机构或个人应对其利用本报告的数据、分析、研究、部分或者全部内容所进行的一切活动负责并承担该等活动所导致的任何损失或伤害。87

0人已浏览 2023-10-31 87页 5星级
MR行业：或将接棒智能手机开启未来消费电子新篇章-231017（38页）.pdf
!#$%&()*+,-.*/01234 MR!#$%&()*+,-./01234567 !#$%!#$%l!#!#2023$6%&()%&()Apple Vision Pro*(+,-.*(+,-./.

0人已浏览 2023-10-18 38页 5星级
Splunk &amp AWS：容器监控和可观察性白皮书（24页）.pdf
白皮书容器监控和可观察性1白皮书容器监控和可观察性简介现在世界上超过 50%的人口通过手机连接到互联网，开发新的应用程序已经成为任何数字业务的核心要求。这一核心需求的出现为基础设施领域带来了范式转.

41人已浏览 2023-06-06 24页 5星级
数说故事：2022年3C数码行业解决方案（69页）.pdf
数说故事 3 C 行业解决方案3C3C行业风云巨变各大厂商如何寻求新出路？数说故事2 0 2 2.0 9Contents01行业趋势02解决方案03标杆案例04公司介绍行业趋势.

191人已浏览 2023-05-19 69页 5星级
Apollo Reports：2022年欧洲医学影像管理市场及全球概况报告（英文版）（143页）.pdf
德国医学影像管理市场体量，按产品分类，2022-2032年，年增长(%)3

22人已浏览 2022-09-23 143页 5星级
Apollo Reports：2022年拉丁美洲、中东和非洲医学影像管理市场及全球概况报告（英文版）（140页）.pdf
2021年阿波罗报告拉丁美洲，中东和非洲医疗影像管理市场MM市场估计和预测

19人已浏览 2022-09-23 140页 5星级
Apollo Reports：2022年亚太地区医学影像管理市场及全球概况报告（英文版）（143页）.pdf
2022-2032年，年增长率(%)22表3全球医学影像管理市值，各地区，2022-2032年，吨22表4全球医学影像管理市值，各地区，2022-2032年，年增长率(%)23表5亚太医学影像表6按产.

23人已浏览 2022-09-19 143页 5星级
普华永道（PwC）：数字影像-关于元宇宙的思考（英文版）（7页）.pdf
超宇宙不需要镜像实际的物质世界;这样做毫无意义。因此，在虚拟的伦敦场景中，人们很可能会在贝克街221B号遇到福尔摩斯和华生。玩家可以在老邦德街(Old Bond Street)上的著名时装商店购买NF.

44人已浏览 2022-05-30 7页 5星级
硬件推动VR/AR行业变革Metaverse展望未来-2021.05.21（37页）.pdf
一方面，国内 VR 用户相对较少，国内处于主流地位的 HTC Vive 系列产品仍然是以 B 端用户为主，而消费级产品铺货以及平台尚未普及。另一方面,VR 内容的监管仍然是产业面临的问题，由于 VR .

135人已浏览 2021-07-29 37页 5星级
2021年极米科技公司竞争优势与中国智能微投市场空间分析报告（34页）.pdf
激光电视销量 3 年 CAGR 达 67%，2021Q1 增势延续，全年高增可期。激光电视是基于超短焦投影技术和激光光源技术实现的短距离大尺寸画面投放设备。1）2018 年国内激光电视出货量实现大幅度.

62人已浏览 2021-07-16 34页 5星级
极米科技-国内智能微投龙头尽享行业高增红利-210715（34页）.pdf
此前，家用智能投影设备以长焦镜头+LED 光源为主流路线，超短焦通常与激光光源相结合。2021 年多款采用不同技术路线组合的投影产品面世，打开了多技术路线群雄逐鹿的局面。1）今年 4 月，当贝发布 X.

40人已浏览 2021-07-16 34页 5星级
晶晨股份-多媒体智能SoC龙头开启新征程-210714（36页）.pdf
全球 IPTV/OTT 机顶盒出货量保持高速增长，为机顶盒 SoC 芯片市场提供广阔的发展空间。根据前瞻产业研究院的预测，2025年全球 IPTV/OTT机顶盒市场出货量达到 4.3亿台，未来 5 年.

54人已浏览 2021-07-16 36页 5星级
2021年极米科技公司竞争优势与智能投影市场成长空间分析报告（38页）.pdf
1、智能投影业务：随着市场对智能投影的认知不断加深以及公司光机自研的比例上升，公司产品标准化能力加强，对成本控制拥有自主权，预计公司智能投影业务营收会持续高速增长，其中假设智能微投未来三年营收增长率分.

36人已浏览 2021-07-07 39页 5星级
2021年全球家用投影仪市场空间与智能微投品类分析报告（16页）.pdf
目前投影设备照明显示技术主要包括 3LCD、DLP 及 LCOS 三种技术方案，不同技术方案发展情况如下：液晶投影显示(LCD) LCD 被称为单片式 LCD，内部安装一块液晶板。3LCD 被称为三.

252人已浏览 2021-06-24 16页 5星级
Counterpoint：智能手机摄像头的技术融合（英文版）（31页）.pdf
相机现在是智能手机创新的核心。这也是智能手机用户最常用的功能。记住这一点，智能手机制造商与相机生态系统合作，一直在努力提高移动摄影性能，在硬件规格和人工智能支持的软件和算法开发方面都取得突破。相机和人.

304人已浏览 2021-06-01 31页 5星级
泰尔终端实验室： 2019智能手机影像技术应用观察及趋势分析(32页).pdf
1 2019智能智能手机手机影像技术影像技术应用应用观察及趋势分析观察及趋势分析中国信息通信研究院泰尔终端实验室北京旷视科技有限公司联合发布 2019年12月31日 2 前言前言当前，手机已.

88人已浏览 2019-12-01 32页 5星级
清科研究中心：2018年智能影像行业研究报告(105页).pdf
1 智能影像行业研究报告 2012018 8 年 1 12 2 月 2 研究方法研究方法信息来源信息来源本报告中的数据除特殊说明外均来自于私募通，私募通的数据有三个来源，市场调研、访谈以及专业网.

100人已浏览 2018-12-01 105页 5星级

共20条共1页

前往页

热门报告

Counterpoint：智能手机摄像头的技术融合（英文版）（31页）.pdf

2021年全球家用投影仪市场空间与智能微投品类分析报告（16页）.pdf

数说故事：2022年3C数码行业解决方案（69页）.pdf

硬件推动VR/AR行业变革Metaverse展望未来-2021.05.21（37页）.pdf

清科研究中心：2018年智能影像行业研究报告(105页).pdf

泰尔终端实验室： 2019智能手机影像技术应用观察及趋势分析(32页).pdf

2021年极米科技公司竞争优势与中国智能微投市场空间分析报告（34页）.pdf

晶晨股份-多媒体智能SoC龙头开启新征程-210714（36页）.pdf