《人工智能行业专题:SAM带领CV领域技术突破赋能多场景AI应用-230804(30页).pdf》由会员分享,可在线阅读,更多相关《人工智能行业专题:SAM带领CV领域技术突破赋能多场景AI应用-230804(30页).pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告|20232023年年0808月月0404日日超配超配人工智能行业专题:人工智能行业专题:SAMSAM 带领带领 CVCV 领域技术突破,赋能多场景领域技术突破,赋能多场景 AIAI 应用应用核心观点核心观点行业研究行业研究行业专题行业专题计算机计算机超配超配维持评级维持评级证券分析师:熊莉证券分析师:熊莉证券分析师:库宏垚证券分析师:库宏垚1-S0980519030002S0980520010001市场走势资料来源:Wind、国信证券经济研究所整理相关研究报告计算机行业 2023 年 7 月暨中期
2、投资策略-紧抓算力、大模型、应用迭代周期,把握 AI 带来信息产业革命 2023-07-17甲骨文 OCI:高性能+经济性,抢占 AI 云市场 2023-07-09ChatGPT 用户数据:用户时长及流量分析 2023-06-28人工智能行业专题:海外AI基础软件被认可2023-06-19计算机行业 2023 年 6 月投资策略-AI 大模型发展新趋势,关注AI 应用+监管 2023-06-13SAMSAM 模型为模型为 CVCV 领域的领域的 C ChatGPThatGPT,为计算机视觉带来技术突破为计算机视觉带来技术突破。Meta 公司近期推出了其创新的 AI 模型Segment Anyt
3、hing Model(SAM),专门用于计算机视觉(CV)领域的图像分割任务。这一模型吸取了ChatGPT基于提示(Prompt)的学习范式,实现了预训练与特定下游任务之间的紧密结合,从而显著提高了模型的泛化能力。更为出色的是,SAM 还展现出了卓越的零样本学习效果。SAM 的设计初衷和核心愿景是为了简化图像分割流程。它旨在减少对专业建模知识的依赖,同时也降低了大规模训练计算的需求。与此同时,SAM模型还大大降低了用户手动标注掩码的需求。其最终目标是使用户在“不会/少会操作、不标注/少标注数据、不训练/少训练模型”的前提下,也能够实现高效的图像目标分割。SAMSAM 引起引起 AIAI 届的广
4、泛关注和讨论,届的广泛关注和讨论,并并产生产生相关相关衍生模型,衍生模型,提升模型功能提升模型功能,增加应用可能性增加应用可能性。其衍生模型在分割效率、医学影像分割、阴影缺陷检测、伪体识别和动态图像分割等领域有性能提升,如SEEM 模型结合了 SAM 的零样本泛化能力和检测器,可以根据多种用户输入分割图像或视频中的内容;MedSAM对SAM进行微调,专门针对医学影像分割,并显示出比SAM 更优的性能;通过适配方法生成SAM-Adapter,其性能得以提升,特别是在阴影检测和伪装物体分割等任务上;SAM-Track 项目拓展了SAM 模型,增强其视频分割能力,可广泛应用于多种视频场景,提供高准确
5、性和可靠性的视频编辑功能。SAM衍生模型或可应用与运动场景、医学影像、遥感图像等图像分割难度较大的领域。SAMSAM 及其衍生模型及其衍生模型可基于强大的性能赋能多场景应用可基于强大的性能赋能多场景应用,催生巨大应用蓝海,催生巨大应用蓝海。如SAM 在零样本学习上表现优秀,可减少已有的CV 领域训练数据量,实现降本增效;或在在标记数据稀缺或获取成本高的领域有许多潜在的应用。可将大模型应用在CV 领域的制造业赛道,如工业机器视觉行业;可将模型应用于计算机视觉的下游应用赛道,包括自动驾驶、安防系统、AR领域等;此外遥感图像、医学影像领域,由于图像分割难度较高,技术还需突破,可长期关注。风险提示:风
6、险提示:1、技术发展不及预期;2、算力、数据支持不及预期;3、应用落地不及预期;4、行业竞争加剧。投资建议:投资建议:建议关注建议关注 AIGCAIGC 在在 CVCV 领域应用的相关赛道领域应用的相关赛道,维持超配评级。,维持超配评级。AI大模型正在推动空天信息产业的发展,其中遥感大模型技术日益显现其重要性。相对于传统方法的局限性,大模型提供了统一分割、识别和生成遥感图像的能力,显著提高了效率和鲁棒性。基于此推荐相关标的 1)航天宏图:推出了天权大模型,提升了各类遥感数据的处理性能;2)中科星图:推出了空天灵眸大模型,推动在线数字地球业务。重点公司盈利预测及投资评级重点公司盈利预测及投资评级
7、公司公司公司公司投资投资昨收盘昨收盘总市值总市值EPSEPSPEPE代码代码名称名称评级评级(元元)(亿元亿元)2023E2023E2024E2024E2023E2023E2024E2024E688066.SH 航天宏图买入61.70160.391.582.3039.0526.82688568.SH 中科星图买入48.50177.240.951.3251.0536.74资料来源:Wind、国信证券经济研究所预测请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告2内容目录内容目录SAMSAM 模型模型:CVCV 领域的领域的 C ChatGPThatGPT.5 5SAM:“分割
8、一切”的 AI 新模型.5Prompt:将 ChatGPT 的学习思维应用在 CV 领域.5ZSL:零样本学习降本增效,提高模型泛化能力.9SA-1B:迄今为止最大的分割数据集,助力模型增效.10SAM 核心优势:减少训练需求,提升分割性能.12基于基于 SAMSAM 二次创作,衍生模型提升性能二次创作,衍生模型提升性能.1313SEEM:交互、语义更泛化,分割质量提升.13MedSAM:提升感知力,应用医学图像分割.15SAM-Adapter:阴影检测再升级,伪体分割更精准.16SAM-Track:扩展 SAM 应用领域,增强视频分割性能.18SAMSAM 及衍生模型赋能多场景应用及衍生模型
9、赋能多场景应用.1818基于 3D 重建,赋能 AR、游戏.18跟踪运动物体,赋能安防监控.19解决长尾难题,赋能自动驾驶.20提高分割性能,赋能遥感图像.21算力应用驱动,赋能机器视觉.24投资建议投资建议.2626风险提示风险提示.2828请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告3图表图表目录目录图1:SAM 模型官方文章.5图2:自然语言处理(NLP)的常用算法和模型.6图3:预训练模型(PLM)的发展阶段和特征.6图4:基于提示的学习(prompt-based learning)各分支.7图5:传统的预训练+微调模型以及 prompt 范式.7图6:Fine
10、-tune 和 prompt 两种范式的区别.8图7:预训练+下游任务微调(PLM+Fine-tuning)处理情感分类任务(写影评).8图8:零样本学习(ZSL)示例.9图9:SAM 的零样本学习能力在 CT 影像中的应用.10图10:SAM 使用数据引擎(data engine)渐进式收集数据示意图.10图11:SA-1B 比现有分割数据集多 400 倍.11图12:SA-1B 掩码标注速度更快.11图13:SA-1B 数据集的跨区域代表性较强.12图14:SAM 的可提示分割模型分为三部分.13图15:框选分割(BOX).13图16:全选分割(Everything).13图17:SEEM
11、 在交互和语义空间上都比 SAM 更具泛化性.14图18:SEEM 根据用户输入的点和涂鸦进行图像识别.14图19:SEEM 根据用户输入的文本进行图像分割.14图20:SEEM 根据参考图像对其他图像进行分割.15图21:SAM 分割医学影像测试的详细框架.15图22:测试 SAM 对医学影像分割性能的数据集 COSMOS 553K 及分割效果.16图23:MedSAM 示意图.16图24:SAM 模型不能很好地感知自然场景中的伪体.17图25:SAM 在工业场景中缺陷检测能力较差.17图26:SAM-Adapter 示意图.17图27:SAM 可在 AR 眼镜中识别日常物体.19图28:S
12、AM 的 3D 重建功能.19图29:SEEM 在跑酷、运动、游戏视频中可以准确分割参考对象.20图30:城市道路场景中长尾场景较多.21图31:遥感图像处理发展阶段.22图32:大模型应用于遥感图像处理.22图33:基于锚点的 prompter.23图34:基于查询的 prompter.23图36:机器视觉四大功能及难度.24图37:机器视觉发展历程.24图38:基于 AI 的轻量级人脸识别网络,可用于视频实时分析、安防监控等.25请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告4图39:OVD 目标检测基本流程.26图40:AI 大模型驱动空天信息产业发展.26图41:
13、天权大模型技术路线.27图42:中科星图“空天灵眸”大模型.27请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告5SAMSAM 模型模型:CVCV 领域的领域的 C ChatGPThatGPTSAMSAM:“分割一切分割一切”的的 AIAI 新模型新模型2023 年 4 月,Meta 发布了全新的 AI 模型 Segment Anything Model,即 SAM。官网对该模型的描述为:“只需一次点击,便可在任何图像中分割出任何物体”。Segment Anything 文章指出,SAM 建立了一个基础图像分割模型,并在一个巨大的数据集上进行训练,从而试图解决一系列下游任务
14、,成为一种通用的模型。论文的关键词包含了:prompt(基于提示学习)、task(下游任务)、zero-shot(零样本)、data(丰富的数据集)。模型的核心要点为:(1)与 ChatGPT 的启发思想一样,采用 Prompt-based learning 的可提示学习范式,提高学习效率;(2)建立了迄今为止最大的分割数据集 Segment Anything 1-Billion(SA-1B),含 1100 万张图像,超过 10 亿个掩码,比任何现有的分割数据集多 400 倍;(3)建立了通用的,全自动的分割模型,零样本灵活转化新任务,新领域,结果甚至优于之前的监督结果。图1:SAM 模型官方
15、文章资料来源:Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rollandand Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C.Berg and Wan-Yen Lo andPiotr Dollr and Ross Girshick.Computer Science.(2023).,国信证券经济研究所整理PromptPrompt:将将 C Chahat tGPTGPT 的学习思维应用在的学习思维应用在
16、 CVCV 领域领域SAM 模型的学习训练方式是 prompt,来源于近年来突飞猛进的 NLP 下游任务的优化过程。Prompt 代表的 prompt-based learning,即基于提示的学习,区别于传统的监督学习,被 GPT-3 团队推进使用。SAM 利用这种先进的技术路线,完成 CV底层技术突破,并且具有广泛的通用性和零样本迁移的能力。为了较深刻了解 prompt,本节对 NLP、PLM 及其他相关模型做简单介绍。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告6P Promptrompt 之前的模型在做什么之前的模型在做什么自然语言处理(NLP,Nature L
17、anguage Processing)主要研究人和计算机的交互,其中预训练语言模型(PLM,Pretrained Language Models)是较为前沿的 NLP处理模型。图2:自然语言处理(NLP)的常用算法和模型资料来源:CSDN,国信证券经济研究所整理根据学习范式和发展阶段的不同,预训练模型可以简单划分为四代:(1)基于特征的学习(Feature-based):第一代预训练模型,根据“人的知识”设置规则来提取文本特征,以此来对文本进行编码。代表模型是 TF-DIF;(2)基于结构的学习(Architecture-based):第二代预训练模型,开启了 NLP的深度学习应用。代表模型是
18、 W2V;一二代预训练模型的共同点是模型的输出会作为下游任务的输入,但本身不做下游任务,之后的模型会将预训练的结果和模型本身都投入到下游任务中。图3:预训练模型(PLM)的发展阶段和特征资料来源:Pengfei Liu and Weizhe Yuan and Jinlan Fu and Zhengbao Jiang and Hiroaki Hayashi andGraham Neubig,.Computer Science,(2021).,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告7(3)基于下游微调(Fine-tuning):第三代预训练模型,
19、采用预训练+下游微调的方式,代表模型是 BERT 和 GPT。(4)基于提示的学习(Prompt-based):第四代预训练模型,在三代模型 BERT和 GPT 的基础上做了进一步的改进。将输入信息按照特定模板进行处理,把任务重构成一个更能够充分利用预训练语言模型处理的形式。代表模型是 ChapGPT,gpt3.5,SAM。其中,三代和四代的核心都是先进行预训练,再进行下游微调。简单来说,预训练模型是培养得到的“高中毕业生”,下游任务为“高校里的专业课程”,给这批“高中毕业生”再学习与未来应用领域相关的课程,将其培养成具备专业技能和知识的“大学生”,再应对专业岗位的要求。图4:基于提示的学习(
20、prompt-based learning)各分支资料来源:Pengfei Liu and Weizhe Yuan and Jinlan Fu and Zhengbao Jiang and Hiroaki Hayashi andGraham Neubig,.Computer Science,(2021).,国信证券经济研究所整理P Promptrompt 的优势的优势:实现预训练和下游任务的统一实现预训练和下游任务的统一如图 5(左)所示,传统、标准的 PLM+finetuning 范式(这里指三代模型)存在上下游差异大,应用不匹配的问题。预训练阶段采用的是自回归、自编码方式,而对下游微调来说
21、,就需要大量的新数据来适应新形式。图5:传统的预训练+微调模型以及 prompt 范式资料来源:CSDN,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告8但是,如今的模型的参数量越来越大,企业部署起来成本极高,而为了每一种下游任务都要去专门微调一个模型,会造成资源的极大浪费。整体来说,这类模型的缺点在于:1.微调样本需求量大;2.模型的专用性强,导致部署成本高。GPT-3 团队认为在阅读大量无监督文本后,语言模型可以“培养广泛的技能和模式识别的能力”,并有效证明了在少样本场景下,模型不需要更新任何参数,就能够实现不俗效果。在这个基础上发展 promp
22、t 的范式。预训练+微调范式是通过大量训练让模型去适配下游任务。而 Prompt 是把下游任务统一成预训练任务的形式,以特定的模板,将下游任务的数据组装成自然语言形式,充分挖掘预训练模型本身的能力。图6:Fine-tune 和 prompt 两种范式的区别资料来源:Pengfei Liu and Weizhe Yuan and Jinlan Fu and Zhengbao Jiang and Hiroaki Hayashi andGraham Neubig,.Computer Science,(2021).,国信证券经济研究所整理以情感分类任务为例,使用两种预训练模型进行处理,比如利用模型写影
23、评、书评、读后感等。如果使用传统 Fine-tune,需要人力来准备一个微调数据集,里面必须包含各种对电影/书籍的评价,以及这些评价人工阅读后的感受(是积极的还是消极的)。这个下游微调数据集必须足够大,才能应对复杂的任务。微调数据集的大小可能远超过了预训练数据集,乃至失去了预训练的意义;而 prompt使用预训练语言模型最擅长的完形填空模式等方式,让模型根据输入句,输出对MASK 位置单词的预测,推测出评价用户对这部作品究竟是持 Positive(积极)还是 Negative(消极)的态度。图7:预训练+下游任务微调(PLM+Fine-tuning)处理情感分类任务(写影评)资料来源:CSDN
24、,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告9综上,prompt 范式的优点在于:1.可以减少模型训练的样本量,在少样本甚至零样本的情况下进行训练;2.提高通用性,在实际使用中降本增效。如今 GPT-4等大模型,已不再完全开放全部的模型参数,用户都只能通过 API 接口使用模型进行预测,Prompt 工程对下游任务的重要性已无需多言。ZSLZSL:零样本学习降本增效零样本学习降本增效,提高模型泛化能力提高模型泛化能力零样本学习能力是什么零样本学习能力是什么零样本学习(zero-shot learning,ZSL)是机器学习的难题,其目标是模型对于
25、从未见过样本的“未知物体”也能进行识别和分类。ZSL 在标记数据稀缺或获取成本高的领域有许多潜在的应用。图 7 描述了零样本学习的经典案例:认识斑马。一个“儿童”在动物园里见过了马、熊猫、狮子、老虎等动物,但是从未见过斑马,通过老师的描述,该“儿童”了解到斑马有四条腿、黑白相间的条纹,有尾巴。最终轻松地辨认出斑马。模型也可以通过零样本学习,从见过的类别(第一列)中提取特征(如:外形像马、条纹、黑白),然后根据对未知类别特征的描述,识别未见过的类别。图8:零样本学习(ZSL)示例资料来源:C.H.Lampert,H.Nickisch and S.Harmeling,.IEEEConference
26、onComputerVisionandPatternRecognition,(2009),pp.951-958,国信证券经济研究所整理SAMSAM 的零样本学习能力得到认可的零样本学习能力得到认可SAM 正具备这样一种零样本分割能力,它可以从各种 prompt 输入(包括点、方框和文本)中生成高质量的掩膜(Mask)。学术界有多篇论文探讨了 SAM 的 ZSL 能力,如SAM.MD:Zero-shot medical image segmentation capabilities of theSegment Anything Model测试了 SAM 的 ZSL 效果,在图像分割任务中输入了部
27、分点和框作为 prompt 提示,结果显示:专家用户可以通过 SAM 实现大部分场景下的快速半自动分割。虽然在实验中 SAM 没有表现出领先的全自动分割性能,但可成为推动临床医生半自动分割工具发展的潜在催化剂,预示了这类模型进一步适应复杂医疗领域的无限可能性。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告10图9:SAM 的零样本学习能力在 CT 影像中的应用资料来源:Roy,Saikat&Wald,Tassilo&Koehler,Gregor&Rokuss,Maximilian&Disch,Nico&Holzschuh,Julius&Zimmerer,David&Mai
28、er-Hein,Klaus.Medical Imaging with Deep Learning.(2023).,国信证券经济研究所整理总的来说,ZSL 在没有任何训练数据的情况下,也可以完成一些任务。这种技术在大模型发展中具有重要意义。随着大模型的发展,模型的参数数量和计算量不断增加,需要更多的数据来训练。但是数据收集和标注是非常耗时和昂贵的。ZSL技术可以减少对数据的依赖,从而降低了训练成本。同时,ZSL 技术还可以提高模型的泛化能力,使其能够处理更多的任务。SA-1BSA-1B:迄今为止最大的分割数据集迄今为止最大的分割数据集,助力模型增效助力模型增效DataData EngineEng
29、ine:使用数据引擎生成掩码使用数据引擎生成掩码SAM 使用数据集进行训练,标注者使用 SAM 交互式注释图像,反过来更新 SAM;形成闭环成长,且收集新的分割掩码比以前更快。基于这种方法,SAM 建立数据引擎,采用新颖的数据收集方法,将模型和标注人员结合起来,最大限度提高数据收集的效率和质量。一共分为 3 个阶段:图10:SAM 使用数据引擎(data engine)渐进式收集数据示意图资料来源:Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rollandand Laura Gustaf
30、son and Tete Xiao and Spencer Whitehead and Alexander C.Berg and Wan-Yen Lo andPiotr Dollr and Ross Girshick.Computer Science.(2023).,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告11(1)模型辅助的手工注释阶段。在这个阶段,标注人员使用 SAM 模型作为辅助工具,通过点击、框选或输入文本等方式来生成 MASK,且模型根据标注人员的输入实时更新 MASK,并提供一些候选 MASK 供标注人员选择和修改。这样,标注人员可
31、快速精确分割图像中的对象,不需要手动绘制。这个阶段的目标是收集高质量MASK 用于训练和改进 SAM 模型;(2)半自动阶段。在这个阶段,SAM 模型已经有了一定的分割能力,可以自动对图像中的对象进行预测。但是由于模型还不够完善,预测的 MASK 可能存在错误或者遗漏。标注人员的主要任务是收集更多的检查和修正模型的预测结果,保证MASK 的准确性和完整性。这个阶段的目的是收集更多的掩码,用于进一步提升 SAM模型的性能和泛化能力(3)全自动阶段。这个阶段 SAM 模型已经达到了较高的水平,可以准确分割出图形中的所有对象,不需要任何人工干预。因此,标注人员的工作就变成了确认和验证模型输出,保证没
32、有任何错误。这个阶段的目标是利用 SAM 模型的自动化标注能力,快速扩充数据集的规模和覆盖范围。DataData SetSet:使用数据引擎生成掩码使用数据引擎生成掩码SAM 团队通过这种“模型辅助的手工注释半自动半注释模型全自动分割掩码”的渐进式方式收集掩码。最终成功地创建了规模空前、质量优良、多样化丰富、隐私保护的图像分割数据集 SA-1B。该数据集:(1)包含了 1100 万张多样化、高清晰度、隐私保护的照片(明确为相机拍摄),照片由一家大型图片公司提供并授权,在数据许可证允许的前提下,可用于计算机视觉研究;(2)包含 11 亿个精细的分割 Mask(掩码),这些 Mask 是由 Met
33、a 开发的数据引擎(Data Engine)自动生成的,展示了该引擎强大的自动化标注能力;(3)每张图像的平均分辨率为 15002250 像素,每张图像包含约 100 个 Mask。(4)比现有的分割数据集多 400 多倍;比 COCO 完全手动的基于多边形的掩码标注快 6.5 倍,比以前最大的数据标注工作快 2 倍。图11:SA-1B 比现有分割数据集多 400 倍图12:SA-1B 掩码标注速度更快资料来源:Alexander Kirillov and Eric Mintun and Nikhila Raviand Hanzi Mao and Chloe Rolland and Laura
34、 Gustafson and TeteXiao and Spencer Whitehead and Alexander C.Berg and Wan-YenLo and Piotr Dollr and Ross Girshick.Computer Science.(2023).,国信证券经济研究所整理资料来源:Alexander Kirillov and Eric Mintun and Nikhila Raviand Hanzi Mao and Chloe Rolland and Laura Gustafson and Tete Xiaoand Spencer Whitehead and Al
35、exander C.Berg and Wan-Yen Lo andPiotr Dollr and Ross Girshick.ComputerScience.(2023).,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告12这个数据集旨在训练一个能够从开放世界图像中分割任何物体的通用模型。数据集不仅为 SAM 模型提供了强大的训练基础,也为图像分割领域提供了一个新的研究资源和基准。此外,SAM 的论文对数据集进行了 RAI(responsible AI,人工智能的责任性)分析,认为 SA-1B 的图像相比之前的分割数据集具有更强的跨区域代表性,大部分
36、国家的图片都超过了 1000 张。图13:SA-1B 数据集的跨区域代表性较强资料来源:Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rollandand Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C.Berg and Wan-Yen Lo andPiotr Dollr and Ross Girshick.Computer Science.(2023).,国信证券经济研究所整理SAMSAM 核心优势:
37、减少训练需求,提升分割性能核心优势:减少训练需求,提升分割性能SAM 的核心愿景为:减少对于特定任务的专业建模知识要求,减少训练计算需求,减少自己标注掩码的需求,在“不会/少会、不标注/少标注、不训练/少训练”的情况下分割目标。SAM 主要通过以下三种手段来逐步实现图像领域的“通用分割大模型“,(1)数据的规模和质量。SAM 通过使用零样本迁移能力,在不同的数据源和任务上收集了大量的高质量的图像分割数据(1100 万张图像和 11 亿个掩码(Mask),构建了 SA-1B 数据集,这是目前最大的图像分割数据集,远远超过了之前的数据集。(2)模型的效率和灵活性。SAM 主要借鉴了 Transfo
38、rmer 模型架构,采用注意力机制和卷积神经网络,实现了一个高效且可提示的图像分割模型,可以处理任意大小和比例的图像,并且可以根据不同的输入提示生成不同的分割结果。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告13图14:SAM 的可提示分割模型分为三部分资料来源:Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rollandand Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C.B
39、erg and Wan-Yen Lo andPiotr Dollr and Ross Girshick.Computer Science.(2023).,国信证券经济研究所整理(3)任务的泛化和迁移。SAM 通过使用可提示分割任务(prompt segment tasks),实现了一个可以零样本迁移的图像分割模型,可以适应新的图像分布和任务,而无需额外的训练数据或微调。这使得 SAM 可以在多个图像分割任务上表现出色,甚至超过一些有监督的模型。目前模型已经实现的功能有:1)SAM 已经学会了物体的概念;2)可以为图像或者视频中的物体生成掩码,甚至没有见过;3)通用性很强;4)支持用户使用各种交
40、互性的方式来分割图像和视频,如全选分割自动识别图像内所有物体、框选分割将用户想选定的部分框选出来即可完成分割。图15:框选分割(BOX)图16:全选分割(Everything)资料来源:SAM 官网,国信证券经济研究所整理资料来源:SAM 官网,国信证券经济研究所整理总的来说,SAM 是一个具有划时代意义的模型,它为图像分割领域提供了一个新的范式和思路,也为计算机视觉领域的基础模型研究提供了一个新的视角和方向。基于基于 SAMSAM 二次创作,衍生模型提升性能二次创作,衍生模型提升性能自从 SAM 发布以来,已引起 AI 届的广泛关注和讨论,产生了一批衍生模型和相关的应用。如 SEEM 模型,
41、MedSAM 模型等,可以应用在工程、医学影像、遥感图像和农业等领域。S SEEMEEM:交互、语义更泛化,交互、语义更泛化,分割质量提升分割质量提升请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告14图17:SEEM 在交互和语义空间上都比 SAM 更具泛化性资料来源:Xueyan Zou and Jianwei Yang and Hao Zhang and Feng Li and Linjie Li and Jianfeng Wangand Lijuan Wang and Jianfeng Gao and Yong Jae Lee.Computer Science.(2
42、023).,国信证券经济研究所整理SEEM(Segment everything everywhere at once)是研究者基于 SAM 提出的新的交互模型,利用 SAM 强大的零样本泛化能力,实现对任意图像中的所有物体进行分割。研究者提出了一种新的分割框架,将 SAM 与一个检测器结合,通过给 SAM提供检测器输出的边界框作为输入提示,从而生成对应物体的掩码。SEEM 能够根据用户给出的各种模态的输入(包括文本、图像、涂鸦等等),一次性分割图像或视频中的所有内容,并识别出物体类别。(1)论文已在多个公开数据集上进行实验,在分割质量和效率上都优于 SAM;(2)SEEM 是第一个不仅支持经
43、典分割任务,还支持各种用户输入类型的通用接口,包括文本、点、涂鸦、框和图像,提供强大的组合功能。图18:SEEM 根据用户输入的点和涂鸦进行图像识别图19:SEEM 根据用户输入的文本进行图像分割资料来源:Xueyan Zou and Jianwei Yang and Hao Zhang and FengLi and Linjie Li and Jianfeng Wang and Lijuan Wang andJianfengGaoandYongJaeLee.Computer Science.(2023).,国信证券经济研究所整理资料来源:Xueyan Zou and Jianwei Yang
44、 and Hao Zhang and Feng Liand Linjie Li and Jianfeng Wang and Lijuan Wang and Jianfeng Gaoand Yong Jae Lee.Computer Science.(2023).,国信证券经济研究所整理(3)能直接输入参考图像并指出参考区域,对其他图像进行分割,找出与参考区域一致的物体。该性能具有分类识别特质;(4)视频中的零样本分割功能。使用第一帧以及用户输入的涂鸦等,在模糊或者剧烈变形的视频中也可以准确分割参考对象。该功能可在道路场景、运动场景等请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研
45、究报告15应用中体现。图20:SEEM 根据参考图像对其他图像进行分割资料来源:Xueyan Zou and Jianwei Yang and Hao Zhang and Feng Li and Linjie Li and Jianfeng Wangand Lijuan Wang and Jianfeng Gao and Yong Jae Lee.Computer Science.(2023).,国信证券经济研究所整理M MedSAMedSAM:提升感知力,应用提升感知力,应用医学图像分割医学图像分割医学图像由于多样的成像模式、精细的解剖结构、不明确且复杂的边界以及广泛的物体尺度等,在图像分割
46、上具有较大的挑战性。为了测评 SAM 对医学影像分割的性能,深圳大学等多所高校联合整理了一个迄今为止最大规模的医学影像分割数据集 COSMOS 553K,并基于该数据集率先对 SAM 进行了全面、多角度、大规模的细致评估。图21:SAM 分割医学影像测试的详细框架资料来源:Maciej A.Mazurowski and Haoyu Dong and Hanxue Gu and Jichen Yang and Nicholas Konzand Yixin Zhang.Computer Science.(2023).,国信证券经济研究所整理评估结果显示,尽管 SAM 有可能成为一个通用的医学影像分
47、割模型,但它在医学影像分割任务中的表现目前还不稳定,特别是全自动 Everything 的分割模式不适用于大多数医学影像分割任务,在这种模式下,SAM 对医学分割目标的感知能力较差。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告16图22:测试 SAM 对医学影像分割性能的数据集 COSMOS 553K 及分割效果资料来源:Maciej A.Mazurowski and Haoyu Dong and Hanxue Gu and Jichen Yang and Nicholas Konzand Yixin Zhang.Computer Science.(2023).,国信证
48、券经济研究所整理因此,SAM 在医学影像分割的研究重点应该在如何有效地使用少量医学影像来微调 SAM 以提高模型的可靠性,搭建属于医学影像的 Segment Anything 模型。MedSAM为将 SAM 应用到医学影像分割的研究,该研究提出了一种简单的微调方法来适应SAM 到通用的医学影像分割任务,并在 21 个三维分割任务和 9 个二维分割任务上进行了全面的实验,证明 MedSAM 分割效果优于默认的 SAM 模型。图23:MedSAM 示意图资料来源:Jun Ma and Yuting He and Feifei Li and Lin Han and Chenyu You and Bo
49、 Wang.Electrical Engineering and Systems Science.(2023).,国信证券经济研究所整理SAM-ASAM-Adaptdapterer:阴影检测再升级,伪体分割更精准阴影检测再升级,伪体分割更精准请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告17除了医学影像分割难度较大之外,阴影检测和伪装物体分割任务对于 SAM 来说是比较困难的,因为它们涉及到一些细微的视觉线索和复杂的背景。SAM Struggles in Concealed Scenes-Empirical Study on Segment Anything“这篇技术报告
50、选取了当前伪装目标分割领域中三个常用的数据集合,在无提示的情况下测试了基于三种不同骨架的 SAM 模型的分割性能。结果显示:1)在自然场景中,SAM 模型分割隐蔽动物具有一定难度,且难以准确定位;2)在工业场景下,SAM 仍然无法做到“分割一切”,比如难以区分缺陷区域和纹理背景之间的差异性。图24:SAM 模型不能很好地感知自然场景中的伪体图25:SAM 在工业场景中缺陷检测能力较差资料来源:Ge-Peng Ji and Deng-Ping Fan and Peng Xu andMing-Ming Cheng and Bowen Zhou and Luc Van Gool.Computer S
51、cience.(2023).,国信证券经济研究所整理资料来源:Ge-Peng Ji and Deng-Ping Fan and Peng Xu and Ming-MingCheng and Bowen Zhou and Luc Van Gool.Computer Science.(2023).,国信证券经济研究所整理因此,解决 SAM 在某些分割任务中表现不佳的问题非常重要。SAM Fails toSegment Anything?SAM-Adapter:Adapting SAM in Few-shot Learning提出了一种基于少样本学习的适配方法。该方法没有对 SAM 网络进行微调,而
52、是提出了 SAM-Adapter,它通过使用简单而有效的适配器将特定领域的信息或视觉提示纳入分割网络,从而提高其在阴影检测和伪装物体分割等任务上的性能。图26:SAM-Adapter 示意图资料来源:Chen,Tianrun&Zhu,Lanyun&Ding,Chaotao&Cao,Runlong&Zhang,Shangzhan&Wang,Yan&Li,Zejian&Sun,Lingyun&Mao,Papa&Zang,Ying.,ComputerVision and Pattern Recognition,(2023).,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究
53、报告证券研究报告18SAM-TracSAM-Track k:扩展扩展 SAMSAM 应用领域,应用领域,增强视频分割增强视频分割性能性能SAM 模型展现了强大的图像分割能力,但缺乏对视频数据的支持。然而,浙江大学 ReLER 实验室的科研人员最新开源的 SAM-Track 项目,提升了 SAM 的视频分割能力,即:分割并跟踪任何物体(Segment-and-track anything)。SAM-Track在单卡上就能够支持各种时空场景中的目标分割和跟踪,包括街景、AR、细胞、动画、航拍等多种场景,能够同时追踪超过 200 个物体,为用户提供了强大的视频编辑能力。SAM-Track 扩展了 S
54、AM 模型的应用领域,使其可以更好地应对视频数据的挑战。相比于传统的视频分割技术,SAM-Track 具有更高的准确性和可靠性。它能够自适应地识别不同场景下的物体,并进行快速而精确的分割和跟踪。这让用户可以轻松地进行视频编辑和后期制作,得到更加出色的视觉效果。总之,SAM-Track 是基于 SAM 的有意义的研究成果,为视频分割和跟踪领域的研究和应用提供了新的可能性。它的出现将会为视频编辑、后期制作等领域带来更多的机会和挑战。SAMSAM 及衍生模型赋能多场景应用及衍生模型赋能多场景应用SAM 模型是一种高效且准确的图像分割模型,其应用能够为计算机视觉相关的行业和赛道提供更快和更准确的图像指
55、示识别能力。根据应用难度的不同,可以将SAM 的应用落地区分为以下三个方面:首先是工业机器视觉。在这个行业中,图像识别与处理已经得到了广泛的应用。SAM 模型的赋能可以带来降本增效,可以大大缩短训练时间和减少对数据的依赖。其次是 AR/CR 行业、自动驾驶、安防监控等赛道,需要捕捉和分割动态图像,基于 3D 重建等、对技术、算力的要求较高。且可能涉及数据、算法的伦理与隐私问题,应用落地需要一定时间;此外,SAM 也有分割任务实现较为困难的场景,在这方面 SAM 衍生模型的发展突破,后续将能对遥感,医学影像处理产业带来巨大推推动。如:(1)医学图像具有多样的模态、低对比度、噪声干扰等特点。SAM
56、 可以通过简单的微调来适应通用的医学图像分割,或通过输入提示来实现特定医学目标分割;(2)阴影检测和伪装物体分割任务涉及微小的视觉线索且背景复杂,对于 SAM比较困难的。因此,SAM 可以通过利用少量标注数据,few-shot 训练一个适配器模块,来调整其输出,从而改善其分割效果,应用于遥感图像、农业等领域。最后,SAM 还可以作为基础模型,与其他模型或系统结合:例如 SAM 可以与一个分类器结合,实现对任意图像中的所有物体进行检测和识别;或者与一个生成器结合,实现对任意图像中的任意物体进行编辑和转换等。这种结合能够提高图像识别和分割的准确性和效率,为不同行业带来更多应用场景。基于基于 3 3
57、D D 重建重建,赋能赋能 ARAR、游戏游戏在 AR/VR 领域,SAM 模型可以基于 3D 重建技术,为用户提供更加沉浸式的视觉体请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告19验。通过该模型,用户可以根据自己的目光选择一个物体,并将其转化为 3D 空间中的实体物体。具体来说,SAM 模型结合了 3D 重建技术和图像处理算法,能够将 2D 图像转化为3D 场景,从而实现对真实世界的还原和模拟。用户可以通过 AR 或 VR 设备观察和操控这些 3D 场景中的物件,享受高度沉浸式的互动体验。图27:SAM 可在 AR 眼镜中识别日常物体图28:SAM 的 3D 重建功能
58、资料来源:SAM 官网,国信证券经济研究所整理资料来源:SAM 官网,国信证券经济研究所整理此外,SAM 模型还能够通过深度学习算法,对用户的视线和手势进行识别和跟踪,实现更加智能化的互动方式。例如,当用户注视某个物体时,SAM 可以自动聚焦并为其提供更加详细的信息。同时,当用户做出手势操作时,SAM 也能够快速响应并实现对场景的调整和变化。总之,SAM 模型基于 3D 重建技术的应用赋能了 AR 和游戏等领域,为用户提供了更加沉浸式和智能化的虚拟体验。随着技术的不断进步和应用场景的不断扩展,SAM 模型在未来将会有更加广泛的应用前景。跟踪运动物体跟踪运动物体,赋能安防监控赋能安防监控SAM
59、是一种高效且准确的图像分割模型,其能力在视频和动态图像分割方面得到了强化,并衍生出了 SEEM 和 SAM-Track 两种应用。这些衍生模型充分借鉴了 SAM的零样本泛化能力,使得使用参考图像及用户输入的涂鸦、文字等信息,在模糊或者剧烈变形的视频中也可以准确地分割参考对象。如图 29 所示,SEEM 可以在跑酷、运动和游戏等视频中准确分割指定对象。对于这些运动场景的视频,传统的图像分割算法难以处理,因为场景中存在着复杂的背景和快速移动的目标物体。但是,SEEM 模型不仅可以准确地识别参考对象,还可以消除背景干扰,从而提高分割的精度。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券
60、研究报告20图29:SEEM 在跑酷、运动、游戏视频中可以准确分割参考对象资料来源:Xueyan Zou and Jianwei Yang and Hao Zhang and Feng Li and Linjie Li and Jianfeng Wangand Lijuan Wang and Jianfeng Gao and Yong Jae Lee.Computer Science.(2023).,国信证券经济研究所整理该功能除了在运动场景中体现之外,还可赋能安防、视频监控等赛道。在这些领域中,需要实现对视频中的物体进行精确分割,以便进行后续的识别和处理。SEEM和 SAM-Track 可以
61、通过输入提示准确判断目标物体,并进行精确分割。这种分割功能可以为安防、视频监控等领域带来更高效、准确和智能化的处理能力。综上所述,SAM 及其衍生的 SEEM 和 SAM-Track 模型具有强大的视频和动态图像分割功能,并能够在运动场景、安防、视频监控等领域发挥重要作用。随着技术的不断进步和应用场景的扩展,这些模型在未来将会有更加广泛的应用前景。解决长尾难题解决长尾难题,赋能自动驾驶赋能自动驾驶在自动驾驶领域中,技术上的长尾问题是当前自动驾驶商业化进程中的主要制约因素。虽然现有技术已经实现了 90%以上道路场景的自动驾驶,但由于路面环境和车辆行驶情况的不可预测性,剩下 10%的长尾场景依然存
62、在很大难度。这些长尾场景通常涉及到突发事件、复杂地形或气候条件等极端情况,例如强烈的降雨、暴风雪、雷电等,这些情况会对自动驾驶系统的识别和决策能力产生很大挑战。此外,在城市交通中,还有一些特殊情况需要考虑,如非机动车、行人和建筑物等存在的影响,这些都增加了自动驾驶系统的复杂度和难度。长尾场景如果不得到解决,自动驾驶就始终无法落地。为了解决长尾问题,自动驾驶技术需要集成更多的算法和传感器,并通过数据采集和深度学习等手段提高系统的智能水平。例如,可以结合雷达、摄像头、激光雷达等传感器进行数据融合,提高目标物体的识别和跟踪能力,同时可以通过深度学习算法实现对复杂场景的模拟和预测。此外,也可以引入人工
63、智能技术,让自动驾驶系统在长尾场景中不断学习和优化,以提高其适应性和泛化能力。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告21图30:城市道路场景中长尾场景较多资料来源:CSDN,国信证券经济研究所整理在自动驾驶领域中,SAM 可以用于对车辆行驶过程中的图像进行分割,以标注出图像中的不同物体和区域。自动驾驶系统需要实时地对路面情况进行感知,以便做出合适的决策。因此,对道路标记、车道线、行人、交通信号灯等物体和区域进行准确的标注非常重要。传统的手动标注方法需要大量的时间和人力成本,而且容易出现误差。使用 SAM可以自动地进行图像分割和物体识别,从而大大减少了标注的成本;与
64、传统的机器学习算法相比,SAM 可以更好地处理复杂的场景和变化,具有更高的准确性和稳定性。此外,SAM 还可以与其他深度学习模型结合使用,例如目标检测和路径规划等模型,从而帮助自动驾驶系统更加准确地感知和理解周围环境,以实现安全、高效的自动驾驶。例如,在行人识别和车道线跟踪中使用 SAM 可以帮助自动驾驶系统更好地预测行人和车辆运动轨迹,从而避免潜在的交通事故发生。总之,SAM 是一项非常有用的技术,它可以大大减少标注成本,并提高标注的准确性和效率。在自动驾驶领域中,SAM 的应用将会越来越广泛,为自动驾驶技术的快速发展和商业化进程做出贡献。提高分割性能提高分割性能,赋能赋能遥感图像遥感图像遥
65、感图像是一种通过卫星、飞机等遥测手段获取地球表面信息的重要手段,具有多样化、全覆盖、高精度等特点,成为现代科技发展中不可或缺的一部分。它的应用领域十分广泛,包括环境监测、自然资源管理、城市规划、灾害预警等方面。遥感的数据类型分为很多种:包括光学遥感数据、光谱数据、SAR 雷达数据、无人机数据等。遥感数据的处理一般分为 2 个部分:(1)首先是遥感地面处理系统接收来自天上的卫星数据,通过大气校正、匀光匀色、裁剪分割等处理将原始的太空图像变成可以进一步识别、处理的图像;(2)在上述的基础上,对遥感图像进一步处理,包括图像的解译等,其中解译主要完成对太空遥感图像中具体物体的识别工作,此前主要是通过人
66、工协助完成。遥感图像因其多样性、复杂性、数据量大等特点,在处理过程中存在很多挑战和困难。其图像处理经历了三个阶段:(1)人工解译阶段,这个阶段完全依赖标注人员进行图像解释,人工成本高且解译成果转化率低;(2)AI+遥感阶段,这个阶段 AI 技术已经对遥感图像处理有一定的帮助,通过 AI模型以及算力的支持,有效缓解了图像解译的工作痛点,同时实现了人机协同。请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告22随着遥感、测绘等对比观测平台及卫星数量不断增长,AI+遥感的结合为图像解译提供了更多可能性;(3)随着大型神经网络模型的发布,遥感图像的解译工作有望进入到大模型阶段。图31
67、:遥感图像处理发展阶段资料来源:航天宏图官网,国信证券经济研究所整理SAM 大模型作为一种新兴的图像分割技术,为处理遥感图像提供了全新的思路和方法。它基于深度学习算法,对遥感图像进行统一的分割、识别、生成,大幅提升遥感解译工作的效率;使用 SAM 模型进行遥感图像分割,可以帮助用户快速准确地生成高质量的地图和三维模型,提高环境监测和资源管理的效率和精度。此外,SAM 模型还可以支持多源数据融合,将遥感图像和其他数据结合起来,得到更全面、更精准的分析结果。遥感数据处理效率的提升也为下游的遥感应用爆发打下了良好的基础。图32:大模型应用于遥感图像处理资料来源:航天宏图官网,泰伯网,国信证券经济研究
68、所整理SAM 大模型在处理阴影、掩体分割等难度较高的分割任务时仍然面临着相当大的挑战(如图 24 所示),如在自然场景中很难准确分割出隐蔽动物的区域并进行定位。遥感图像分割任务涉及一些微妙的视觉线索和复杂的背景,需要模型具有更高的感知力和识别能力,这导致 SAM 模型无法做到“分割一切”,尤其是在处理一些细节方面还需要进一步提高其性能。但是,可以通过不断改进和优化来提高其性能。例如,可通过引入更多的数据集进行训练,或采用更加先进的神经网络架构来提升模型的感知力和识别精度,SAM 的衍生模型 SAM-adapter 也可以通过增加适配器的方式解决 SAM 在某些分割任务中表现不佳的问题,以及下文
69、介绍的RS-promter:请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告23在 SAM 发布之后,有专家团队二次创作了基于 SAM 基础模型的遥感图像实例分割的 prompt learning 方法,这使得 SAM 能够为遥感图像生成语义可辨别的分割结果,该方法称之为 RSPrompter。它与原始的 SAM 不同,不需要手动制作 prompt,RSPrompter 的目标是自动生成 prompt,以自动获取语义实例级掩码。此方法不仅适用于 SAM,还可以扩展到其他基础模型。从实现上,该团队提出了两种方案:基 于 预 设 锚 点 的 RSPrompter-anchor
70、和 基 于 查 询 与 最 优 传 输 匹 配 的RSPrompter-query。图33:基于锚点的 prompter图34:基于查询的 prompter资料来源:Keyan Chen and Chenyang Liu and Hao Chen and HaotianZhang and Wenyuan Li and Zhengxia Zou and Zhenwei Shi.ComputerScience.(2023).,国信证券经济研究所整理资料来源:Keyan Chen and Chenyang Liu and Hao Chen and HaotianZhang and Wenyuan L
71、i and Zhengxia Zou and Zhenwei Shi.ComputerScience.(2023).,国信证券经济研究所整理为验证 RSPrompter 的效果进行了系列的实验。这些实验不仅证明了每个组件的有效性,还在三个公共遥感数据集上显示出其对比其他先进实例分割技术以及基于SAM 的方法都有优越的性能。图35:大模型为空天信息产业带来了驱动和挑战资料来源:航天宏图官网,国信证券经济研究所整理此外,大模型为遥感图像领域的研究和应用带来了新的驱动力和挑战。大模型在基于 SAR、光学、多光谱卫星、无人机航拍等多模态时空遥感数据领域具有广泛的应用,可以依托开源大模型基础结构,面向遥
72、感数据进行定制化模型研发,实现一站式、全流程遥感大模型构建能力;其次,通过支持亿级模型参数和标注数据量下降,大模型可以实现更高效、精准的遥感数据处理和分析,并赋能影像智能检索与推送、地物智能提取采编、数字孪生产品线等领域;在未来还要将大模型训练与小模型部署相结合,达到更好的落地应用。总的来说,传统的图像处理方法在面对遥感影像处理的挑战时,常常难以满足实请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告24际需求,不能够达到高精度和高效率的要求。因此,采用大型模型来处理遥感图像已经成为当前研究的一个重要方向。SAM 模型赋能遥感图像,具有重要的意义和应用价值。它为遥感图像领域的
73、研究和应用带来了新的机会和挑战,也为人们更好地认识和利用地球资源提供了更好的技术支持。算力应用驱动算力应用驱动,赋能赋能机器视觉机器视觉机器视觉机器视觉的的功能主要归类为四种:识别、测量、定位、检测功能主要归类为四种:识别、测量、定位、检测。1)识别:基于目标物的特征进行甄别,例如外形、颜色、字符、条码等,要求高速度和高准确度;2)测量:将图像像素信息标定成常用的度量衡单位并在图像中精确计算出目标物的几何尺寸。复杂形态测量+高精度是机器视觉的优势领域;3)定位:获取目标物体的二维或者三维位置信息。定位精度和速度是主要参考指标;4)检测:一般指外观检测,内涵种类繁多。如产品装配后的完整性检测、外
74、观缺陷检测(如是否有划痕、凹凸不平等)。图36:机器视觉四大功能及难度资料来源:中国机器视觉产业白皮书,国信证券经济研究所整理机器视觉是“智能制造之眼”,作为关键零部件广泛应用于工业自动化领域。典型的机器视觉系统包括:光源及光源控制器、镜头、相机、视觉控制系统(视觉处理分析软件及视觉控制器硬件)等,按照技术可分为基于硬件的成像技术和基于软件的视觉分析技术。机器视觉发展受到四大核心驱动力的影响机器视觉发展受到四大核心驱动力的影响,包括成像包括成像、算法算法、算力和应用算力和应用。在这四个方面,每个都对机器视觉的发展产生了不可或缺的推动作用:图37:机器视觉发展历程资料来源:前瞻产业研究院,国信证
75、券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告25(1)应用驱动:传统制造业逐步采纳机器视觉技术,提高了其渗透率,同时新兴行业的崛起增加了机器视觉需求。例如,在智能制造领域,机器视觉技术可以帮助企业实现自动化生产,提高生产效率和产品质量;在智能医疗领域,机器视觉技术可以辅助医生进行诊断和治疗,提高医疗水平和治疗效果。(2 2)算力/算法驱动:自 21 世纪起,CPU 算力大幅增长,尤其是 2016 年后 AI 算法迅速进化,为机器视觉技术的发展带来推动。高性能计算设备强化了其计算能力,使图像处理更高效。AI 算法进展,如深度学习,为机器视觉在图像识别与分析
76、上开创了更多可能。AIAI 大模型的引入为机器视觉产业带来了技术底层的重大突破大模型的引入为机器视觉产业带来了技术底层的重大突破。目前,机器视觉领域的先进技术包括深度学习、3D 处理与分析、图像感知融合以及硬件加速图像处理等。这些技术和模型提升了机器视觉的智能应用能力,优化了图像识别的复杂度与精度,并降低成本,提高效率。图38:基于 AI 的轻量级人脸识别网络,可用于视频实时分析、安防监控等资料来源:Fernando Alonso-Fernandez and Kevin Hernandez-Diaz and Jose Maria Buades Rubio and JosefBigun.Comp
77、uter Science.(2023).,国信证券经济研究所整理AI 在机器视觉中的主要应用包括:1)物体检测和识别:用深度学习网络,如 CNN,识别图像中的对象。2)图像分类:适用于病变图像识别或图片库整理。3)场景理解:除识别物体,还分析对象间的关系,关键于机器人导航或监控系统。4)图像增强和恢复:如用超分辨率技术提高图像质量。5)实时分析:适用于实时监控领域。6)异常检测:在工业中预测故障或进行质检。7)3D 重建和增强现实:从 2D 提取 3D 信息或结合真实与虚拟对象。还有如 OCR、情感分析、手势识别等的应用。总之,AI 赋予机器视觉“理解”其所“看到”的能力,创造无数新机会。SA
78、M 是视觉领域重要的 AI 大模型,应用 SAM 可推进机器视觉领域的创新和进步。SAM 可直接应用在智慧城市中,提高交通监测、人脸识别等的效率;也可在智能制造中,增强视觉检测和质量控制;此外 SAM 可以与 OVD(Open-VocabularyDetection)技术结合自动,增强 SAM 的语义理解能力,自动地生成 SAM 需要的请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告26box 信息,强化用户交互。图39:OVD 目标检测基本流程资料来源:Zareian,K.D.Rosa,D.H.Hu and S.-F.Chang,.2021 IEEE/CVF Confer
79、ence on Computer Vision and Pattern Recognition(CVPR),(2021),pp.14388-14397,国信证券经济研究所整理投资建议投资建议AIAI 大模型驱动了空天信息产业的发展,通用性遥感大模型技术成为一种必然趋大模型驱动了空天信息产业的发展,通用性遥感大模型技术成为一种必然趋势。势。遥感图像解译工作正逐步迈向遥感大模型阶段,特别是随着 SAM 大模型的推出。与此前受限于人工成本和模型泛化能力不足的传统方法相比,大模型展现出对遥感图像进行统一的分割、识别和生成的潜力,从而极大提升解译效率。此外,在目标检测和要素分割领域,大模型展现出了显著的
80、鲁棒性,有效地降低了工作量。效率的增加、工作量的减少也为下游遥感应用的拓展带来益处,如地球环境检测、特种领域地形构建等。图40:AI 大模型驱动空天信息产业发展资料来源:航天宏图官方,国信证券经济研究所整理航天宏图发布天权大模型航天宏图发布天权大模型,可应用于多个领域可应用于多个领域。天权遥感大模型结合了 CV 和 NLP请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告27技术,专为遥感解译设计,如光学遥感、光谱数据、SAR 雷达和无人机数据等多种类型的遥感数据。经过多阶段的开发和优化,其功能强大,能够交互式自动提取分割图像,增强样本标注业务,提高模型的通用识别能力以及能够
81、自动学习生成物体。此外,未来还将推出 PIE-Engine studio,实现代码的自动生成。基于“天权”大模型的智能问答应用是面向遥感领域的人机对话协作系统,提供感知交互式的知识检索和内容生成能力,赋能国防安全、应急管理、交通水利、国土资源等多个领域。图41:天权大模型技术路线资料来源:航天宏图官方,国信证券经济研究所整理中科星图推出空天灵眸大模型,构建第二增长曲线。中科星图推出空天灵眸大模型,构建第二增长曲线。中科星图与空天院成功联手研发了名为“空天灵眸”的大模型。这一模型是基于 transformer 算法和自监督训练机制构建的。作为一个基座模型,空天灵眸可以通过下游的微调(fine-t
82、uning)实现更广泛的应用发展。例如,利用 dataplog 的数据基础,它能够在全国范围内精确提取建筑物的轮廓和高度,进一步实现精细化的土地分类。该大模型极好地融合了数据和算力,因此在公开的数据集上已取得了令人满意的成果。此外,中科星图正积极投身于在线数字地球业务,利用云服务模式迅速扩展,并推出了“GEOVIS Earth 星图地球”系列产品。这成功构建了第二增长曲线,不仅标志着公司业务的线上化转型,还拓展到了教育、文旅等新的应用领域。图42:中科星图“空天灵眸”大模型资料来源:中科星图,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容证券研究报告证券研究报告28风险提示
83、风险提示技术发展不及预期技术发展不及预期:SAM 为 CV 领域前沿研究进展,若后续 AI 算法技术更新迭代不及预期,可能会影响 CV 领域的分割演进,给技术迭代带来壁垒;。算力支持不及预期算力支持不及预期:AI 算法模型需要大量算力支持,如国内高科技企业发展、芯片发展被制约,模型将在算力支持方面受到限制;数据支持不及预期数据支持不及预期:CV 模型需要大量高质量数据进行训练。数据的数量和质量不足会影像模型训练结构,部分数据可能还涉及隐私问题;应用不及预期应用不及预期:SAM 模型为 CV 领域最前沿研究进展,与实际应用还有一定差距,后续可能会有应用落地不及预期风险;行业竞争加剧行业竞争加剧:
84、AI 领域市场前景广阔,吸引大量企业加入研究,可能有行业竞争加剧风险。证券研究报告证券研究报告免责声明免责声明分析师声明分析师声明作者保证报告所采用的数据均来自合规渠道;分析逻辑基于作者的职业理解,通过合理判断并得出结论,力求独立、客观、公正,结论不受任何第三方的授意或影响;作者在过去、现在或未来未就其研究报告所提供的具体建议或所表述的意见直接或间接收取任何报酬,特此声明。国信证券投资评级国信证券投资评级类别类别级别级别说明说明股票股票投资评级投资评级买入股价表现优于市场指数 20%以上增持股价表现优于市场指数 10%-20%之间中性股价表现介于市场指数 10%之间卖出股价表现弱于市场指数 1
85、0%以上行业行业投资评级投资评级超配行业指数表现优于市场指数 10%以上中性行业指数表现介于市场指数 10%之间低配行业指数表现弱于市场指数 10%以上重要声明重要声明本报告由国信证券股份有限公司(已具备中国证监会许可的证券投资咨询业务资格)制作;报告版权归国信证券股份有限公司(以下简称“我公司”)所有。,本公司不会因接收人收到本报告而视其为客户。未经书面许可,任何机构和个人不得以任何形式使用、复制或传播。任何有关本报告的摘要或节选都不代表本报告正式完整的观点,一切须以我公司向客户发布的本报告完整版本为准。本报告基于已公开的资料或信息撰写,但我公司不保证该资料及信息的完整性、准确性。本报告所载
86、的信息、资料、建议及推测仅反映我公司于本报告公开发布当日的判断,在不同时期,我公司可能撰写并发布与本报告所载资料、建议及推测不一致的报告。我公司不保证本报告所含信息及资料处于最新状态;我公司可能随时补充、更新和修订有关信息及资料,投资者应当自行关注相关更新和修订内容。我公司或关联机构可能会持有本报告中所提到的公司所发行的证券并进行交易,还可能为这些公司提供或争取提供投资银行、财务顾问或金融产品等相关服务。本公司的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中意见或建议不一致的投资决策。本报告仅供参考之用,不构成出售或购买证券或其他投资标的要约或邀请。在任何情况下,本报告中的信
87、息和意见均不构成对任何个人的投资建议。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。投资者应结合自己的投资目标和财务状况自行判断是否采用本报告所载内容和信息并自行承担风险,我公司及雇员对投资者使用本报告及其内容而造成的一切后果不承担任何法律责任。证券投资咨询业务的说明证券投资咨询业务的说明本公司具备中国证监会核准的证券投资咨询业务资格。证券投资咨询,是指从事证券投资咨询业务的机构及其投资咨询人员以下列形式为证券投资人或者客户提供证券投资分析、预测或者建议等直接或者间接有偿咨询服务的活动:接受投资人或者客户委托,提供证券投资咨询服务;举办有关证券投资咨询的讲座、报告会、
88、分析会等;在报刊上发表证券投资咨询的文章、评论、报告,以及通过电台、电视台等公众传播媒体提供证券投资咨询服务;通过电话、传真、电脑网络等电信设备系统,提供证券投资咨询服务;中国证监会认定的其他形式。发布证券研究报告是证券投资咨询业务的一种基本形式,指证券公司、证券投资咨询机构对证券及证券相关产品的价值、市场走势或者相关影响因素进行分析,形成证券估值、投资评级等投资分析意见,制作证券研究报告,并向客户发布的行为。证券研究报告证券研究报告国信证券经济研究所国信证券经济研究所深圳深圳深圳市福田区福华一路 125 号国信金融大厦 36 层邮编:518046总机:上海上海上海浦东民生路 1199 弄证大五道口广场 1 号楼 12 层邮编:200135北京北京北京西城区金融大街兴盛街 6 号国信证券 9 层邮编:100032