《计算机行业SAM动态跟踪:通用的图像分割方法降本拓新赋能工业、自动驾驶、安防等领域-230409(25页).pdf》由会员分享,可在线阅读,更多相关《计算机行业SAM动态跟踪:通用的图像分割方法降本拓新赋能工业、自动驾驶、安防等领域-230409(25页).pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、SAMSAM动态跟踪:通用的图像分割方法,降本拓新,赋能工业、动态跟踪:通用的图像分割方法,降本拓新,赋能工业、自动驾驶、安防等领域自动驾驶、安防等领域证券研究报告证券研究报告 行业动态报告行业动态报告发布日期:2023年4月9日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请参阅最后一页的重要声明。分析师:于芳博分析师:于芳博SAC编号:S01分析师:金戈分析师:金戈SAC编号:S01SFC编号:BPD352分析师
2、:分析师:阎贵成阎贵成SAC编号:S02SFC编号:BNS315 核心观点:核心观点:Meta发布发布SAM,成为成为CV图像分割领域的基础模型图像分割领域的基础模型,引起产学界较大反响引起产学界较大反响。SAM使用提示工程进行任务学习使用提示工程进行任务学习,能够通过交互式点击等操作实现图像物体的分割能够通过交互式点击等操作实现图像物体的分割,并且具有模糊感知能力并且具有模糊感知能力,很好解决了分割过程中产生的歧义问题很好解决了分割过程中产生的歧义问题,SAM在下游任务的零样本学习表现上成绩优秀在下游任务的零样本学习表现上成绩优秀,使得两种应用领域有了新的变化:一是原来
3、采用计算机视觉技术使得两种应用领域有了新的变化:一是原来采用计算机视觉技术,但是因为长但是因为长尾场景多尾场景多,需要大量标签数据需要大量标签数据,因此训练成本较高因此训练成本较高,有了大模型后可以大幅降低定制化开发产品成本有了大模型后可以大幅降低定制化开发产品成本,带来毛利率提升带来毛利率提升,比如工业中的机器视觉比如工业中的机器视觉、自动驾驶自动驾驶、安防等行业;二是原来没有用计算机视觉技术的领域安防等行业;二是原来没有用计算机视觉技术的领域,主要因为过去样本少难以应用主要因为过去样本少难以应用深度学习等深度学习等AI算法算法,由于由于SAM在零样本或者少量样本上表现优秀在零样本或者少量样
4、本上表现优秀,一些新的应用领域将被拓展一些新的应用领域将被拓展,比如从代码驱动变为视觉比如从代码驱动变为视觉驱动的机器人领域驱动的机器人领域、流程工业场景等流程工业场景等。4月月5日日,Meta发布发布Segment Anything Model,即即SAM,用来处理用来处理CV领域的图像分割领域的图像分割,引起学界引起学界/业界较大反响业界较大反响。SAM由一由一个图像编码器个图像编码器、一个提示编码器和一个掩码解码器组成一个提示编码器和一个掩码解码器组成,具有以下特点:具有以下特点:1)使用提示工程进行任务学习使用提示工程进行任务学习,交互式点击交互式点击、选选择框甚至文本操作进行物体分割
5、;择框甚至文本操作进行物体分割;2)具有模糊感知功能具有模糊感知功能,面对分割对象存在歧义时面对分割对象存在歧义时,可以输出多个有效掩码;可以输出多个有效掩码;3)与与ChatGPT类似类似,SAM巧妙的巧妙的将人工标注与大数据结合将人工标注与大数据结合(数据引擎数据引擎),最终实现了最终实现了“分割一切分割一切”的功能的功能。SAM在下游任务在下游任务领域表现优秀领域表现优秀,虽然在某些领域虽然在某些领域不如当前最优模型的表现不如当前最优模型的表现,但其良好的但其良好的zerozero-shotshot泛化能力依旧证明该模型性能的强悍泛化能力依旧证明该模型性能的强悍。英伟达人工智能科学家英伟
6、达人工智能科学家JimJim FanFan更是认为更是认为SAMSAM是是CVCV的的“GPTGPT-3 3时刻时刻”之一之一。我们认为我们认为SAM的提出对于的提出对于CV领域具有重要意义领域具有重要意义,会成为和会成为和CLIP一样同等重要的基础模型:一样同等重要的基础模型:图像分割是计算机视觉一个非图像分割是计算机视觉一个非常重要领域常重要领域,是当前该领域的前沿是当前该领域的前沿,甚至可以说是该领域的核心研究问题甚至可以说是该领域的核心研究问题,SAM的提出的提出,使得图像分割领域有了基础模型使得图像分割领域有了基础模型(foundation model),预计未来基于预计未来基于SA
7、M模型模型,CV领域尤其图像分割领域许多问题将迎刃而解;此外领域尤其图像分割领域许多问题将迎刃而解;此外,SAM整理了整理了SA-1B数据集数据集,是图像分割领域数据集的一个重要补充是图像分割领域数据集的一个重要补充。核心观点 RUlZkZQVgUiXnOsRpN6MaOaQsQpPnPsRiNmMrNjMmNnM6MrRuNxNoMoMvPpOqP核心推荐领域及标的SAM及其改良版本预计将被广泛应用于工业及其改良版本预计将被广泛应用于工业、自动驾驶自动驾驶、VR/AR、安防安防、卫星遥感等众多领域卫星遥感等众多领域,将催生巨将催生巨大应用蓝海大应用蓝海,建议持续跟踪建议持续跟踪。工业领域工业
8、领域:1)机器视觉机器视觉:国内工业视觉检测多数是面对长尾的缺陷检测场景做定制化开发:国内工业视觉检测多数是面对长尾的缺陷检测场景做定制化开发,因此相比于因此相比于海外的标准品公司海外的标准品公司,国内机器视觉公司毛利率普遍较低国内机器视觉公司毛利率普遍较低,未来大模型可以大幅降低定制化开发的产品未来大模型可以大幅降低定制化开发的产品,只只需要少量的样本需要少量的样本(比如苹果的几个缺陷产品比如苹果的几个缺陷产品)就可以部署产线了就可以部署产线了,建议关注建议关注【凌云光凌云光】、【奥普特奥普特】(机机械组覆盖械组覆盖);2)流程工业流程工业:生产流程及工艺:生产流程及工艺、生产线配置生产线配
9、置、原材料及产品类型均具有较大差异性原材料及产品类型均具有较大差异性,此前此前,由于样本少难以应用深度学习等由于样本少难以应用深度学习等AI算法算法,而而SAM在零样本或者少量样本上表现优秀在零样本或者少量样本上表现优秀,意味着意味着AI可以在更多可以在更多的石油化工装置的自适应控制的石油化工装置的自适应控制、诊断与预测预警诊断与预测预警、智能决策领域有新的应用智能决策领域有新的应用,重点推荐重点推荐【中控技术中控技术】;3)机器人领域机器人领域:切割机器人可以从过去的代码驱动变为视觉驱动:切割机器人可以从过去的代码驱动变为视觉驱动,处理更多样的应用场景处理更多样的应用场景,重点推荐重点推荐【
10、柏楚柏楚电子电子】。自动驾驶自动驾驶:自动驾驶长尾场景较多:自动驾驶长尾场景较多,导致很多物体识别不出来导致很多物体识别不出来、识别不准确或者识别成本高识别不准确或者识别成本高(需要大量标需要大量标签进行数据训练签进行数据训练),在在SAM的大模型基础上的大模型基础上,能零样本或者少量样本将物体分割出来能零样本或者少量样本将物体分割出来。通过进一步改进通过进一步改进,SAM可用于三维重建领域可用于三维重建领域,SAM良好的性能表现预计可以很好弥补原先图像分割在自动驾驶领域中的缺陷良好的性能表现预计可以很好弥补原先图像分割在自动驾驶领域中的缺陷,对于当前使用占用网络进行三维重建的自动驾驶来说对于
11、当前使用占用网络进行三维重建的自动驾驶来说,是另外一个技术催化是另外一个技术催化,重点推荐重点推荐【中科创达中科创达】、【德赛西威德赛西威】、【经纬恒润经纬恒润】。安防领域安防领域:过去一些长尾场景难以覆盖或者训练成本高:过去一些长尾场景难以覆盖或者训练成本高,对于安防领域的龙头公司对于安防领域的龙头公司,实际上就能覆盖更多实际上就能覆盖更多的场景的场景,结合制造业和渠道的优势结合制造业和渠道的优势,客户覆盖范围进一步增加客户覆盖范围进一步增加,建议关注建议关注【海康威视海康威视】、【大华股份大华股份】以以及及【千方科技千方科技】。AR/VR眼镜眼镜:通过将通过将ARAR眼镜集成眼镜集成SAM
12、SAM模型模型,可以从视野图像中切割出物体可以从视野图像中切割出物体,从而为用户选择视线关注的对从而为用户选择视线关注的对象象,在分割并锁定相关对象后在分割并锁定相关对象后,ARAR眼镜就可以根据该对象进行后续交互操作眼镜就可以根据该对象进行后续交互操作,让人机交互过程更加智能让人机交互过程更加智能。卫星遥感卫星遥感:随着卫星数的增加:随着卫星数的增加、遥感图像的时间和空间分辨率的提高遥感图像的时间和空间分辨率的提高,遥感数据呈现爆发式增长遥感数据呈现爆发式增长,如何利如何利用海量遥感数据服务人类生产生活越发重要用海量遥感数据服务人类生产生活越发重要。SAMSAM等等CVCV领域大模型可以更好
13、地检测领域大模型可以更好地检测、分割分割、追踪目标物追踪目标物,有利于更精准的分析图像信息有利于更精准的分析图像信息,建议关注建议关注【中科星图中科星图】。核心推荐领域及标的 目录一、计算机视觉一、计算机视觉二、二、SAMSAM模型介绍模型介绍三、三、SAMSAM模型应用模型应用四、风险提示四、风险提示 1.1 计算机视觉基本任务(1/2)计算机视觉领域中的基本任务包括:分类(计算机视觉领域中的基本任务包括:分类(Classification)、检测()、检测(Detection)、分割()、分割(Segmentation)。)。分类(分类(Classificaiton):对于输入的图像,判断
14、出图像中包含的物体的类别。):对于输入的图像,判断出图像中包含的物体的类别。如下左图所示,识别出图像中包括人(person)、羊(sheep)、狗(dog)三种对象。分类任务数据集:ImageNet、CIFAR-10、CIFAR-100、MNIST等分类任务网络结构:LeNet-5、AlexNet、VGG-16/VGG-19、GoogLeNet、ResNet等检测(检测(Detection):对于输入的图像,以包围框的方式确定图像中物体的几何位置,并识别出被框定物体的类别。):对于输入的图像,以包围框的方式确定图像中物体的几何位置,并识别出被框定物体的类别。如下右图所示,分别用三种不同颜色的框
15、框定出了人、羊、狗三种不同实体的位置。检测任务数据集:PASCAL VOC、MS COCO、mAP等检测任务网络结构:R-CNN、Fast R-CNN、YOLO、RetinaNet等图图:分类任务示意图:分类任务示意图图图:检测任务示意图:检测任务示意图资料来源:华为云,中信建投 1.2 计算机视觉基本任务(2/2)计算机视觉领域中的基本任务包括:分类(计算机视觉领域中的基本任务包括:分类(Classification)、检测()、检测(Detection)、分割()、分割(Segmentation)。)。分割(分割(Segmentation):对于输入的图像,判断出图像中的每个像素属于哪个物
16、体,相较于检测而言是更加进阶的任务。):对于输入的图像,判断出图像中的每个像素属于哪个物体,相较于检测而言是更加进阶的任务。如左图所示,不同颜色的区域代表着不同的物体对应的像素点。同时根据分割粒度的不同可以进一步划分为语义分割和实例分割,实例分割在语义分割的基础上进一步区分图像中同一种类的不同物体,例如右图将不同的方块(cube)进行分割便属于实例分割。分割任务数据集:PASCAL VOC 2012、MS COCO等分割任务网络结构:PSPNet、DenseASPP、SegNet等图图:分割任务示意图:分割任务示意图图图:语义分割和实例分割的差异:语义分割和实例分割的差异资料来源:华为云,中信
17、建投 1.3 分割任务的重要意义宏观层面上,分割任务为图像理解提供了基础。宏观层面上,分割任务为图像理解提供了基础。分割的准确率和精细度决定了从相关图像中提取信息的能力,也深刻影响着后续图像处理与分析相关环节的效果,是计算机视觉中提取、分析、推理图像中的相关信息的重要一环。微观层面上,分割任务提供细粒度的图像信息,为决策和后续图像处理提供便利。微观层面上,分割任务提供细粒度的图像信息,为决策和后续图像处理提供便利。分割任务通过像素级别的精确度对图像进行划分,一方面,分割后的图像可以直接展示图像中的相关信息,为人类决策提供辅助,如左图所示,直观展现出X光片中的不同的部分,另一方面,若进一步进行图
18、像分析处理,其减少了后续分析中的不相关信息,将使后续的图像处理过程的得到强化。图图:医学图像诊断中的分割:医学图像诊断中的分割图图:DeepLabV3DeepLabV3的的部分分割结果部分分割结果资料来源:Image Segmentation Using Deep Learning:A Survey、腾讯云,中信建投 1.4 分割任务的难点目前分割任务面临着分割对象形状不确定、图像中的对象干扰、高质量训练数据缺乏等三方面困难。1)图像中对象形状的不确定性使得对对象进行分割相较于通过矩形边界对对象进行框定更加困难。2)图像中可能存在对象目标小、数量多、相互重叠等干扰因素(如左图),导致难以区分和
19、识别出其中的对象。3)分割任务的训练数据集也需要对于图像的精确标注,一方面这部分数据难以从互联网数据中直接获取,另一方面进行相关的数据标注时间和人力成本高昂。图图:图像中对象之间存在干扰图像中对象之间存在干扰(对象数量对象数量500)500)图图:MsMs COCOCOCO数据集的部分标注结果数据集的部分标注结果资料来源:Segment Anything,Microsoft COCO:Common Objects in Context,中信建投 1.5 高质量数据集缺乏阻碍CV领域大模型应用数据作为人工智能模型训练的三要素,对模型的性能起到至关重要的作用,数据作为人工智能模型训练的三要素,对模
20、型的性能起到至关重要的作用,CV领域相关数据及数据获取方式的缺乏阻碍了大模型的进展:领域相关数据及数据获取方式的缺乏阻碍了大模型的进展:在NLP大模型的训练过程中,来自互联网的海量文本数据起到了重要的作用,其中著名的数据集如:Common Crawl。但是在CV领域中,除了应用于CLIP的海量图像-文本对外,缺乏获取方便、并能用于训练的高质量数据,因此对大模型在CV领域的推广产生了较大的阻碍。具体在分割任务中,过去的的数据标注方式效率低,成本高:具体在分割任务中,过去的的数据标注方式效率低,成本高:以Ms COCO数据集为例,数据标注需要经过,a)给图像中的物体相应的标签;b)给同种物体的不同
21、实例的位置标注;c)描绘出每一个实例的边缘以完成标注(如右图所示)。SAM模型提出了更为高效的数据标注方式,让大模型在分割任务中的应用成为可能:模型提出了更为高效的数据标注方式,让大模型在分割任务中的应用成为可能:标注者在SAM模型的辅助下,通过交互的方式注释图像。在交互式地注释方法下,完成一个目标(分割掩码)的注释只需要大约14秒,相较于过去 COCO 的完全手动基于多边形的掩码注释快 6.5 倍,比之前最大的数据注释工作快 2 倍。图图:MsMs COCOCOCO数据集的标注工作流程数据集的标注工作流程图图:MsMs COCOCOCO数据集的实例标注(数据集的实例标注(c c)界面)界面资
22、料来源:Microsoft COCO:Common Objects in Context,中信建投 目录一、计算机视觉一、计算机视觉二、二、SAMSAM模型介绍模型介绍三、三、SAMSAM模型应用模型应用四、风险提示四、风险提示 资料来源:Segment Anything,中信建投2.1 SAM使用提示工程进行任务学习SAMSAM从从NLPNLP领域得到灵感,将提示学习用于图像分割领域中。领域得到灵感,将提示学习用于图像分割领域中。提示是用来指示要分割图像的哪部分,可以是一些框、一组文等,可提示是用来指示要分割图像的哪部分,可以是一些框、一组文等,可提示的分割任务是要给定任何提示的情况下,返回
23、有效的分割掩码。“有效”指的是当分割掩码有多个或者不明确的时候,至少提示的分割任务是要给定任何提示的情况下,返回有效的分割掩码。“有效”指的是当分割掩码有多个或者不明确的时候,至少返回一个模型认为合理的结果。返回一个模型认为合理的结果。预训练阶段,预训练阶段,SAMSAM学习“提示学习“提示-掩码生成”的场景,即,为每个训练样本模拟一系列提示,然后将生成的掩码与基本的图像进行比掩码生成”的场景,即,为每个训练样本模拟一系列提示,然后将生成的掩码与基本的图像进行比较,从而学习到参数。较,从而学习到参数。图图表:表:SAMSAM任务情况任务情况图图表:表:SAMSAM任务详情任务详情1、使用提示工
24、程进行零样本学习2、提示是指要分割图像的哪部分,包括分割物体的空间或者文本信息3、提示不明确或者可能指代多个对象时,输出至少是其中的一个合理对象。资料来源:Segment Anything,中信建投2.2 SAM包括图像编码器、提示编码器和掩码解码器SAMSAM由一个图像编码器、一个提示编码器和一个掩码解码器组成。由一个图像编码器、一个提示编码器和一个掩码解码器组成。图像编码器将图像编码后的图像嵌套可以在不同提示下充分使用,给定一个图像嵌套,图像编码器将图像编码后的图像嵌套可以在不同提示下充分使用,给定一个图像嵌套,SAMSAM模型中的提示编码器和掩码解码器在模型中的提示编码器和掩码解码器在5
25、050毫秒的时间内预测掩码。毫秒的时间内预测掩码。为了让为了让SAMSAM有模糊感知功能,在模型设计上,为一个提示,设计多个掩码输出(有模糊感知功能,在模型设计上,为一个提示,设计多个掩码输出(SAMSAM发现发现3 3个掩码输出够用了)。个掩码输出够用了)。1、对SAM模型要求:支持灵活提示、实时性以及具有模糊感知;2、SAM包括图像编码器、提示编码器和一个轻量级的掩码解码器。图图表:表:SAMSAM模型情况模型情况图图表:表:SAMSAM模型详情模型详情图像编码器:MAE模型提示编码器:位置编码(点和框)与CLIP(文本)掩码解码器:Transformer Decoder 资料来源:Seg
26、ment Anything,中信建投2.3 使用数据引擎来构建数据集由于互联网上图像分割掩码并不丰富,因此由于互联网上图像分割掩码并不丰富,因此MetaMeta的研究者构建了一个数据引擎(的研究者构建了一个数据引擎(Data engineData engine)来收集)来收集1.1B1.1B的的SASA-1B1B数据集进行预数据集进行预训练,训练,数据引擎包括三个步骤,分别为手工辅助、半自动和全自动。数据引擎包括三个步骤,分别为手工辅助、半自动和全自动。第一阶段的手工辅助过程中,标注者参与到第一阶段的手工辅助过程中,标注者参与到SAMSAM模型的图像掩码标注过程,这个过程中从模型的图像掩码标注
27、过程,这个过程中从1212万张图片中得到万张图片中得到430430万个万个maskmask标注;第标注;第二阶段的半自动,二阶段的半自动,SAMSAM通过提示为一小部分图像进行自动化标注,人工标注图像中剩余的物体,这个过程中从通过提示为一小部分图像进行自动化标注,人工标注图像中剩余的物体,这个过程中从1818万张图片中得到万张图片中得到590590万万maskmask标注;第三阶段的全自动,使用规则网格对标注;第三阶段的全自动,使用规则网格对SAMSAM进行提示,对每张图像进行标注,最终得到进行提示,对每张图像进行标注,最终得到1111亿的亿的maskmask标注。标注。这与这与ChatGPT
28、ChatGPT RLHFRLHF有异曲同工之妙。有异曲同工之妙。最终,对于最终,对于11001100万张图像,万张图像,SAMSAM标注了标注了1010亿个掩码,每张图像平均生成约亿个掩码,每张图像平均生成约100100个高质量掩码。个高质量掩码。图图表:表:SAMSAM模型情况模型情况图图表:表:SAMSAM数据引擎详情数据引擎详情1、使用数据引擎构建带有掩码的图像2、数据引擎包括三个阶段:手工辅助、半自动、全自动3、每个阶段循序渐进,让数据引擎自动生成图像掩码,即类似于将图像的物体提取出来。资料来源:Segment Anything,中信建投2.4 能通过单点提取高质量图像部分SAMSAM
29、做了两组实验:做了两组实验:1 1、在、在2323个新数据集上,使用单点进行图像分割;个新数据集上,使用单点进行图像分割;2 2、在、在4 4个下游任务上进行零样本学习。个下游任务上进行零样本学习。在单点测试中,在单点测试中,SAMSAM在新的在新的2323个图像分割数据集上进行推理,结果发现,在个图像分割数据集上进行推理,结果发现,在1616个数据集中都要比原来交互式分割器个数据集中都要比原来交互式分割器RITMRITM的的SOTASOTA表表现的更好,现的更好,SAMSAM能够从单点生成高质量掩码。能够从单点生成高质量掩码。图图表:表:SAMSAM单点分割表现单点分割表现IoU:真实标签和
30、预测值的交和并的比值SAM比RITM在16个数据集上表现都更好SAM效果要好于RITM 资料来源:Segment Anything,中信建投2.5 SAM在各下游任务中零样本学习表现依旧出色SAMSAM在边缘检测、在边缘检测、object proposal generationobject proposal generation、实体分割、实体分割、text to masktext to mask等下游场景表现依旧出众,虽然某些领域下不如当前等下游场景表现依旧出众,虽然某些领域下不如当前最优模型的表现,但其良好的最优模型的表现,但其良好的zerozero-shotshot泛化能力依旧证明该模型
31、性能的强悍。泛化能力依旧证明该模型性能的强悍。图图表:表:SAMSAM进行边缘预测进行边缘预测图图表:通过文本提示进行图像切割表:通过文本提示进行图像切割图图表:零样本下,表:零样本下,SAMSAM能在目标能在目标proposalproposal生成任务表现优异生成任务表现优异图图表:人类评分中,表:人类评分中,SAMSAM在实例分割的表现优秀在实例分割的表现优秀 目录一、一、MetaMeta基本盘基本盘二、二、SAMSAM模型介绍模型介绍三、三、SAMSAM模型应用模型应用四、风险提示四、风险提示 资料来源:Meta,中信建投3.1 SAM可用于AR眼镜进行日常物体识别,增强人机交互Meta
32、Meta发布发布SAMSAM的一个重要应用领域是与的一个重要应用领域是与ARAR眼镜设备,例如眼镜设备,例如Meta QuestMeta Quest相结合;相结合;通过将通过将ARAR眼镜集成眼镜集成SAMSAM模型,可以从视野图像中切割出物体,从而为用户选择视线关注的对象;在分割并锁定相关对象后,模型,可以从视野图像中切割出物体,从而为用户选择视线关注的对象;在分割并锁定相关对象后,ARAR眼眼睛就可以根据该对象进行后续交互操作,让人机交互过程更加智能。睛就可以根据该对象进行后续交互操作,让人机交互过程更加智能。图图表:表:SAMSAM可通过可通过ARAR眼镜识别日常物体,对用户进行提示和指
33、导眼镜识别日常物体,对用户进行提示和指导 资料来源:Meta,中信建投3.2 基于SAM进行3D物体重建,将利好自动驾驶SAMSAM模型在图像分割领域表现优异,能够以零样本学习对图像进行很好的分割,因此,很自然的被迁移到其他视觉领域。例如,模型在图像分割领域表现优异,能够以零样本学习对图像进行很好的分割,因此,很自然的被迁移到其他视觉领域。例如,MetaMeta内部的团队将内部的团队将SAMSAM应用于应用于3D3D物体重建领域,开发出物体重建领域,开发出MCCMCC模型,在单图像的模型,在单图像的3D3D物体重建上表现优秀。物体重建上表现优秀。先进的自动驾驶视觉算法目前主要使用占用网络而并非
34、图像分割,主要是因为先进的自动驾驶视觉算法目前主要使用占用网络而并非图像分割,主要是因为2D2D场景下的图像分割转化为场景下的图像分割转化为3D3D过程将会出现不必要过程将会出现不必要的噪音。预计的噪音。预计SAMSAM在图像分割领域优秀的表现性能和其在在图像分割领域优秀的表现性能和其在3D3D物体重建领域的应用将推动自动驾驶视觉的技术进步。物体重建领域的应用将推动自动驾驶视觉的技术进步。此外,若此外,若SAMSAM应用于自动驾驶场景,预计可能将有助于汽车更好地识别车前物体,对于汽车驾驶判断有更好的帮助。应用于自动驾驶场景,预计可能将有助于汽车更好地识别车前物体,对于汽车驾驶判断有更好的帮助。
35、图图表:表:MetaMeta的的MCCMCC模型使用模型使用SAMSAM的输出进行的输出进行3D3D物体重建物体重建 资料来源:凌云光、赛迪顾问,中信建投3.3 工业机器视觉领域预计也将受益机器视觉目的是代替人眼对被测物进行观察和判断,硬件设备主要包括光源、镜头、相机等,软件主要包括传统的数字图像处理机器视觉目的是代替人眼对被测物进行观察和判断,硬件设备主要包括光源、镜头、相机等,软件主要包括传统的数字图像处理算法和基于深度学习的图像处理算法。机器视觉系统的算法软件部分是利用计算机视觉算法对获取图像进行分析,进而为进一步算法和基于深度学习的图像处理算法。机器视觉系统的算法软件部分是利用计算机视
36、觉算法对获取图像进行分析,进而为进一步决策提供所需信息,其中图像分割是机器视觉中重要一环。决策提供所需信息,其中图像分割是机器视觉中重要一环。工业机器视觉领域一大痛点在于其可用样本较为匮乏,类似工业机器视觉领域一大痛点在于其可用样本较为匮乏,类似SAMSAM的基础模型出现,将成为推动工业领域智能化转向的关键。的基础模型出现,将成为推动工业领域智能化转向的关键。国内工业视觉检测多数是面对长尾的缺陷检测场景做定制化开发,因此相比于海外的标准品公司,国内机器视觉公司毛利率普遍国内工业视觉检测多数是面对长尾的缺陷检测场景做定制化开发,因此相比于海外的标准品公司,国内机器视觉公司毛利率普遍较低,未来大模
37、型可以大幅降低定制化开发的产品,只需要少量的样本(比如苹果的几个缺陷产品)就可以部署产线。较低,未来大模型可以大幅降低定制化开发的产品,只需要少量的样本(比如苹果的几个缺陷产品)就可以部署产线。图图表:机器视觉系统构成表:机器视觉系统构成图图表:机器视觉底层算法表:机器视觉底层算法机器视觉系统机器视觉系统机器视觉装备机器视觉装备 资料来源:Meta,中信建投3.4 SAM将应用于涉及图像处理的各行各业除了虚拟现实、自动驾驶、工业领域外,除了虚拟现实、自动驾驶、工业领域外,SAMSAM在科研、医疗、卫星遥感等领域预计会有广泛应用。在科研、医疗、卫星遥感等领域预计会有广泛应用。图图表:表:SAMS
38、AM在医疗影像处理中的应用在医疗影像处理中的应用图图表:表:SAMSAM在卫星遥感领域中的应用在卫星遥感领域中的应用图图表:表:SAMSAM在砂岩切片中进行标记在砂岩切片中进行标记图图表:细胞科研领域中进行图像切割研究表:细胞科研领域中进行图像切割研究 目录一、一、MetaMeta基本盘基本盘二、二、SAMSAM模型介绍模型介绍三、三、SAMSAM模型应用模型应用四、风险提示四、风险提示 风险提示CV模型技术发展不及预期:模型技术发展不及预期:SAM属于先进AI算法,若后续算法更新迭代效果不及预期,则会影响CV图像分割演进及拓展,进而会影响其商业化落地等;算法隐私问题:算法隐私问题:SAM在进
39、行预训练过程中,使用了大量数据,其中会涉及相关隐私问题;应用不及预期:应用不及预期:SAM属于CV图像分割领域具有重大影响的新模型,预计后续会催生巨大应用,但该模型刚刚出现,与相关应用落地之间还存在一定距离,需要注意应用落地不及预期风险。算力基础设施支持不及预期:算力基础设施支持不及预期:美国制裁中国高科技企业,对中国形成芯片、算力的封锁,CV基础模型训练过程中需要大量算力资源,需要关注中美关系带来的中国算力的压力;数据数量与数据质量不及预期:数据数量与数据质量不及预期:CV基础模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会影响模型效果;伦理冲突风险:伦理冲突风险:SAM将进
40、一步推动人工智能迈向通用型人工智能,人工智能进一步智能化将产生人工智能欺骗、人工智能上瘾、人与人工智能之间的关系等一系列伦理问题;感谢辛侠平、陈思玥、樊文辉对本报告的贡献。分析师介绍分析师介绍阎贵成:阎贵成:中信建投证券通信&计算机行业首席分析师,北京大学学士、硕士,专注于云计算、物联网、信息安全、信创与5G等领域研究。近8年中国移动工作经验,6年多证券研究经验。系2019-2021年新财富、水晶球通信行业最佳分析师第一名,2017-2018年新财富、水晶球通信行业最佳分析师第一名团队核心成员。金戈:金戈:中信建投证券研究发展部计算机行业联席首席分析师,帝国理工学院工科硕士,擅长云计算、金融科
41、技、人工智能等领域。于芳博于芳博:中信建投计算机行业分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖方向智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向。评级说明评级说明投资评级标准评级说明报告中投资建议涉及的评级标准为报告发布日后6个月内的相对市场表现,也即报告发布日后的6个月内公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅作为基准。A股市场以沪深300指数作为基准;新三板市场以三板成指为基准;香港市场以恒生指数作为基准;美国市场以标普 500 指数为基准。股票评级买入相对涨幅15以上增持相对涨幅5%15中性相对涨幅-5%5之间减持
42、相对跌幅5%15卖出相对跌幅15以上行业评级强于大市相对涨幅10%以上中性相对涨幅-10-10%之间弱于大市相对跌幅10%以上 分析师声明分析师声明本报告署名分析师在此声明:(i)以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,结论不受任何第三方的授意或影响。(ii)本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。法律主体说明法律主体说明本报告由中信建投证券股份有限公司及/或其附属机构(以下合称“中信建投”)制作,由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。中信建投证券股份有
43、限公司具有中国证监会许可的投资咨询业务资格,本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格证书编号已披露在报告上海品茶。本报告由中信建投(国际)证券有限公司在香港提供。本报告作者所持香港证监会牌照的中央编号已披露在报告上海品茶。一般性声明一般性声明本报告由中信建投制作。发送本报告不构成任何合同或承诺的基础,不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料,但中信建投对这些信息的准确性及完整性不作任何保证。本报告所载观点、评估和预测仅反映本报告出具日该分析师的判断,该等观点、评估和预测可能在不发出通知的情况下有所变更,亦有可能因使用不同假设和标准或者
44、采用不同分析方法而与中信建投其他部门、人员口头或书面表达的意见不同或相反。本报告所引证券或其他金融工具的过往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基于相应的假设条件,而任何假设条件都可能随时发生变化并影响实际投资收益。中信建投不承诺、不保证本报告所含具有预测性质的内容必然得以实现。本报告内容的全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况,报告接收者应当独立评估本报告所含信息,基于自身投资目标、需求、市场机会、风险及其他因素自主做出决策并自行承担投资风险。中信建投建议所有投资者应就任何潜在投资向其税务、会计
45、或法律顾问咨询。不论报告接收者是否根据本报告做出投资决策,中信建投都不对该等投资决策提供任何形式的担保,亦不以任何形式分享投资收益或者分担投资损失。中信建投不对使用本报告所产生的任何直接或间接损失承担责任。在法律法规及监管规定允许的范围内,中信建投可能持有并交易本报告中所提公司的股份或其他财产权益,也可能在过去12个月、目前或者将来为本报告中所提公司提供或者争取为其提供投资银行、做市交易、财务顾问或其他金融服务。本报告内容真实、准确、完整地反映了署名分析师的观点,分析师的薪酬无论过去、现在或未来都不会直接或间接与其所撰写报告中的具体观点相联系,分析师亦不会因撰写本报告而获取不当利益。本报告为中
46、信建投所有。未经中信建投事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本报告全部或部分内容,亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本报告全部或部分内容。版权所有,违者必究。中信建投证券研究发展部中信建投证券研究发展部中信建投(国际)中信建投(国际)北京东城区朝内大街2号凯恒中心B座12层电话:(8610)8513-0588联系人:李祉瑶邮箱:上海浦东新区浦东南路528号南塔2103室电话:(8621)6882-1612联系人:翁起帆邮箱:深圳福田区福中三路与鹏程一路交汇处广电金融中心35楼电话:(86755)8252-1369联系人:曹莹邮箱:香港中环交易广场2期18楼电话:(852)3465-5600联系人:刘泓麟邮箱:charleneliucsci.hk25