计算机行业专题研究：AI应用SAM实现CV底层技术颠覆式创新或将赋能多场景应用-230412（17页）.pdf

编号：121953

PDF 17页 1.03MB 下载积分：VIP专享

下载报告请您先登录！

计算机行业专题研究：AI应用SAM实现CV底层技术颠覆式创新或将赋能多场景应用-230412（17页）.pdf

1、1证券研究报告作者：行业评级：上次评级：行业报告|请务必阅读正文之后的信息披露和免责申明计算机计算机强于大市强于大市维持2023年4月12日（评级）分析师缪欣君 SAC执业证书编号：S03分析师陈涵泊 SAC执业证书编号：S03AI应用：应用：SAM实现实现CV底层技术颠覆式创新，或将赋能多底层技术颠覆式创新，或将赋能多场景应用场景应用行业专题研究摘要2请务必阅读正文之后的信息披露和免责申明1、Meta发布发布SAM智能抠图，智能抠图，CV领域或迎来颠覆式技术创新领域或迎来颠覆式技术创新Meta研究部门发布了一篇名为其“Segment Anyth

2、ing”的论文，文中介绍了一个全新的Segment Anything Model（SAM），可以用于识别图像和视频中的物体，甚至是人工智能从未被训练过的物品。利用类NLP技术路线，完成CV底层技术突破，并且具有广泛的通用性，足以涵盖各种用例，不需额外训练就可开箱即用地用于新的图像领域，并具备零样本迁移的能力。2、Meta同时发布了迄今为止最大的分割数据集同时发布了迄今为止最大的分割数据集SA-1B，由，由1100万张图像及万张图像及11亿个掩码组成亿个掩码组成该数据集由1100万张多样化、高分辨率、保护隐私的图像，以及11亿个高质量分割掩码组成。SAM模型收集新的分割掩码速度较以往任何时候都要

3、快，交互式标注一个掩码只需要大约14秒。与以前的大规模分割数据收集工作相比，SAM模型比COCO完全手动的基于多边形的掩码标注快6.5倍，比以前最大的数据标注工作快2倍。此外，SA-1B比任何现有的分割数据集多出400倍的掩码。并且通过研究证实，这些掩码具有高质量和多样性。3、SAM 作为开源且更通用作为开源且更通用 AI 系统的强大组件，赋能工业、煤矿、电力、自动驾驶、安防监控等多场景系统的强大组件，赋能工业、煤矿、电力、自动驾驶、安防监控等多场景与专门为一组固定任务训练的系统相比，基于 prompt 工程等技术的可组合系统设计将支持更广泛的应用，可以预计，在未来，在任何需要在图像中查找和分

4、割对象的应用中，都有SAM的用武之地。SAM 可以成为 AR、VR、内容创建、科学领域和更通用 AI 系统的强大组件。4、投资建议：、投资建议：关注视觉领域技术型公司、多模态公司：关注虹软科技、当虹科技、万兴科技、千方科技、佳都科技等；关注煤矿、电力、自动驾驶等工业应用类公司：关注云鼎科技、智洋创新、北路智控、梅安森、美腾科技、锐明技术、东方电子等。5、风险提示风险提示：CV技术发展不及预期；应用落地不及预期；国内技术跟进不及预期；行业竞争加剧。PWgUjWVYgUgVnOmPoMbR8QbRtRrRtRnOiNoOrNlOnMoNbRmMuNvPtQqRMYmRmQSAM颠覆式创新，颠覆式创

5、新，NLP技术路线实现对技术路线实现对CV底层底层技术突破技术突破13请务必阅读正文之后的信息披露和免责申明1、Meta发布SAM智能抠图，CV领域或迎来颠覆式技术创新4请务必阅读正文之后的信息披露和免责申明Meta发布发布Segment Anything论文论文资料来源：Segment AnythingAlexander Kirillov etc.，天风证券研究所SAM能从照片或视频中对任意对象实现一键分割能从照片或视频中对任意对象实现一键分割4月月5日日，Meta研究部门发布了一篇名为其研究部门发布了一篇名为其“Segment Anything”的论文的论文，文中介绍了一个全新的文中介绍了

6、一个全新的SegmentAnything Model（SAM），可以用于识别图像和视频中的物体可以用于识别图像和视频中的物体，甚至是人工智能从未被训练过的物品甚至是人工智能从未被训练过的物品。利用类利用类NLP技术路线技术路线，完成完成CV底层技术突破底层技术突破。Segment Anything是致力于图像分割的第一个基础模型。在此之前，分割一直是CV领域的核心任务，然而如果想为特定任务创建准确的分割模型，通常需要专家进行高度专业化的工作，这个过程需要训练AI的基础设施，和大量仔细标注的域内数据，因此门槛极高。Meta提出的图像分割模型SAM接受了多样化数据训练的可提示模型，不仅能适应各种任

7、务，而且操作起来也类似于在NLP模型中使用提示的方式。该模型掌握了“什么是对象”这个概念，可以为任何图像或视频中的任何对象生成掩码，即使是它在训练中没有见过的对象。SAM具有广泛具有广泛的通用性的通用性，足以涵盖各种用例足以涵盖各种用例，不需额外训练就可开箱即用地用于新的图像领域不需额外训练就可开箱即用地用于新的图像领域，并具备零样本迁移的能力并具备零样本迁移的能力。资料来源：新智元微信公众号，天风证券研究所1、支持多种交互方式完成图像、视频分割5请务必阅读正文之后的信息披露和免责申明SAM三种分割图像方法演示三种分割图像方法演示资料来源：Segment Anything官网，天风证券研究所文

8、字查询完成图片分割文字查询完成图片分割资料来源：硅星人微信公众号，天风证券研究所除了简单的识别图片中的物品外除了简单的识别图片中的物品外，此次此次SAM还支持用户使用各种交还支持用户使用各种交互性的方式来分离出想要的物体互性的方式来分离出想要的物体。Meta官网中的三种分割图像部分方法演示：1）悬停与点击（Hover&Click），将鼠标置于用户想选定的物体上即可完成分割；2）框选（Box），将用户想选定的部分框选出来即可完成分割；3）全选（Everything），自动识别图像内所有物体。用户可以直接通过输入文字查询，AI可以帮助找到并标记图片中用户想要找的文字对象。对于视频中的物体，SAM也

9、能够准确识别并且还能快速标记出物品的种类、名字和大小，并自动用ID给这些物品进行记录和分类。Meta表示未来这一技术会跟AR/AR头显进行广泛结合。1、SAM可以针对任何提示返回有效的分割掩码6请务必阅读正文之后的信息披露和免责申明SAM在包含在包含10亿个掩码的多样化亿个掩码的多样化、高质量数据集上进行训练高质量数据集上进行训练，使得模型能够泛化到新的对象和图像使得模型能够泛化到新的对象和图像，用户不再需用户不再需要收集自己的细分数据要收集自己的细分数据，为用例微调模型为用例微调模型。研究人员训练的SAM可以针对任何提示返回有效的分割掩码。提示可以是前景/背景点、粗略的框或掩码、自由形式的文

10、本或总体上任何指示图像中需要分割的信息。1）SAM允许用户单击一下，或交互式单击许多点，来分割对象，还可以使用边界框提示模型；2）在面对被分割对象的歧义时，SAM可以输出多个有效掩码；3）SAM可以自动发现、屏蔽图像中的所有对象；4）在预计算图像嵌入后，SAM可以实时为任何提示生成分割掩码，允许用户与模型进行实时交互。SAM的图像编码器为图像产生一次性嵌入，而轻量级解码器将任何提示实时转换为矢量嵌入。然后将这两个信息源在一个预测分割掩码的轻量级解码器中结合起来。在计算出图像嵌入之后，SAM可以在短短50毫秒内生成一段图像，并在网络浏览器中给出任何提示。Segmentation model资料来

11、源：Segment AnythingAlexander Kirillov etc.，天风证券研究所SAM工作原理工作原理资料来源：Segment Anything官网，天风证券研究所1、同时发布SA-1B数据集，助力SAM模型提效7请务必阅读正文之后的信息披露和免责申明SA-1B掩码标注速度更快掩码标注速度更快资料来源：新智元微信公众号，天风证券研究所SA-1B比任何现有的分割数据集多出比任何现有的分割数据集多出400倍掩码倍掩码资料来源：新智元微信公众号，天风证券研究所除了发布的新模型除了发布的新模型，Meta还发布了迄今为止最大的分割数据集还发布了迄今为止最大的分割数据集SA-1B，由由1

12、100万张图像及万张图像及11亿个掩码组成亿个掩码组成。该数据集由该数据集由1100万张多样化万张多样化、高分辨率高分辨率、保护隐私的图像保护隐私的图像，以及以及11亿个高质量分割掩码组成亿个高质量分割掩码组成。数据集的整体特性有：1）图像总数：1100万；2）掩码总数：11亿；3）每张图像的平均掩码：100；4）平均图像分辨率：1500 x2250pixels。有了SAM模型，收集新的分割掩码速度较以往任何时候都要快，交互式标注一个掩码只需要大约14秒，每个掩码的标注过程只比标注边界框慢2倍，使用最快的标注界面，标注边界框大约需要7秒。与以前的大规模分割数据收集工作相比，SAM模型比COCO

13、完全手动的基于多边形的掩码标注快6.5倍，比以前最大的数据标注工作快2倍。依赖于交互式标注掩码并不足以创建10亿多个掩码数据集，因此Meta构建了一个用于创建SA-1B数据集的数据引擎。该数据引擎有三个齿轮，即1）模型辅助标注；2）全自动标注与辅助标注的混合，有助于增加收集到的掩码的多样性；3）全自动掩码创建，使数据集能够扩展。SA-1B比任何现有的分割数据集多出比任何现有的分割数据集多出400倍的掩码倍的掩码。并且通过研究证并且通过研究证实实，掩码具有高质量和多样性掩码具有高质量和多样性，在某些情况下在某些情况下，甚至在质量上可与之前规模更小甚至在质量上可与之前规模更小、完全手动标注数据集的

14、掩码相媲完全手动标注数据集的掩码相媲美美。最终的数据集包括超过11亿个分割掩码，这些掩码收集在大约1100万张授权和保护隐私的图像上。SAM 作为开源且更通用作为开源且更通用 AI 系统的强大组件，有望赋系统的强大组件，有望赋能工业、煤矿、电力、自动驾驶、安防监控等多场景能工业、煤矿、电力、自动驾驶、安防监控等多场景28请务必阅读正文之后的信息披露和免责申明2、SAM模型、数据集均已开源，通用性优异9请务必阅读正文之后的信息披露和免责申明Meta也推出了也推出了SAM模型的模型的Demo网页网页资料来源：AI前哨站微信公众号，天风证券研究所随着随着Meta推出推出SAM模型模型，Meta现已将

15、模型及其背后的训练数据集一并开源现已将模型及其背后的训练数据集一并开源。其模型背后巨大的训练数据集是当其模型背后巨大的训练数据集是当前最大的图像分割数据集前最大的图像分割数据集，可以通过可以通过Meta官网下载官网下载，模型也可在模型也可在GitHub上进行查看或下载上进行查看或下载。此外此外，Meta也推出也推出了了SAM模型的模型的Demo网页网页，点击即可进行试用点击即可进行试用。Meta认为：与专门为一组固定任务训练的系统相比认为：与专门为一组固定任务训练的系统相比，基于基于prompt工程等技术的可组合系统设计将支持更广泛的工程等技术的可组合系统设计将支持更广泛的应用应用。在未来在未

16、来，在任何需要在图像中查找和分割对象的应用中在任何需要在图像中查找和分割对象的应用中，都有都有SAM的用武之地的用武之地。SAM 可以成为可以成为 AR、VR、内容创建内容创建、科学领域和更通用科学领域和更通用 AI 系统的强大组件系统的强大组件。我们认为：我们认为：SAM不仅学会一般意义上的对象是什么不仅学会一般意义上的对象是什么，并且可并且可以为任何图像或视频中的任何对象生成掩码以为任何图像或视频中的任何对象生成掩码，甚至包括在训练过程中未遇到的对象和图像类型甚至包括在训练过程中未遇到的对象和图像类型，其具备的通用性其具备的通用性或将可以覆盖广泛的用例或将可以覆盖广泛的用例。在VR/AR领

17、域，SAM可以根据用户的视线选择对象，然后把对象提升为3D。SAM可以通过可以通过AR眼镜识别日常物体眼镜识别日常物体资料来源：数字经济先锋号微信公众号，天风证券研究所2、SAM有望赋能多场景应用：工业、煤矿、电力等10请务必阅读正文之后的信息披露和免责申明智能巡检机器人智能巡检机器人资料来源：煤矿数字化微信公众号，天风证券研究所AI智能巡检机器人取代人工劳动有着技术和安全上的优势智能巡检机器人取代人工劳动有着技术和安全上的优势，可以为监控中心提供详细而全面的生产现场实时可以为监控中心提供详细而全面的生产现场实时数据信息以及图像数据信息以及图像，形成煤矿大数据统计信息形成煤矿大数据统计信息，满

18、足事故预防及分析的需要满足事故预防及分析的需要。我们认为我们认为，在工业领域在工业领域，SAM有望赋能煤矿工业有望赋能煤矿工业、电力工业等领域的巡检机器人完成技术升维电力工业等领域的巡检机器人完成技术升维，从而提升相关工业生产效率及安全从而提升相关工业生产效率及安全水平水平。2023年3月11日中国煤科机器人公司与中国煤科沈阳研究院联合华为共同研发的“昇腾矿用轮式巡检机器人-领航者3”亮相，该产品将Atlas 500智能小站应用于机器人图像识别系统中，通过基于Atlas 500的仪器仪表图像识别和人员监测功能，可实现智能巡检机器人分析安全隐患，提升巡检效率。SAM可以进行可以进行3D物体重建物

19、体重建资料来源：新智元微信公众号，天风证券研究所2、SAM赋能多场景应用：自动驾驶、视频监控分析等11请务必阅读正文之后的信息披露和免责申明SAM在农业领域应用在农业领域应用资料来源：数字经济先锋号微信公众号，天风证券研究所我们认为我们认为，SAM可以赋能多场景的深度应用可以赋能多场景的深度应用，如道路场景中的自动驾驶如道路场景中的自动驾驶、体育运动场景中的视频监控分析及农业体育运动场景中的视频监控分析及农业领域中协助农民或科学家进行研究等领域中协助农民或科学家进行研究等。未来在像素级别的图像理解与更高级别的视觉内容语义理解之间未来在像素级别的图像理解与更高级别的视觉内容语义理解之间，我们将看

20、我们将看到更紧密的耦合到更紧密的耦合，进而解锁更强大的进而解锁更强大的 AI 系统系统。室内场景室内场景-扫地机器人扫地机器人资料来源：Segment Anything官网，天风证券研究所道路场景中的应用道路场景中的应用-自动驾驶自动驾驶体育运动场景体育运动场景-视频监控分析视频监控分析资料来源：Segment Anything官网，天风证券研究所资料来源：Segment Anything官网，天风证券研究所投资建议投资建议312请务必阅读正文之后的信息披露和免责申明3、投资建议13请务必阅读正文之后的信息披露和免责申明建议关注：建议关注：（1）关注视觉领域技术型公司、多模态公司：关注虹软科技

21、、当虹科技、万兴科技、千方科技、佳都科技等；（2）关注煤矿、电力、自动驾驶等工业应用类公司：关注云鼎科技、智洋创新、北路智控、梅安森、美腾科技、锐明技术、东方电子等。风险提示风险提示414请务必阅读正文之后的信息披露和免责申明4、风险提示15请务必阅读正文之后的信息披露和免责申明1、CV技术发展不及预期：技术发展不及预期：若后续AI算法技术更新迭代不及预期，那么可能会影响CV领域的分割演进，给技术迭代带来壁垒；2、应用落地不及预期：应用落地不及预期：SAM的应用落地具有广阔的想象空间，然而目前仅处于模型发布阶段，与场景应用落地还有一定距离。3、国内技术跟进不及预期国内技术跟进不及预期。4、行业

22、竞争加剧行业竞争加剧。16请务必阅读正文之后的信息披露和免责申明股票投资评级自报告日后的6个月内，相对同期沪深300指数的涨跌幅行业投资评级自报告日后的6个月内，相对同期沪深300指数的涨跌幅买入预期股价相对收益20%以上增持预期股价相对收益10%-20%持有预期股价相对收益-10%-10%卖出预期股价相对收益-10%以下强于大市预期行业指数涨幅5%以上中性预期行业指数涨幅-5%-5%弱于大市预期行业指数涨幅-5%以下投资评级声明投资评级声明类别类别说明说明评级评级体系体系分析师声明分析师声明本报告署名分析师在此声明：我们具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力，本报告

23、所表述的所有观点均准确地反映了我们对标的证券和发行人的个人看法。我们所得报酬的任何部分不曾与，不与，也将不会与本报告中的具体投资建议或观点有直接或间接联系。一般声明一般声明除非另有规定，本报告中的所有材料版权均属天风证券股份有限公司（已获中国证监会许可的证券投资咨询业务资格）及其附属机构（以下统称“天风证券”）。未经天风证券事先书面授权，不得以任何方式修改、发送或者复制本报告及其所包含的材料、内容。所有本报告中使用的商标、服务标识及标记均为天风证券的商标、服务标识及标记。本报告是机密的，仅供我们的客户使用，天风证券不因收件人收到本报告而视其为天风证券的客户。本报告中的信息均来源于我们认为可靠的

24、已公开资料，但天风证券对这些信息的准确性及完整性不作任何保证。本报告中的信息、意见等均仅供客户参考，不构成所述证券买卖的出价或征价邀请或要约。该等信息、意见并未考虑到获取本报告人员的具体投资目的、财务状况以及特定需求，在任何时候均不构成对任何人的个人推荐。客户应当对本报告中的信息和意见进行独立评估，并应同时考量各自的投资目的、财务状况和特定需求，必要时就法律、商业、财务、税收等方面咨询专家的意见。对依据或者使用本报告所造成的一切后果，天风证券及/或其关联人员均不承担任何法律责任。本报告所载的意见、评估及预测仅为本报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。过往的表现亦不应

25、作为日后表现的预示和担保。在不同时期，天风证券可能会发出与本报告所载意见、评估及预测不一致的研究报告。天风证券的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。天风证券没有将此意见及建议向报告所有接收者进行更新的义务。天风证券的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。特别声明特别声明在法律许可的情况下，天风证券可能会持有本报告中提及公司所发行的证券并进行交易，也可能为这些公司提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。因此，投资者应当考虑到天风证券及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突，投资者请勿将本报告视为投资或其他决定的唯一参考依据。THANKS17请务必阅读正文之后的信息披露和免责申明

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（计算机行业专题研究：AI应用SAM实现CV底层技术颠覆式创新或将赋能多场景应用-230412（17页）.pdf）为本站（潘多拉魔盒）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。