人工智能行业专题报告：多模态AI研究框架-230405（17页）.pdf

编号：121149

PDF 17页 6.98MB 下载积分：VIP专享

下载报告请您先登录！

人工智能行业专题报告：多模态AI研究框架-230405（17页）.pdf

1、行业评级：看好2023年4月5日多模态AI研究框架人工智能行业专题报告证券研究报告分析师刘雯蜀邮箱证书编号s02摘要0121、AI模型从单模态向多模态演进，未来有望实现认知智能：AI模型走向多模态必然性的三大因素：跨模态任务需求+跨模态数据融合+对人类认知能力的模拟。2、多模态 AI 融合多种数据，可大幅延伸应用场景：多模态 AI 能够实现基于文本、语音、图片、视频等多模态数据的综合处理应用，完成跨模态领域任务。3、多模态 AI 五大技术环节，模态融合为核心：多模态 AI 以模态融合为核心技术环节，围绕“表征-翻译-对齐-融合-联合学习”五大技术环节，解决实际场景下复杂

2、问题的多模态解任务。4、国内外多模态 AI 布局进展，关注 OpenAI 及谷歌动向：国内外大厂及科研院所自2021年起相继推出跨模态 AI 模型，目前OpenAI 及谷歌（DeepMind）布局较完善，未来有望基于各任务模型，构建多模态AI生态。5、重点关注标的：（1）基础层：大模型：三六零，科大讯飞；数据服务：海天瑞声（2）应用层：AI+工具：金山办公；AI+建筑：广联达；AI+法律：通达海；AI+医疗：创业慧康，久远银海；AI+教育：科大讯飞；AI+网安：安恒信息、奇安信；AI+金融：同花顺；AI+交通：佳都科技；AI+政务：拓尔思；AI+遥感：航天宏图；风险提示：1、AI技术发展不及

3、预期；2、版权、伦理和监管风险；AI模型：必将从单模态走向多模态，实现复杂场景下的智能决策013单模态多模态跨模态多模态神经搜索Jina AI光谱AI实现模态融合多模态AI数据：将多模态数据融合处理模型：更多融合人类脑神经机制，提升性能功能：实现智能决策、跨模态任务、运动控制、智能预测反馈来源：AWS，IBM Research，浙商证券研究所01多模态AI实现跨模态任务，应用场景丰富4Whisper 语音-文本架构应用领域融合内容联合架构视频分类语音、视频、文本事件检测语音、视频、文本情绪分析语音、视频、文本视觉问答图像、文本情感分析语音、视频、文本语音识别语音、视频协同架构跨模态搜索图像、文

4、本图像标注图像、文本跨模态嵌入图像、视频、文本转移学习图像、文本编解码器架构图像标注图像、文本视频解码视频、文本图像合成图像、文本多模态AI模型应用场景（按架构分）CLIP 文本-图像Make-a-Video 文本-视频模态融合来源：Github，面向深度学习的多模态融合技术研究综述，Make-a-video:text-to-video generation without text-video data，浙商证券研究所多模态AI以融合为核心，基于5大技术环节实现复杂问题解决015淘宝多模态特征融合方案表征（Representation）翻译（Translation）对齐（Alignment）

5、融合（Fusion）联合学习（Co-learning）目标实现模态互补剔除模态冗余模态映射模态子成分关联分析信息整合模态知识填充技术路线联合表示Example-based无监督方法早期/晚期融合Parrallel learning协同表示Decoder-Encoder监督方法多核学习Zero Shot图像模型方法图像模型Hybrid神经网络方法神经网络多模态AI的5大核心技术环节基于多模态融合的AI疾病诊断来源：阿里云，AIDD Pro，Multimodal Machine Learning：A Survey and Taxonomy，浙商证券研究所国内外大厂持续布局跨文本、图像、音视频等模态

6、的AI模型026TransformerGPT-3InstructGPT/GPT-3.5ChatGPT时间提出者模型名称功能意义2021年1月OpenAICLIP-DALLE以文搜图，按照文字描述生成对应图片CLIP的zero-shot learning技术在各种数据集上的表现都很好2021年5月GoogleMUM多功能统一模型可从 75 种不同语言中挖掘出的上下文信息对用户搜索结果进行优先排序2021年9月百度DocVQA跨模态文档理解登顶DocVQA榜首2021年11月NVIDAGauGAN2根据输入的文本/简笔画生成对应逼真的风景图、输入图像并编辑部分内容可用文字和图画混合创造逼真的艺术2

7、021年11月Microsoft&北大NvWa女娲实现文本/草图转图像、图像补全、文字指示修改图像视频、文字/草图转视频、视频预测等在8种图像和视频处理的视觉任务上具有出色的合成效果2021年12月NVIDAPoE GAN文字描述、图像分割、草图都可以转化为图片，还可同时接受以上几种输入模态的任意两种组合可以在单模态、多模态输入甚至无输入时生成图片。2022年1月百度ERNIE-ViLG图文双向生成刷新文本生成图像、图像描述等多个跨模态生成任务最好效果2022年1月MetaAu-HuBERT通过输入语音音频和唇语视频内容，输出对应文本在嘈杂的环境下，通过读唇可以将语言识别的准确性最高提升6倍。

8、2022年7月MetaMake-a-Scene文本生成图像，并允许文本输入进行有针对性创作用户获得更丰富的个人理念定制，从而生成更加具有针对性的画作2022年9月OpenAIWhisper语音生成文本，支持语音转录和翻译两项功能并接受各种语音格式多模态AI模型有望进入商用时代2022年11月MetaMake-a-Video文本、图片生成短视频，根据输入的自然语言文本生成一段5秒钟左右的短视频。AIGC进入视频创作领域2022年11月NVIDAMagic3D根据文字描述生成 3D 模型，可将低分辨率生成的粗略模型优化为高分辨率的精细模型3D建模效率更高，且成本更低来源：新浪VR，澎湃新闻，新智

9、元，阿里云，浙商证券研究所OpenAI以GPT为基石，深度布局多模态AI及各类应用027TransformerGPT-3GPT-1GPT-2GPT-3Instruct GPT论文年份20022Transformer层数124896参数量1.2亿15.8亿1750亿13亿预训练数据量5GB40GB45TBWhisper 语音-文本模型DALL-E2 文本-图像模型ChatGPTGPT模型迭代多样的模型调用接口来源：CSDN，电子工程世界，腾讯网，浙商证券研究所类别名称参数量基础版本Davinci1750亿Curie67亿Babbage10亿代码生成Code-Cushman-

10、001120亿关联分析Text-similarity-davinci-0011750亿Text-similarity-curie-00160亿028Whisper 语音-文本模型架构简单编码/解码器基于Transformer与其它单模态模型类似场景广泛语言学习残障交流智能翻译电子病历物美价廉准确率高英文：95.8%法语：91.7%中文：85.3%价格：0.006美元/分钟模型大小参数量纯英文模型多语种模型显存要求模型相对速度tiny39Mtiny.entiny1GB32xbase74Mbase.enbase1GB16xsmall244Msmall.ensmall2GB6xmedium76

11、9Mmedium.enmedium5GB2xlarge1550M large10GB1x模型选择灵活多样畅想GPT X.0ChatGPT+Whisper+DALL-E2+来源：Github，OSCHINA，浙商证券研究所Whisper模型发布，语音-文本多模态迭代显著029来源：OpenAI官网，GPT-4 Technical Report，ChinaDaily，EnterpriseAI，浙商证券研究所GPT-4实现多模态功能，逐步迈向商业应用GPT-4多模态复杂推理视觉功能深度语言理解性能提升模拟Bar：前10%生物奥赛：前1%其它测试：前20%人类测试表现优异ML测试进步显著多项超越GPT

12、3.5、SOTA长文本处理处理25,000+词内容与安全生成不被允许响应-82%符合事实的响应+40%New BingDuolingoBe my EyesStripeMorgan Stanley可汗学院冰岛政府语言教育图文转换欺诈识别金融知识库学习规划语言文化保护应用场景0210微软KOSMOS-1模型拥有16亿参数，解锁多模态功能来源：Language Is Not All You Need:Aligning Perception with Language ModelsMicrosoft，CSDN，浙商证券研究所图像解释图像问答网页内容问答数学计算内容识别图文交互模型亮点：将视觉信息与大规

13、模语言模型对齐语言任务跨模态迁移非语言推理视觉任务感知语言任务Google拥有多个跨模态AI模型，并提供多项功能服务模块0211GPT-3ChatGPTFlamingo 图像-文本LOLNerf 2D图像-3D图像Parti 文本-图像Phenaki 文本-视频类别模型功能计算机视觉Pix2Seq用于对象检测的语言建模框架多模式模型DeViSE视觉语义嵌入LiT将语义理解添加到图像模型PaLI多语种语言图像学习FindIt基于自然语言的通用对象定位VDTTS视觉驱动的文本到语音音频生成AudioLM基于语言建模的音频生成官方开源多个多模态模型来源：CSDN，新浪，Google Parti，浙

14、商证券研究所0112文心一言五大能力文学创作商业文案创作数学逻辑推理中文理解多模态生成模型表现事实性问答，作品内容理解，小说续写企业命名，Slogan创作，新闻稿写作解决鸡兔同笼问题成语解释，经济学理论解释，诗词创作图像、音频、视频生成平台服务具体功能AI开发框架飞桨AI模型生态文心百度完整业务生态数据650+合作伙伴构建丰富应用场景百度发布文心一言并持续迭代来源：百度文心一言，新浪财经，浙商证券研究所持续优化文心千帆百度全套文心大模型开发工具链第三方开源大模型PPT创作数字人直播带货机票、酒店预订收费模式0.012元/1000 tokens按调用输入输出总字数付费0213 基础层：大模型：三

15、六零，科大讯飞数据服务：海天瑞声应用层：AI+工具：金山办公；AI+建筑：广联达；AI+法律：通达海；AI+医疗：创业慧康，久远银海；AI+教育：科大讯飞；AI+网安：安恒信息、奇安信；AI+金融：同花顺；AI+交通：佳都科技；AI+政务：拓尔思；AI+遥感：航天宏图；重点关注标的点击此处添加标题添加标题点击此处添加标题点击此处添加标题点击此处添加标题点击此处添加标题点击此处添加标题添加标题点击此处添加标题点击此处添加标题添加标题点击此处添加标题添加标题95%风险提示 141、AI技术发展不及预期：当前以ChatGPT为代表的AI模型以及其他多模态AI模型发展仍不成熟，存在一定缺陷；2、版权

16、、伦理和监管风险：AIGC生成的内容依赖现有版权素材，另外不当使用或模型自身问题可能导致不良后果；点击此处添加标题添加标题点击此处添加标题点击此处添加标题点击此处添加标题点击此处添加标题点击此处添加标题添加标题点击此处添加标题点击此处添加标题添加标题点击此处添加标题添加标题95%行业评级与免责声明 15行业的投资评级以报告日后的6个月内，行业指数相对于沪深300指数的涨跌幅为标准，定义如下：1、看好：行业指数相对于沪深300指数表现10%以上；2、中性：行业指数相对于沪深300指数表现10%10%以上；3、看淡：行业指数相对于沪深300指数表现10%以下。我们在此提醒您，不同证券研究机构

17、采用不同的评级术语及评级标准。我们采用的是相对评级体系，表示投资的相对比重。建议：投资者买入或者卖出证券的决定取决于个人的实际情况，比如当前的持仓结构以及其他需要考虑的因素。投资者不应仅仅依靠投资评级来推断结论行业评级与免责声明16法律声明及风险提示本报告由浙商证券股份有限公司（已具备中国证监会批复的证券投资咨询业务资格，经营许可证编号为：Z39833000）制作。本报告中的信息均来源于我们认为可靠的已公开资料，但浙商证券股份有限公司及其关联机构（以下统称“本公司”）对这些信息的真实性、准确性及完整性不作任何保证，也不保证所包含的信息和建议不发生任何变更。本公司没有将变更的信息和建议向报告所

18、有接收者进行更新的义务。本报告仅供本公司的客户作参考之用。本公司不会因接收人收到本报告而视其为本公司的当然客户。本报告仅反映报告作者的出具日的观点和判断，在任何情况下，本报告中的信息或所表述的意见均不构成对任何人的投资建议，投资者应当对本报告中的信息和意见进行独立评估，并应同时考量各自的投资目的、财务状况和特定需求。对依据或者使用本报告所造成的一切后果，本公司及/或其关联人员均不承担任何法律责任。本公司的交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。本公司没有将此意见及建议向报告所有接收者进行更新的义务。本

19、公司的资产管理公司、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。本报告版权均归本公司所有，未经本公司事先书面授权，任何机构或个人不得以任何形式复制、发布、传播本报告的全部或部分内容。经授权刊载、转发本报告或者摘要的，应当注明本报告发布人和发布日期，并提示使用本报告的风险。未经授权或未按要求刊载、转发本报告的，应当承担相应的法律责任。本公司将保留向其追究法律责任的权利。联系方式17浙商证券研究所上海总部地址：杨高南路729号陆家嘴世纪金融广场1号楼25层北京地址：北京市东城区朝阳门北大街8号富华大厦E座4层深圳地址：广东省深圳市福田区广电金融中心33层邮政编码：200127 电话：(8621)80108518 传真：(8621)80106010

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（人工智能行业专题报告：多模态AI研究框架-230405（17页）.pdf）为本站（门前有颗枣树）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。